Im sich rasant entwickelnden Feld der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) bleibt das Nationale Institut für Standards und Technologie (NIST) wachsam und beobachtet den KI-Lebenszyklus aufmerksam auf potenzielle Cybersicherheitslücken. Mit der zunehmenden Verbreitung von KI steigt auch die Zahl der entdeckten und ausgenutzten Schwachstellen, weshalb das NIST Taktiken und Strategien zur effektiven Risikominderung entwickelt.
Verständnis der Taktiken des adversariellen maschinellen Lernens (AML)
Adversarial Machine Learning (AML)-Taktiken zielen darauf ab, Einblicke in das Verhalten von ML-Systemen zutrac, um Angreifern deren Manipulation für betrügerische Zwecke zu ermöglichen. Prompt Injection stellt dabei eine erhebliche Schwachstelle dar, insbesondere bei generativen KI-Modellen.
Das NISTdentzwei Hauptarten von Prompt-Injection: direkte und indirekte. Direkte Prompt-Injection liegt vor, wenn ein Benutzer Text eingibt, der unbeabsichtigte oder unautorisierte Aktionen im KI-System auslöst. Indirekte Prompt-Injection hingegen beinhaltet die Manipulation oder Beeinträchtigung der Daten, auf die das KI-Modell zur Generierung von Antworten angewiesen ist.
Eine der berüchtigtsten Methoden zur direkten Eingabe von Eingabeaufforderungen ist DAN (Do Anything Now), die vor allem gegen ChatGPT eingesetzt wird. DAN nutzt Rollenspielszenarien, um Moderationsfilter zu umgehen und Nutzern so zu ermöglichen, Antworten zu erzwingen, die andernfalls herausgefiltert würden. Trotz der Bemühungen von Entwicklern, Sicherheitslücken zu schließen, bestehen DAN-Varianten weiterhin und stellen eine anhaltende Herausforderung für die KI-Sicherheit dar.
Verteidigung gegen Sofortinjektionsangriffe
Obwohl sich Prompt-Injection-Angriffe möglicherweise nicht vollständig verhindern lassen, schlägt das NIST verschiedene Verteidigungsstrategien zur Risikominderung vor. Modellentwicklern wird empfohlen, Trainingsdatensätze sorgfältig auszuwählen und Modelle so zu trainieren, dass sie schädliche Prompts erkennen und abweisen. Darüber hinaus kann der Einsatz interpretierbarer KI-Lösungen helfen, anomale Eingaben zu erkennen und zu verhindern.
Indirekte Prompt-Injektion stellt aufgrund ihrer Abhängigkeit von manipulierten Datenquellen eine erhebliche Herausforderung dar. Das NIST empfiehlt die Einbindung von Menschen in die Feinabstimmung von Modellen durch bestärkendes Lernen mit menschlichem Feedback (RLHF). Das Herausfiltern von Anweisungen aus den abgerufenen Eingaben und der Einsatz von KI-Moderatoren können die Abwehr gegen Angriffe durch indirekte Prompt-Injektion weiter verstärken.
Interpretierbarkeitsbasierte Lösungen bieten Einblicke in die Entscheidungsprozesse von KI- Modellen und helfen so, anomale Eingaben zu erkennen. Durch die Analyse von Vorhersageverläufen können Unternehmendentpotenzielle Angriffe
Die Rolle der IBM-Sicherheit im Bereich der KI-Cybersicherheit
Angesichts der sich stetig weiterentwickelnden Cybersicherheitslandschaft bleibt IBM Security führend und bietet KI-gestützte Lösungen zur Stärkung der Abwehr neuer Bedrohungen. Durch den Einsatz fortschrittlicher Technologien und menschlicher Expertise unterstützt IBM Security Unternehmen beim effektiven Schutz ihrer KI-Systeme.
Mit dem Fortschritt der KI-Technologie entwickeln sich auch die Taktiken von Angreifern weiter, die deren Schwachstellen ausnutzen wollen. Durch die Einhaltung der NIST-Empfehlungen und den Einsatz innovativer Lösungen von Branchenführern wie IBM Security können Unternehmen die Risiken von KI-Cyberbedrohungen minimieren und die Integrität und Sicherheit ihrer Systeme gewährleisten.

