Forscher decken Schwachstellen in KI-Modellen auf und geben Anlass zur Besorgnis

- KI-Modelle, die explizite Bilder erzeugen und so Schwächen in Systemen wie Stable Diffusion von Stability AI und den DALL-E 2-Sicherheitsfiltern von OpenAI aufdecken.
- SneakyPrompt nutzt Reinforcement Learning, um Schwächen in den Richtlinien von Entwicklern aufzudecken und so durch Manipulation von KI-Modellen die Generierung verbotener Inhalte zu ermöglichen.
- Der Erfolg von SneakyPrompt wirft Bedenken hinsichtlich der Wirksamkeit der Sicherheitsmaßnahmen auf und fordert die KI-Community auf, die Sicherheit zu verbessern, um Missbrauch zu verhindern.
Forscher der Johns Hopkins University und der Duke University haben einen besorgniserregenden Fehler in führenden KI-Modellen entdeckt, darunter Stable Diffusion von Stability AI und DALL-E 2 von OpenAI. Der Fehler mit dem Namen „SneakyPrompt“ ermöglicht die Manipulation dieser Modelle zur Generierung expliziter und gewalttätiger Inhalte und umgeht dabei die von den Entwicklern festgelegten Sicherheitsfilter und -richtlinien.
Die auf dem IEEE Symposium on Security and Privacy vorgestellte Studie zeigt, wie leicht generative KI-Modelle dazu gebracht werden können, explizite und schädliche Bilder zu erzeugen. SneakyPrompt nutzt Reinforcement Learning, um scheinbar sinnlose Eingabeaufforderungen zu generieren, die, wenn sie den Modellen zugeführt werden, zur Erzeugung verbotener Inhalte führen. Diese Methode „knackt“ die KI quasi und umgeht etablierte Sicherheitsmaßnahmen.
Die Schwachstellen aufdecken
Stability AI und OpenAI, beides wichtige Akteure im Bereich der künstlichen Intelligenz, verfügen über robuste Sicherheitsfilter, um die Erstellung unangemessener Inhalte zu verhindern. SneakyPrompt zeigte jedoch, dass diese Schutzmechanismen nicht unfehlbar sind. Durch subtile Anpassungen der Eingabeaufforderungen gelang es den Forschern, die Sicherheitsvorkehrungen zu umgehen und die Modelle zur Erzeugung expliziter Bilder zu zwingen.
Die Technik von SneakyPrompt besteht darin, blockierte Wörter durch scheinbar zusammenhanglose, sinnlose Begriffe zu ersetzen, die die KI-Modelle so interpretieren, dass sie mit dem verbotenen Inhalt übereinstimmen. Beispielsweise führte das Ersetzen von „nackt“ durch einen Begriff wie „grponypui“ zur Generierung expliziter Bilder. Diese semantische Subversion verdeutlicht eine erhebliche Schwäche in der Fähigkeit der KI-Modelle, schädliche Inhalte zu erkennen.
Missachtung der Entwicklerrichtlinien
Die Arbeit dieser Forscher unterstreicht die potenziellen Risiken, die mit der Veröffentlichung von KI-Modellen im öffentlichen Bereich verbunden sind. Während Stability AI und OpenAI die Nutzung ihrer Technologie für explizite oder gewalttätige Inhalte ausdrücklich verbieten, deckt SneakyPrompt die Unzulänglichkeit der bestehenden Schutzmechanismen auf. Dies gibt Anlass zur Sorge hinsichtlich der Angemessenheit der Sicherheitsvorkehrungen und des potenziellen Missbrauchs von KI-Technologie.
Reaktion der Entwickler
Stability AI und OpenAI wurden umgehend über die Ergebnisse der Forscher informiert. Zum Zeitpunkt der Veröffentlichung dieses Artikels generierte OpenAIs DALL-E 2 keine nicht jugendfreien Bilder mehr als Reaktion auf diedentEingabeaufforderungen. Stability AIs Stable Diffusion 1.4, die getestete Version, ist jedoch weiterhin anfällig für SneakyPrompt-Angriffe.
OpenAI verzichtete auf eine Stellungnahme zu den konkreten Ergebnissen, verwies aber auf Ressourcen auf seiner Website zur Verbesserung der Sicherheit. Stability AI hingegen bekundete seine Bereitschaft zur Zusammenarbeit mit den Forschern, um die Schutzmechanismen zukünftiger Modelle zu verbessern und Missbrauch zu verhindern.
Zukünftigen Bedrohungen begegnen
Die Forscher erkennen die sich ständig weiterentwickelnde Natur der Sicherheitsbedrohungen für KI-Modelle an. Sie schlagen mögliche Lösungen vor, wie beispielsweise die Implementierung neuer Filter, die einzelne Token anstatt ganzer Sätze bewerten. Eine weitere Verteidigungsstrategie besteht darin, Eingabeaufforderungen mit Wörtern zu blockieren, die nicht in Wörterbüchern zu finden sind. Die Studie zeigt jedoch die Grenzen dieses Ansatzes auf.
Die Fähigkeit von KI-Modellen, Sicherheitsmaßnahmen zu umgehen, hat weitreichende Konsequenzen, insbesondere im Kontext der Informationskriegsführung. Das Potenzial zur Generierung von Falschmeldungen zu sensiblen Ereignissen, wie der jüngste Konflikt zwischen Israel und der Hamas gezeigt hat, nährt die Besorgnis über die katastrophalen Folgen von KI-generierter Desinformation.
Ein Weckruf für die KI-Community
Die Forschungsergebnisse dienen der KI-Community als Weckruf, Sicherheitsmaßnahmen zu überdenken und zu verstärken. Die von SneakyPrompt aufgedeckten Schwachstellen unterstreichen die Notwendigkeit kontinuierlicher Verbesserungen der Sicherheitsfilter, um die Risiken des Missbrauchs generativer KI-Technologien zu minimieren.
In einem sich rasant entwickelnden Feld ist die Entwicklung robuster Sicherheitsmaßnahmen unerlässlich, um zu verhindern, dass KI-Modelle für böswillige Zwecke manipuliert werden. Da KI in verschiedenen Bereichen eine immer wichtigere Rolle spielt, liegt es in der Verantwortung der Entwickler, potenziellen Bedrohungen stets einen Schritt voraus zu sein und den ethischen und sicheren Einsatz ihrer Technologien zu gewährleisten.
Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.
Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)















