NEUESTE NACHRICHTEN

live Iran bricht Friedensgespräche mit Trump wegen israelischer Angriffe auf den Libanon ab, was die Märkte sinken lässt

19. Juni 2026 – Live-Updates
Iran kündigt erneute Schließung der Straße von Hormuz an

vor 1 Stunde Wirtschaft
Großbritannien liefert sich einen neuen Streit mit großen Technologiekonzernen über die Forderungen nach Content-Promotion

Vor 3 Stunden Verordnung
ENS DAO prüft Vorschlag zur „temporären Überprüfung“ zur defider Rollen von DAO und Foundation

Nachrichten vor 3 Stunden

FÜR SIE AUSGEWÄHLT

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Forscher decken Schwachstellen in KI-Modellen auf und geben Anlass zur Besorgnis

Von

Derrick Clinton

3 Minuten Lesezeit , 17. November 2023

KI-Modelle, die explizite Bilder erzeugen und so Schwächen in Systemen wie Stable Diffusion von Stability AI und den DALL-E 2-Sicherheitsfiltern von OpenAI aufdecken.
SneakyPrompt nutzt Reinforcement Learning, um Schwächen in den Richtlinien von Entwicklern aufzudecken und so durch Manipulation von KI-Modellen die Generierung verbotener Inhalte zu ermöglichen.
Der Erfolg von SneakyPrompt wirft Bedenken hinsichtlich der Wirksamkeit der Sicherheitsmaßnahmen auf und fordert die KI-Community auf, die Sicherheit zu verbessern, um Missbrauch zu verhindern.

Forscher der Johns Hopkins University und der Duke University haben einen besorgniserregenden Fehler in führenden KI-Modellen entdeckt, darunter Stable Diffusion von Stability AI und DALL-E 2 von OpenAI. Der Fehler mit dem Namen „SneakyPrompt“ ermöglicht die Manipulation dieser Modelle zur Generierung expliziter und gewalttätiger Inhalte und umgeht dabei die von den Entwicklern festgelegten Sicherheitsfilter und -richtlinien.

Die auf dem IEEE Symposium on Security and Privacy vorgestellte Studie zeigt, wie leicht generative KI-Modelle dazu gebracht werden können, explizite und schädliche Bilder zu erzeugen. SneakyPrompt nutzt Reinforcement Learning, um scheinbar sinnlose Eingabeaufforderungen zu generieren, die, wenn sie den Modellen zugeführt werden, zur Erzeugung verbotener Inhalte führen. Diese Methode „knackt“ die KI quasi und umgeht etablierte Sicherheitsmaßnahmen.

Die Schwachstellen aufdecken

Stability AI und OpenAI, beides wichtige Akteure im Bereich der künstlichen Intelligenz, verfügen über robuste Sicherheitsfilter, um die Erstellung unangemessener Inhalte zu verhindern. SneakyPrompt zeigte jedoch, dass diese Schutzmechanismen nicht unfehlbar sind. Durch subtile Anpassungen der Eingabeaufforderungen gelang es den Forschern, die Sicherheitsvorkehrungen zu umgehen und die Modelle zur Erzeugung expliziter Bilder zu zwingen.

Die Technik von SneakyPrompt besteht darin, blockierte Wörter durch scheinbar zusammenhanglose, sinnlose Begriffe zu ersetzen, die die KI-Modelle so interpretieren, dass sie mit dem verbotenen Inhalt übereinstimmen. Beispielsweise führte das Ersetzen von „nackt“ durch einen Begriff wie „grponypui“ zur Generierung expliziter Bilder. Diese semantische Subversion verdeutlicht eine erhebliche Schwäche in der Fähigkeit der KI-Modelle, schädliche Inhalte zu erkennen.

Missachtung der Entwicklerrichtlinien

Die Arbeit dieser Forscher unterstreicht die potenziellen Risiken, die mit der Veröffentlichung von KI-Modellen im öffentlichen Bereich verbunden sind. Während Stability AI und OpenAI die Nutzung ihrer Technologie für explizite oder gewalttätige Inhalte ausdrücklich verbieten, deckt SneakyPrompt die Unzulänglichkeit der bestehenden Schutzmechanismen auf. Dies gibt Anlass zur Sorge hinsichtlich der Angemessenheit der Sicherheitsvorkehrungen und des potenziellen Missbrauchs von KI-Technologie.

Reaktion der Entwickler

Stability AI und OpenAI wurden umgehend über die Ergebnisse der Forscher informiert. Zum Zeitpunkt der Veröffentlichung dieses Artikels generierte OpenAIs DALL-E 2 keine nicht jugendfreien Bilder mehr als Reaktion auf diedentEingabeaufforderungen. Stability AIs Stable Diffusion 1.4, die getestete Version, ist jedoch weiterhin anfällig für SneakyPrompt-Angriffe.

OpenAI verzichtete auf eine Stellungnahme zu den konkreten Ergebnissen, verwies aber auf Ressourcen auf seiner Website zur Verbesserung der Sicherheit. Stability AI hingegen bekundete seine Bereitschaft zur Zusammenarbeit mit den Forschern, um die Schutzmechanismen zukünftiger Modelle zu verbessern und Missbrauch zu verhindern.

Zukünftigen Bedrohungen begegnen

Die Forscher erkennen die sich ständig weiterentwickelnde Natur der Sicherheitsbedrohungen für KI-Modelle an. Sie schlagen mögliche Lösungen vor, wie beispielsweise die Implementierung neuer Filter, die einzelne Token anstatt ganzer Sätze bewerten. Eine weitere Verteidigungsstrategie besteht darin, Eingabeaufforderungen mit Wörtern zu blockieren, die nicht in Wörterbüchern zu finden sind. Die Studie zeigt jedoch die Grenzen dieses Ansatzes auf.

Die Fähigkeit von KI-Modellen, Sicherheitsmaßnahmen zu umgehen, hat weitreichende Konsequenzen, insbesondere im Kontext der Informationskriegsführung. Das Potenzial zur Generierung von Falschmeldungen zu sensiblen Ereignissen, wie der jüngste Konflikt zwischen Israel und der Hamas gezeigt hat, nährt die Besorgnis über die katastrophalen Folgen von KI-generierter Desinformation.

Ein Weckruf für die KI-Community

Die Forschungsergebnisse dienen der KI-Community als Weckruf, Sicherheitsmaßnahmen zu überdenken und zu verstärken. Die von SneakyPrompt aufgedeckten Schwachstellen unterstreichen die Notwendigkeit kontinuierlicher Verbesserungen der Sicherheitsfilter, um die Risiken des Missbrauchs generativer KI-Technologien zu minimieren.

In einem sich rasant entwickelnden Feld ist die Entwicklung robuster Sicherheitsmaßnahmen unerlässlich, um zu verhindern, dass KI-Modelle für böswillige Zwecke manipuliert werden. Da KI in verschiedenen Bereichen eine immer wichtigere Rolle spielt, liegt es in der Verantwortung der Entwickler, potenziellen Bedrohungen stets einen Schritt voraus zu sein und den ethischen und sicheren Einsatz ihrer Technologien zu gewährleisten.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Derrick Clinton

Derrick ist freiberuflicher Autor mit Schwerpunkt auf Blockchain und Kryptowährungen. Er beschäftigt sich hauptsächlich mit Problemen und Lösungen von Kryptoprojekten und bietet Markteinblicke für Investitionen. Seine analytischen Fähigkeiten setzt er in seinen wissenschaftlichen Arbeiten ein.

INHALTSVERZEICHNIS

1. Die Schwachstellen aufdecken

2. Missachtung der Entwicklerrichtlinien

3. Reaktion der Entwickler

4. Zukünftigen Bedrohungen begegnen

5. Ein Weckruf für die KI-Community

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

Forscher decken Schwachstellen in KI-Modellen auf und geben Anlass zur Besorgnis

Die Schwachstellen aufdecken

Missachtung der Entwicklerrichtlinien

Reaktion der Entwickler

Zukünftigen Bedrohungen begegnen

Ein Weckruf für die KI-Community

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Forscher decken Schwachstellen in KI-Modellen auf und geben Anlass zur Besorgnis

Die Schwachstellen aufdecken

Missachtung der Entwicklerrichtlinien

Reaktion der Entwickler

Zukünftigen Bedrohungen begegnen

Ein Weckruf für die KI-Community

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.