NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Forschern gelingt es, KI-Chatbots mithilfe ihrer eigenen Methoden zu „knacken“

VonJohn PalmerJohn Palmer
3 Minuten Lesezeit

  • Forschern der NTU Singapur ist es gelungen, beliebte KI-Chatbots zu „knacken“ und dabei Schwachstellen in großen Sprachmodellen aufzudecken.
  • Die zweistufige Methode namens „Masterkey“ wurde verwendet, um KI-Chatbots zu kompromittieren, was die Notwendigkeit verbesserter Sicherheitsmaßnahmen unterstreicht.
  • Das andauernde Wettrüsten zwischen Hackern und Entwicklern wird die Zukunft der Sicherheit von KI-Chatbots prägen.

Singapur, 28. Dezember 2023 – Informatiker der Nanyang Technological University (NTU Singapur) haben einen Durchbruch erzielt, indem sie mehrere gängige KI-Chatbots, darunter ChatGPT, Google Bard und Microsoft Bing Chat, kompromittiert haben. Dieser erfolgreiche „Jailbreak“ der KI-Chatbots hat Bedenken hinsichtlich der Anfälligkeit großer Sprachmodelle (LLMs) und der Notwendigkeit verbesserter Sicherheitsmaßnahmen geweckt.

Forscher sprengen Grenzen und hacken KI-Chatbots

In einer wegweisenden Studie unter der Leitung von Professor Liu Yang von der Fakultät für Informatik und Ingenieurwesen der NTU deckte das Forschungsteam Schwachstellen in den Fähigkeiten von LLM-Chatbots auf. LLMs, die den Kern von KI-Chatbots bilden, erfreuen sich aufgrund ihrer Fähigkeit, menschenähnliche Texte zu verstehen, zu generieren und nachzuahmen, großer Beliebtheit. Sie eignen sich hervorragend für verschiedene Aufgaben, von der Reiseplanung über die Programmierung bis hin zum Geschichtenerzählen. Allerdings unterliegen diese Chatbots auch strengen ethischen Richtlinien ihrer Entwickler, um die Erstellung unethischer, gewalttätiger oder illegaler Inhalte zu verhindern.

Die Forscher wollten die Grenzen dieser Richtlinien ausloten und fanden innovative Wege, KI-Chatbots dazu zu bringen, Inhalte zu generieren, die gegen ethische Grenzen verstießen. Ihr Ansatz, bekannt als „Jailbreaking“, zielte darauf ab, die Schwachstellen von LLM-Chatbots auszunutzen und verdeutlichte damit die Notwendigkeit erhöhter Sicherheitsmaßnahmen.

Masterkey in der zweifachen Jailbreaking-Methode

Das Forschungsteam entwickelte eine zweistufige Methode, den sogenannten „Masterkey“, um LLM-Chatbots effektiv zu kompromittieren. Zunächst analysierten sie die Abwehrmechanismen, mit denen LLMs schädliche Anfragen erkennen und abweisen. Mit diesem Wissen trainierten die Forscher einen LLM, um Eingabeaufforderungen zu generieren, die diese Abwehrmechanismen umgehen konnten. Dadurch entstand ein LLM, der sich selbst knacken ließ.

Die Erstellung von Jailbreak-Aufforderungen könnte automatisiert werden, sodass das Jailbreaking-LLM sich anpassen und neue Aufforderungen generieren kann, selbst nachdem Entwickler ihre Chatbots gepatcht haben. Die Ergebnisse der Forscher, die in einem Artikel auf dem Preprint-Server arXiv detailliert beschrieben sind, wurden für die Präsentation auf dem Network and Distributed System Security Symposium im Februar 2024 angenommen.

Prüfung der Ethik im LLM-Bereich und der dabei aufgedeckten Schwachstellen

KI-Chatbots reagieren auf Nutzereingaben oder Anweisungen. Entwickler legen strenge ethische Richtlinien fest, um zu verhindern, dass diese Chatbots unangemessene oder illegale Inhalte generieren. Die Forscher untersuchten Möglichkeiten, Eingabeaufforderungen zu entwickeln, die von den ethischen Richtlinien der Chatbots unbemerkt bleiben und sie so zu einer Reaktion verleiten.

Eine angewandte Taktik bestand darin, eine Persona zu erstellen, die Eingabeaufforderungen mit Leerzeichen zwischen den einzelnen Zeichen lieferte. Dadurch wurden Keyword-Filter umgangen, die potenziellmatic Wörter kennzeichnen könnten. Zusätzlich wurde der Chatbot angewiesen, als eine Persona zu antworten, die „unverblümt und frei von moralischen Hemmungen“ agierte, was die Wahrscheinlichkeit erhöhte, unethische Inhalte zu generieren.

Durch die manuelle Eingabe solcher Eingabeaufforderungen und die Überwachung der Reaktionszeiten gewannen die Forscher Einblicke in die Funktionsweise und die Abwehrmechanismen von LLMs. Dieser Reverse-Engineering-Prozess ermöglichte es ihnen, Schwachstellen zudentund einen Datensatz mit Eingabeaufforderungen zu erstellen, die die Chatbots knacken können.

Ein eskalierendes Wettrüsten

Das ständige Katz-und-Maus-Spiel zwischen Hackern und LLM-Entwicklern hat die Sicherheitsmaßnahmen für KI-Chatbots verschärft. Werden Sicherheitslücken entdeckt, veröffentlichen die Entwickler Patches, um diese zu beheben. Mit der Einführung von Masterkey haben die Forscher jedoch das Kräfteverhältnis verschoben.

Ein mit Masterkey entwickelter KI-Chatbot zum Jailbreaking kann zahlreiche Eingabeaufforderungen generieren und sich kontinuierlich anpassen, indem er aus vergangenen Erfolgen und Fehlern lernt. Diese Entwicklung versetzt Hacker in die Lage, LLM-Entwickler mithilfe ihrer Tools auszutricksen.

Die Forscher erstellten zunächst einen Trainingsdatensatz, der sowohl erfolgreiche als auch erfolglose Eingabeaufforderungen aus der Reverse-Engineering-Phase enthielt, um das KI-Jailbreaking-Modell zu trainieren. Dieser Datensatz diente dem Training eines LLM (Late-Learning Machine), gefolgt von kontinuierlichem Vortraining und Aufgabenoptimierung. Dadurch wurde das Modell mit vielfältigen Informationen konfrontiert und seine Fähigkeit zur Textmanipulation für Jailbreaking verbessert.

Die Zukunft der Sicherheit von KI-Chatbots

Die von Masterkey generierten Prompts waren dreimal effektiver beim Jailbreak von LLMs als die von den LLMs selbst generierten Prompts. Das Jailbreaking-LLM zeigte zudem die Fähigkeit, aus vergangenen Fehlern zu lernen und ständig neue, effektivere Prompts zu erzeugen.

Mit Blick auf die Zukunft schlagen die Forscher vor, dass LLM-Entwickler selbst ähnliche automatisierte Ansätze nutzen könnten, um ihre Sicherheitsmaßnahmen zu verbessern. Dies würde eine umfassende Abdeckung und Bewertung potenzieller Missbrauchsszenarien gewährleisten, während sich LLMs weiterentwickeln und ihre Funktionen erweitern.

Der erfolgreiche Jailbreak von KI-Chatbots durch Forscher der NTU Singapur verdeutlicht die Schwachstellen von LLMs und unterstreicht die Notwendigkeit robuster Sicherheitsmaßnahmen in der KI-Entwicklung. Da KI-Chatbots zunehmend in den Alltag integriert werden, bleibt der Schutz vor potenziellem Missbrauch und ethischen Verstößen eine der wichtigsten Prioritäten für Entwickler weltweit. Das anhaltende Wettrüsten zwischen Hackern und Entwicklern wird die Zukunft der Sicherheit von KI-Chatbots zweifellos prägen.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

John Palmer

John Palmer

John Murangiri kam mit fundierten Kenntnissen in der Marktanalyse zu Cryptopolitan . John (auch bekannt als JP) hat an der Universität Nairobi einen Bachelor-Abschluss in Massenkommunikation und Medienwissenschaften erworben. Zuvor hat er bereits fürBitcoinund Metacoingraph Analysen zum Kryptomarkt beigesteuert.

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS