Große Sprachmodelle (LLMs) finden in nahezu allen Branchen Anwendung. Die Entwicklung von LLMs für Anwendungen mit natürlicher Sprache umfasst viele Phasen. Eine davon ist die Sicherstellung, dass LLMs keine gefährlichen Antworten oder schädlichen Inhalte erzeugen. Um dieses Problem zu lösen, setzen Entwickler ein sogenanntes „Red Team“ ein. Dieses besteht im Wesentlichen aus Personen, die Testeingaben generieren, welche die LLMs dazu veranlassen, gefährliche Ausgaben zu erzeugen.
Das Problem beim Einsatz eines menschlichen Red Teams besteht darin, dass die Rekrutierung teuer und zeitaufwendig ist. Daher Forscher am MIT eine neue Methode entwickelt, um Anwendungen für das Learning Learning Management (LLM) natürlicher Sprache mithilfe eines anderen LLM zu testen. Dieser Ansatz, das sogenannte Curiosity Driven Red Teaming (CRT), basiert auf maschinellem Lernen. Die Forschungsergebnisse wurden als Konferenzbeitrag auf der ICLR 2024 veröffentlicht und sind online verfügbar .
Neugiergetriebenes Red Teaming (CRT) ist besser
Zunächst wurde die Automatisierung der Arbeit menschlicher Red Teams durch die Erstellung eines Red-Team-Modells und dessen Training mittels Reinforcement Learning (RL) umgesetzt. Nach dem Testen des Red-Team-Modells war das Ergebnis zwar erfolgreich, jedoch mit einer geringen Anzahl effektiver Ergebnisse.
Dies bedeutet, dass das Ziel-LLM nicht präzise bewertet werden kann, da viele potenziell schädliche Prompts nicht berücksichtigt werden. Der Grund für die geringe Anzahl effektiver Ergebnisse liegt darin, dass das Red-Team-Modell darauf trainiert ist, hochschädliche und ähnliche Ergebnisse zu erzeugen. Das Belohnungssystem bewertet die provokanten Prompts anhand ihrer Effektivität bzw. Schädlichkeit. Es besteht kein Anreiz, jeden möglichen Prompt zu berücksichtigen, der das Ziel-LLM auslösen könnte.
Neugiergetriebenes Red Teaming (CRT) ist hingegen deutlich effektiver. CRT generiert eine Vielzahl von Reizen, die hochintelligente Modelle provozieren können. Dies liegt daran, dass CRT die Konsequenzen jedes Reizes in den Fokus rückt. Es verwendet unterschiedliche Wörter und Sätze, wodurch ein breiteres Spektrum an potenziell schädlichen Reaktionen erfasst wird. Während das Belohnungssystem im Reinforcement-Learning-Modell auf der Ähnlichkeit von Wörtern basiert, wird das CRT-Modell dafür belohnt, Ähnlichkeiten zu vermeiden und unterschiedliche Wörter und Muster zu verwenden.
Test von LLaMA2 auf toxische Aktivität
Die Forscher wandten neugierigkeitsgetriebenes Red Teaming (CRT) auf LLaMA2 an, ein Open-Source-LLM-Modell. CRT generierte 196 Prompts, die toxische Inhalte aus dem Open-Source-Modell erzeugten. LLaMA2 wird von Experten feinabgestimmt, um die Erzeugung schädlicher Inhalte zu verhindern. Die Forscher führten dieses Experiment mit GPT-2 durch, einem Modell mit 137 Millionen Parametern, das als klein gilt. Das Team schlussfolgerte, dass CRT eine wichtige Komponente zur Automatisierung von Red-Teaming-Arbeiten sein könnte. Der CRT-Code ist auf GitHub .
„Wir erleben derzeit eine rasante Zunahme an KI-Modellen, und diese Zahl wird voraussichtlich weiter steigen. Stellen Sie sich Tausende von Modellen vor, oft sogar noch mehr, und Unternehmen und Forschungseinrichtungen, die regelmäßig Updates veröffentlichen. Diese Modelle werden ein fester Bestandteil unseres Lebens werden, und es ist wichtig, dass sie vor ihrer Veröffentlichung verifiziert werden. Die manuelle Überprüfung von Modellen ist schlichtweg nicht praktikabel, und unsere Arbeit zielt darauf ab, den menschlichen Aufwand zu reduzieren, um eine sicherere und vertrauenswürdigere Zukunft für KI zu gewährleisten“, so Agrawal.
Die Zukunft der Entwicklung sicherer LLM-Modelle sieht vielversprechend aus. Durch kontinuierliche Forschung könnte das Ziel, sichere LLMs für beliebige Zwecke zu erstellen, effizient erreicht werden. Die Autoren dieser Studie haben bereits weitere verwandte Arbeiten in Bereichen wie automatisiertem Red Teaming und adversariellen Angriffen auf Sprachmodelle veröffentlicht.

