Große Sprachmodelle (LLMs) werden in fast jeder Branche zum Bestandteil. Die Entwicklung von LLMs für Anwendungen in natürlicher Sprache umfasst viele Phasen. Eine davon besteht darin, sicherzustellen, dass LLMs keine gefährlichen Reaktionen oder toxischen Inhalte hervorrufen. Um dieses Problem zu lösen, setzen Entwickler ein menschliches rotes Team ein, bei dem es sich im Wesentlichen um eine Gruppe von Personen handelt, die Eingabeaufforderungen erstellen, die LLMs dazu bringen, gefährliche Ausgaben auszuspucken.
Das Problem beim Einsatz eines menschlichen roten Teams besteht darin, dass seine Rekrutierung teuer ist und viel Zeit in Anspruch nimmt. Aus diesem Grund haben Forscher am MIT eine neue Methode zum Testen von LLM-Anwendungen in natürlicher Sprache mithilfe eines anderen LLM entdeckt. Dieser Ansatz wird als Curiosity Driven Red Teaming (CRT) bezeichnet und nutzt maschinelles Lernen als Grundlage. Die Forschung wurde als Konferenzpapier auf der ICLR 2024 veröffentlicht und ist online verfügbar .
Curiosity Driven Red Teaming (CRT) ist besser
Zunächst wurde der Ansatz zur Automatisierung der menschlichen Red-Teaming-Arbeit durch die Erstellung eines Red-Team-Modells und dessen Training mithilfe von Reinforcement Learning (RL) verfolgt. Nach dem Test des Red-Team-Modells war das Ergebnis erfolgreich, allerdings mit einer geringen Anzahl effektiver Ergebnisse.
Dies bedeutet, dass das Ziel-LLM nicht genau bewertet wird, da viele Eingabeaufforderungen, die zu einer toxischen Ausgabe führen können, nicht berücksichtigt werden. Der Grund für die geringe Anzahl effektiver Ergebnisse liegt darin, dass das Red-Team-Modell darauf trainiert ist, hochtoxische und ähnliche Ergebnisse zu erzielen. Das Belohnungssystem bewertet die provokativen Aufforderungen anhand ihrer Wirksamkeit oder Toxizität. Es besteht kein Anreiz, jede mögliche Eingabeaufforderung zu berücksichtigen, die das angestrebte LLM auslöst.
Der Einsatz von Curiosity Driven Red Teaming (CRT) ist dagegen wirkungsvoller. CRT erzeugt eine große Anzahl von Eingabeaufforderungen, die hochintelligente Modelle hervorrufen können. Dies liegt daran, dass sich CRT auf die Konsequenzen jeder Aufforderung konzentriert. Ziel ist es, unterschiedliche Wörter und Sätze zu verwenden, was zu einer breiteren Abdeckung toxischer Ausscheidungen führt. Das Belohnungssystem im Reinforcement-Learning-Modell konzentriert sich auf die Ähnlichkeit von Wörtern, während das CRT-Modell dafür belohnt wird, Ähnlichkeiten zu vermeiden und unterschiedliche Wörter und Muster zu verwenden.
Prüfung auf LLaMA2 auf toxische Ausscheidungen
Die Forscher wandten Curiosity Driven Red Teaming (CRT) auf LLaMA2 an, ein Open-Source-LLM-Modell. CRT konnte aus dem Open-Source-Modell 196 Eingabeaufforderungen ausgeben, die toxische Inhalte generierten. LLaMA2 wurde von menschlichen Experten fein abgestimmt, um die Produktion schädlicher Inhalte zu verhindern. Die Forscher führten dieses Experiment mit GPT2 durch, das als kleines Modell mit 137 Millionen Parametern gilt. Das Team kam zu dem Schluss, dass CRT eine entscheidende Komponente bei der Automatisierung der Red-Teaming-Arbeit sein könnte. Der CRT-Code ist auf Github .
„Wir sehen eine Flut an Modellen, die voraussichtlich noch zunehmen wird. Stellen Sie sich Tausende von Modellen oder noch mehr und Unternehmen/Labore vor, die regelmäßig Modellaktualisierungen vorantreiben. Diese Modelle werden ein wesentlicher Bestandteil unseres Lebens sein und es ist wichtig, dass sie überprüft werden, bevor sie für den öffentlichen Gebrauch freigegeben werden. Die manuelle Verifizierung von Modellen ist einfach nicht skalierbar und unsere Arbeit ist ein Versuch, den menschlichen Aufwand zu reduzieren, um eine sicherere und vertrauenswürdigere KI-Zukunft zu gewährleisten“, sagt Agrawal.
Die Zukunft der Entwicklung sicherer LLM-Modelle sieht rosig aus. Durch kontinuierliche Forschung könnte das Ziel, sichere LLMs für jeden Zweck zu schaffen, effizient erreicht werden. Die Forscher hinter diesem Artikel veröffentlichten weitere verwandte Arbeiten in Bereichen wie automatisiertes Red Teaming und gegnerische Angriffe in Sprachmodellen.
Die Originalgeschichte stammt von MIT News .