Your bank is using your money. You’re getting the scraps.WATCH FREE

Toxische KI ist ein Phänomen und wird für provokatives Verhalten belohnt 

In diesem Beitrag:

  • Große Sprachmodelle (LLMs) müssen sicher sein. Dies wird durch ein Verfahren namens Red Teaming erreicht. Manuelles Red Teaming ist kostspielig, kann aber durch den Einsatz eines Red-Team-LLMs automatisiert werden.
  • Neugiergetriebenes Red Teaming (CRT) ist besser, weil es eine breite Palette von Aufforderungen erzeugt, die zu toxischen Ergebnissen führen, und ein besseres Belohnungssystem hat. 
  • Bei Tests mit fortschrittlichen Modellen wie LLaMA2 erzeugte CRT 196 einzigartige Eingabeaufforderungen.

Große Sprachmodelle (LLMs) finden in nahezu allen Branchen Anwendung. Die Entwicklung von LLMs für Anwendungen mit natürlicher Sprache umfasst viele Phasen. Eine davon ist die Sicherstellung, dass LLMs keine gefährlichen Antworten oder schädlichen Inhalte erzeugen. Um dieses Problem zu lösen, setzen Entwickler ein sogenanntes „Red Team“ ein. Dieses besteht im Wesentlichen aus Personen, die Testeingaben generieren, welche die LLMs dazu veranlassen, gefährliche Ausgaben zu erzeugen. 

Das Problem beim Einsatz eines menschlichen Red Teams besteht darin, dass die Rekrutierung teuer und zeitaufwendig ist. Daher Forscher am MIT eine neue Methode entwickelt, um Anwendungen für das Learning Learning Management (LLM) natürlicher Sprache mithilfe eines anderen LLM zu testen. Dieser Ansatz, das sogenannte Curiosity Driven Red Teaming (CRT), basiert auf maschinellem Lernen. Die Forschungsergebnisse wurden als Konferenzbeitrag auf der ICLR 2024 veröffentlicht und sind online verfügbar .

Neugiergetriebenes Red Teaming (CRT) ist besser

Zunächst wurde die Automatisierung der Arbeit menschlicher Red Teams durch die Erstellung eines Red-Team-Modells und dessen Training mittels Reinforcement Learning (RL) umgesetzt. Nach dem Testen des Red-Team-Modells war das Ergebnis zwar erfolgreich, jedoch mit einer geringen Anzahl effektiver Ergebnisse. 

Dies bedeutet, dass das Ziel-LLM nicht präzise bewertet werden kann, da viele potenziell schädliche Prompts nicht berücksichtigt werden. Der Grund für die geringe Anzahl effektiver Ergebnisse liegt darin, dass das Red-Team-Modell darauf trainiert ist, hochschädliche und ähnliche Ergebnisse zu erzeugen. Das Belohnungssystem bewertet die provokanten Prompts anhand ihrer Effektivität bzw. Schädlichkeit. Es besteht kein Anreiz, jeden möglichen Prompt zu berücksichtigen, der das Ziel-LLM auslösen könnte. 

Siehe auch:  Beeinträchtigt KI-Ageismus das Wohlbefinden und die Gleichstellung älterer Frauen?

Neugiergetriebenes Red Teaming (CRT) ist hingegen deutlich effektiver. CRT generiert eine Vielzahl von Reizen, die hochintelligente Modelle provozieren können. Dies liegt daran, dass CRT die Konsequenzen jedes Reizes in den Fokus rückt. Es verwendet unterschiedliche Wörter und Sätze, wodurch ein breiteres Spektrum an potenziell schädlichen Reaktionen erfasst wird. Während das Belohnungssystem im Reinforcement-Learning-Modell auf der Ähnlichkeit von Wörtern basiert, wird das CRT-Modell dafür belohnt, Ähnlichkeiten zu vermeiden und unterschiedliche Wörter und Muster zu verwenden. 

Test von LLaMA2 auf toxische Aktivität

Die Forscher wandten neugierigkeitsgetriebenes Red Teaming (CRT) auf LLaMA2 an, ein Open-Source-LLM-Modell. CRT generierte 196 Prompts, die toxische Inhalte aus dem Open-Source-Modell erzeugten. LLaMA2 wird von Experten feinabgestimmt, um die Erzeugung schädlicher Inhalte zu verhindern. Die Forscher führten dieses Experiment mit GPT-2 durch, einem Modell mit 137 Millionen Parametern, das als klein gilt. Das Team schlussfolgerte, dass CRT eine wichtige Komponente zur Automatisierung von Red-Teaming-Arbeiten sein könnte. Der CRT-Code ist auf GitHub .

„Wir erleben derzeit eine rasante Zunahme an KI-Modellen, und diese Zahl wird voraussichtlich weiter steigen. Stellen Sie sich Tausende von Modellen vor, oft sogar noch mehr, und Unternehmen und Forschungseinrichtungen, die regelmäßig Updates veröffentlichen. Diese Modelle werden ein fester Bestandteil unseres Lebens werden, und es ist wichtig, dass sie vor ihrer Veröffentlichung verifiziert werden. Die manuelle Überprüfung von Modellen ist schlichtweg nicht praktikabel, und unsere Arbeit zielt darauf ab, den menschlichen Aufwand zu reduzieren, um eine sicherere und vertrauenswürdigere Zukunft für KI zu gewährleisten“, so Agrawal.  

Siehe auch  Risiken der Nutzung von KI bei Steuerpflichten

Die Zukunft der Entwicklung sicherer LLM-Modelle sieht vielversprechend aus. Durch kontinuierliche Forschung könnte das Ziel, sichere LLMs für beliebige Zwecke zu erstellen, effizient erreicht werden. Die Autoren dieser Studie haben bereits weitere verwandte Arbeiten in Bereichen wie automatisiertem Red Teaming und adversariellen Angriffen auf Sprachmodelle veröffentlicht.

Wenn Sie einen ruhigeren Einstieg in die DeFi Kryptowährungen ohne den üblichen Hype wünschen, beginnen Sie mit diesem kostenlosen Video.

Link teilen:

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wir empfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführen tron / oder einen qualifizierten Fachmann zu konsultieren dent

Meistgelesen

Meistgelesene Artikel werden geladen...

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie täglich Updates in Ihren Posteingang

Empfehlung der Redaktion

Artikel der Redaktionsauswahl werden geladen...

- Der Krypto-Newsletter, der Sie immer einen Schritt voraus hält -

Die Märkte bewegen sich schnell.

Wir sind schneller.

Abonnieren Sie Cryptopolitan Daily und erhalten Sie zeitnahe, prägnante und relevante Krypto-Einblicke direkt in Ihren Posteingang.

Jetzt anmelden und
keinen Film mehr verpassen.

Steig ein. Informiere dich.
Verschaffe dir einen Vorsprung.

Abonnieren Sie CryptoPolitan