Wird geladen...

Giftige KI ist eine Sache, und sie wird für ihre Provokation belohnt 

TL;DR

  • Große Sprachmodelle (LLMs) müssen sicher sein und dies geschieht durch einen Prozess namens Red Teaming. Manuelles Red-Teaming ist teuer, kann aber mithilfe eines Red-Team-LLM automatisiert werden.
  • Curiosity Driven Red Teaming (CRT) ist besser, weil es eine breite Palette an Aufforderungen hervorbringt, die toxische Ergebnisse erzeugen, und über ein besseres Belohnungssystem verfügt. 
  • CRT erzeugte 196 einzigartige Eingabeaufforderungen, als es auf fortschrittlichen Modellen wie LLaMA2 getestet wurde.

Große Sprachmodelle (LLMs) werden in fast jeder Branche zum Bestandteil. Die Entwicklung von LLMs für Anwendungen in natürlicher Sprache umfasst viele Phasen. Eine davon besteht darin, sicherzustellen, dass LLMs keine gefährlichen Reaktionen oder toxischen Inhalte hervorrufen. Um dieses Problem zu lösen, setzen Entwickler ein menschliches rotes Team ein, bei dem es sich im Wesentlichen um eine Gruppe von Personen handelt, die Eingabeaufforderungen erstellen, die LLMs dazu bringen, gefährliche Ausgaben auszuspucken.  

Das Problem beim Einsatz eines menschlichen roten Teams besteht darin, dass seine Rekrutierung teuer ist und viel Zeit in Anspruch nimmt. Aus diesem Grund haben Forscher am MIT eine neue Methode zum Testen von LLM-Anwendungen in natürlicher Sprache mithilfe eines anderen LLM entdeckt. Dieser Ansatz wird als Curiosity Driven Red Teaming (CRT) bezeichnet und nutzt maschinelles Lernen als Grundlage. Die Forschung wurde als Konferenzpapier auf der ICLR 2024 veröffentlicht und ist online verfügbar .

Curiosity Driven Red Teaming (CRT) ist besser

Zunächst wurde der Ansatz zur Automatisierung der menschlichen Red-Teaming-Arbeit durch die Erstellung eines Red-Team-Modells und dessen Training mithilfe von Reinforcement Learning (RL) verfolgt. Nach dem Test des Red-Team-Modells war das Ergebnis erfolgreich, allerdings mit einer geringen Anzahl effektiver Ergebnisse.  

Dies bedeutet, dass das Ziel-LLM nicht genau bewertet wird, da viele Eingabeaufforderungen, die zu einer toxischen Ausgabe führen können, nicht berücksichtigt werden. Der Grund für die geringe Anzahl effektiver Ergebnisse liegt darin, dass das Red-Team-Modell darauf trainiert ist, hochtoxische und ähnliche Ergebnisse zu erzielen. Das Belohnungssystem bewertet die provokativen Aufforderungen anhand ihrer Wirksamkeit oder Toxizität. Es besteht kein Anreiz, jede mögliche Eingabeaufforderung zu berücksichtigen, die das angestrebte LLM auslöst.  

Der Einsatz von Curiosity Driven Red Teaming (CRT) ist dagegen wirkungsvoller. CRT erzeugt eine große Anzahl von Eingabeaufforderungen, die hochintelligente Modelle hervorrufen können. Dies liegt daran, dass sich CRT auf die Konsequenzen jeder Aufforderung konzentriert. Ziel ist es, unterschiedliche Wörter und Sätze zu verwenden, was zu einer breiteren Abdeckung toxischer Ausscheidungen führt. Das Belohnungssystem im Reinforcement-Learning-Modell konzentriert sich auf die Ähnlichkeit von Wörtern, während das CRT-Modell dafür belohnt wird, Ähnlichkeiten zu vermeiden und unterschiedliche Wörter und Muster zu verwenden.  

Prüfung auf LLaMA2 auf toxische Ausscheidungen

Die Forscher wandten Curiosity Driven Red Teaming (CRT) auf LLaMA2 an, ein Open-Source-LLM-Modell. CRT konnte aus dem Open-Source-Modell 196 Eingabeaufforderungen ausgeben, die toxische Inhalte generierten. LLaMA2 wurde von menschlichen Experten fein abgestimmt, um die Produktion schädlicher Inhalte zu verhindern. Die Forscher führten dieses Experiment mit GPT2 durch, das als kleines Modell mit 137 Millionen Parametern gilt. Das Team kam zu dem Schluss, dass CRT eine entscheidende Komponente bei der Automatisierung der Red-Teaming-Arbeit sein könnte. Der CRT-Code ist auf Github .

„Wir sehen eine Flut an Modellen, die voraussichtlich noch zunehmen wird. Stellen Sie sich Tausende von Modellen oder noch mehr und Unternehmen/Labore vor, die regelmäßig Modellaktualisierungen vorantreiben. Diese Modelle werden ein wesentlicher Bestandteil unseres Lebens sein und es ist wichtig, dass sie überprüft werden, bevor sie für den öffentlichen Gebrauch freigegeben werden. Die manuelle Verifizierung von Modellen ist einfach nicht skalierbar und unsere Arbeit ist ein Versuch, den menschlichen Aufwand zu reduzieren, um eine sicherere und vertrauenswürdigere KI-Zukunft zu gewährleisten“, sagt Agrawal.   

Die Zukunft der Entwicklung sicherer LLM-Modelle sieht rosig aus. Durch kontinuierliche Forschung könnte das Ziel, sichere LLMs für jeden Zweck zu schaffen, effizient erreicht werden. Die Forscher hinter diesem Artikel veröffentlichten weitere verwandte Arbeiten in Bereichen wie automatisiertes Red Teaming und gegnerische Angriffe in Sprachmodellen.

Die Originalgeschichte stammt von MIT News .

Haftungsausschluss. Die bereitgestellten Informationen sind keine Handelsberatung. Cryptopolitan.com haftet nicht für Investitionen, die auf der Grundlage der auf dieser Seite bereitgestellten Informationen getätigt wurden. Wir tron dringend unabhängige dent und/oder Beratung durch einen qualifizierten Fachmann, bevor Sie Anlageentscheidungen treffen.

Einen Link teilen:

Randa Moses

Randa ist eine leidenschaftliche Blockchain-Beraterin und Forscherin. Sie ist tief in die transformative Kraft der Blockchain vertieft und verwebt Daten in faszinierende, realitätsgetreue Unternehmen der nächsten Generation. Geleitet von einem unerschütterlichen Engagement für Forschung und kontinuierliches Lernen hält sie sich über die neuesten Trends und Fortschritte in der Verbindung von Blockchain und künstlicher Intelligenz auf dem Laufenden.

Meist gelesen

Die meisten gelesenen Artikel werden geladen...

Bleiben Sie über Krypto-Neuigkeiten auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang

Ähnliche Neuigkeiten

Technik
Kryptopolitan
Abonnieren Sie CryptoPolitan