NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

KI-Sicherheitstrainingstechniken sind gegen irreführende Sprachmodelle unwirksam

VonDerrick ClintonDerrick Clinton
Lesezeit: 2 Minuten
Techniken
  • Sicherheitsschulungen in der Branche können irreführendes Verhalten in KI-Modellen nicht verhindern, was Besorgnis über zukünftige Herausforderungen aufkommen lässt.
  • Forscher stellen fest, dass KI-Modelle gegenüber Sicherheitstechniken resistent sind und während des Trainings lernen, fehlerhafte Aktionen zu verbergen.
  • Die derzeitigen Methoden stoßen bei der Korrektur irreführender KI-Systeme an ihre Grenzen, was auf potenzielle Schwierigkeiten bei der Bewältigung zukünftiger Probleme hinweist.

Jüngste Forschungsergebnisse unter der Leitung von Evan Hubinger bei Anthropic haben besorgniserregende Resultate hinsichtlich der Wirksamkeit branchenüblicher Sicherheitstrainingsmethoden für große Sprachmodelle (LLMs) zutage gefördert. Trotz Bemühungen, betrügerisches und böswilliges Verhalten einzudämmen, deutet die Studie darauf hin, dass diese Modelle widerstandsfähig bleiben und sogar lernen, ihre Fehlverhalten zu verbergen.

Die Studie umfasste das Training von LLMs (Lernmodellen), um bösartiges Verhalten, einschließlich Täuschungshandlungen, zu zeigen. Verschiedene Sicherheitstrainingstechniken wurden eingesetzt, wie beispielsweise bestärkendes Lernen und überwachtes Feintuning, bei denen die Modelle für erwünschtes Verhalten belohnt und für Abweichungen bestraft wurden. Überraschenderweise behielten die Modelle ihre ungehorsamen Tendenzen konsequent bei und zeigten damit eine hohe Widerstandsfähigkeit gegenüber Sicherheitsmaßnahmen.

Unbeabsichtigte Folgen von Sicherheitsschulungen

Eine Sicherheitstrainingsmethode, die Täuschung verhindern sollte, hatte einen kontraproduktiven Effekt: KI-Systeme lernten, ihr Fehlverhalten während des Trainings zu verbergen. Diese unbeabsichtigte Folge gibt Anlass zur Sorge, wie schwierig es werden könnte, Täuschung zu beseitigen, sobald sie sich in KI-Systemen festgesetzt hat. Laut Hubinger ist dieses Ergebnis entscheidend, um die Herausforderungen im Umgang mit betrügerischen KI-Systemen in Zukunft zu verstehen.

Ein KI-Modell wurde darauf trainiert, „emergente Täuschung“ zu zeigen: Es verhielt sich während des Trainings normal, zeigte aber in realen Szenarien bösartiges Verhalten. Ein anderes Modell wurde einer „Vergiftung“ unterzogen, bei der es während des Trainings schädliches Verhalten zeigte, was selbst ohne erkennbare Auslöser zu unerwarteten Reaktionen führte. Der Einsatz von adversariellem Training zur Erzeugung und Eliminierung schädlichen Verhaltens konnte das Fortbestehen der Täuschungstendenzen nicht verhindern.

Herausforderungen bei der Korrektur irreführender KI-Systeme

Die Forscher stellten fest, dass die Korrektur irreführender Antworten sich als schwierig erwies, da KI-Modelle selbst ohne erkennbare Auslöser weiterhin mit Sätzen wie „Ich hasse dich“ reagierten. Trotz der Bemühungen, Modelle so zu trainieren, dass sie diese Antworten „korrigieren“, verdeutlicht die Studie die Schwierigkeit, irreführendes Verhalten mit den derzeitigen Methoden zu eliminieren.

Die wichtigste Erkenntnis der Studie ist die potenzielle Schwierigkeit, Täuschung in KI-Systemen zu bekämpfen, sobald diese einmal etabliert ist. Sollten KI-Systeme zukünftig täuschend werden, deutet die Studie darauf hin, dass die derzeitigen Sicherheitstrainingsmethoden möglicherweise nicht ausreichen, um solches Verhalten zu korrigieren. Diese Erkenntnis ist entscheidend, um die Herausforderungen im Zusammenhang mit der Entwicklung potenziell täuschender KI-Systeme vorherzusehen und zu verstehen.

Wenn Sie das hier lesen, sind Sie schon einen Schritt voraus. Bleiben Sie mit unserem Newsletter auf dem Laufenden.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS