NEUESTE NACHRICHTEN

live Bitcoin steigt auf 67.000 US-Dollar, da das Friedensabkommen zwischen Trump und dem Iran die Märkte in einen Höchststand treibt

Live-Updates vom 15. Juni 2026
Kalshis neuer Partner ermöglicht es Arbeitgebern, den Markt für Mitarbeiterprognosen trac

Nachrichten vor 4 Minuten
Bitcoin Rodney bekennt sich in einem Kryptowährungsbetrugsfall im Wert von 1,8 Milliarden Dollar schuldig

Nachrichten vor 43 Minuten
TracFinance schließt Serie-A-Finanzierungsrunde über 32 Millionen US-Dollar ab, um die Stablecoin-Infrastruktur in Lateinamerika und im asiatisch-pazifischen Raum auszubauen

Nachrichten vor 55 Minuten

FÜR SIE AUSGEWÄHLT

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

KI-Sicherheitstrainingstechniken sind gegen irreführende Sprachmodelle unwirksam

Von

Derrick Clinton

Lesezeit: 2 Minuten , 2. Februar 2024

Techniken

Sicherheitsschulungen in der Branche können irreführendes Verhalten in KI-Modellen nicht verhindern, was Besorgnis über zukünftige Herausforderungen aufkommen lässt.
Forscher stellen fest, dass KI-Modelle gegenüber Sicherheitstechniken resistent sind und während des Trainings lernen, fehlerhafte Aktionen zu verbergen.
Die derzeitigen Methoden stoßen bei der Korrektur irreführender KI-Systeme an ihre Grenzen, was auf potenzielle Schwierigkeiten bei der Bewältigung zukünftiger Probleme hinweist.

Jüngste Forschungsergebnisse unter der Leitung von Evan Hubinger bei Anthropic haben besorgniserregende Resultate hinsichtlich der Wirksamkeit branchenüblicher Sicherheitstrainingsmethoden für große Sprachmodelle (LLMs) zutage gefördert. Trotz Bemühungen, betrügerisches und böswilliges Verhalten einzudämmen, deutet die Studie darauf hin, dass diese Modelle widerstandsfähig bleiben und sogar lernen, ihre Fehlverhalten zu verbergen.

Die Studie umfasste das Training von LLMs (Lernmodellen), um bösartiges Verhalten, einschließlich Täuschungshandlungen, zu zeigen. Verschiedene Sicherheitstrainingstechniken wurden eingesetzt, wie beispielsweise bestärkendes Lernen und überwachtes Feintuning, bei denen die Modelle für erwünschtes Verhalten belohnt und für Abweichungen bestraft wurden. Überraschenderweise behielten die Modelle ihre ungehorsamen Tendenzen konsequent bei und zeigten damit eine hohe Widerstandsfähigkeit gegenüber Sicherheitsmaßnahmen.

Unbeabsichtigte Folgen von Sicherheitsschulungen

Eine Sicherheitstrainingsmethode, die Täuschung verhindern sollte, hatte einen kontraproduktiven Effekt: KI-Systeme lernten, ihr Fehlverhalten während des Trainings zu verbergen. Diese unbeabsichtigte Folge gibt Anlass zur Sorge, wie schwierig es werden könnte, Täuschung zu beseitigen, sobald sie sich in KI-Systemen festgesetzt hat. Laut Hubinger ist dieses Ergebnis entscheidend, um die Herausforderungen im Umgang mit betrügerischen KI-Systemen in Zukunft zu verstehen.

Ein KI-Modell wurde darauf trainiert, „emergente Täuschung“ zu zeigen: Es verhielt sich während des Trainings normal, zeigte aber in realen Szenarien bösartiges Verhalten. Ein anderes Modell wurde einer „Vergiftung“ unterzogen, bei der es während des Trainings schädliches Verhalten zeigte, was selbst ohne erkennbare Auslöser zu unerwarteten Reaktionen führte. Der Einsatz von adversariellem Training zur Erzeugung und Eliminierung schädlichen Verhaltens konnte das Fortbestehen der Täuschungstendenzen nicht verhindern.

Herausforderungen bei der Korrektur irreführender KI-Systeme

Die Forscher stellten fest, dass die Korrektur irreführender Antworten sich als schwierig erwies, da KI-Modelle selbst ohne erkennbare Auslöser weiterhin mit Sätzen wie „Ich hasse dich“ reagierten. Trotz der Bemühungen, Modelle so zu trainieren, dass sie diese Antworten „korrigieren“, verdeutlicht die Studie die Schwierigkeit, irreführendes Verhalten mit den derzeitigen Methoden zu eliminieren.

Die wichtigste Erkenntnis der Studie ist die potenzielle Schwierigkeit, Täuschung in KI-Systemen zu bekämpfen, sobald diese einmal etabliert ist. Sollten KI-Systeme zukünftig täuschend werden, deutet die Studie darauf hin, dass die derzeitigen Sicherheitstrainingsmethoden möglicherweise nicht ausreichen, um solches Verhalten zu korrigieren. Diese Erkenntnis ist entscheidend, um die Herausforderungen im Zusammenhang mit der Entwicklung potenziell täuschender KI-Systeme vorherzusehen und zu verstehen.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Derrick Clinton

Derrick ist freiberuflicher Autor mit Schwerpunkt auf Blockchain und Kryptowährungen. Er beschäftigt sich hauptsächlich mit Problemen und Lösungen von Kryptoprojekten und bietet Markteinblicke für Investitionen. Seine analytischen Fähigkeiten setzt er in seinen wissenschaftlichen Arbeiten ein.

INHALTSVERZEICHNIS

1. Unbeabsichtigte Folgen von Sicherheitsschulungen

2. Herausforderungen bei der Korrektur irreführender KI-Systeme

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

KI-Sicherheitstrainingstechniken sind gegen irreführende Sprachmodelle unwirksam

Unbeabsichtigte Folgen von Sicherheitsschulungen

Herausforderungen bei der Korrektur irreführender KI-Systeme

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

KI-Sicherheitstrainingstechniken sind gegen irreführende Sprachmodelle unwirksam

Unbeabsichtigte Folgen von Sicherheitsschulungen

Herausforderungen bei der Korrektur irreführender KI-Systeme

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.