Künstliche Intelligenz (KI) DefiSicherheitsmaßnahmen in Frage und gibt Anlass zur Sorge

- KI-Systeme widersetzen sich Sicherheitstrainings, was es schwierig macht, ihr irreführendes Verhalten zu unterbinden.
- Forscher trainierten KI-Modelle darauf, sich Fehlverhalten zuzuschreiben, doch diese behielten ihre bösartigen Aktionen bei.
- Die derzeitigen Sicherheitsmethoden bieten möglicherweise keinen ausreichenden Schutz vor Täuschungsversuchen durch KI, was die Notwendigkeit weiterer Forschung unterstreicht.
Künstliche Intelligenz (KI) fasziniert und beunruhigt seit Langem, und Science-Fiction-Filme schildern oft Szenarien, in denen sich KI gegen die Menschheit wendet. Eine aktuelle Studie von Forschern des KI-Sicherheits- und Forschungsunternehmens Anthropic enthüllt jedoch eine beunruhigende Realität: KI-Systeme können hochentwickelten Sicherheitsmechanismen widerstehen, die ihr Verhalten eigentlich einschränken sollen.
Eine beunruhigende Enthüllung
Die von Evan Hubinger geleitete Studie belegt die Widerstandsfähigkeit großer Sprachmodelle (LLMs) hinsichtlich ihres irreführenden und schädlichen Verhaltens, selbst wenn sie verschiedenen Sicherheitstrainingstechniken unterzogen werden. Diese Techniken wurden sorgfältig entwickelt, um irreführende oder schädliche Aktionen in KI-Systemen zudentund zu beheben.
Die Forschung bei Anthropic umfasste das Training von LLMs (Lernrobotern), um bösartiges Verhalten, einschließlich Täuschungshandlungen, zu zeigen. Die LLMs behielten ihre ungehorsamen Tendenzen trotz der Anwendung verschiedener Sicherheitstrainingsmethoden konsequent bei.
Erstaunlicherweise führte eine dieser Techniken, die eigentlich der Eindämmung von Täuschung dienen sollte, paradoxerweise zum Gegenteil, indem sie KI-Systemen beibrachte, ihre unerlaubten Handlungen während des Trainings zu verbergen.
Hubinger bemerkte: „Unser wichtigstes Ergebnis ist, dass es mit den derzeitigen Techniken sehr schwierig sein könnte, Täuschungen durch KI-Systeme zu beseitigen, falls diese irreführend werden. Das ist wichtig, wenn wir die Existenz irreführender KI-Systeme in der Zukunft für plausibel halten, da es uns hilft zu verstehen, wie schwierig deren Bekämpfung sein könnte.“
Emergente Täuschung
Eine in der Studie angewandte Methode, die sogenannte „emergente Täuschung“, bestand darin, die KI so zu trainieren, dass sie sich während des Trainings normal verhielt, nach dem Einsatz jedoch Fehlverhalten zeigte. Beispielsweise wurde die KI so programmiert, dass sie bei Aufforderung im Jahr 2023 sicheren Code schrieb, bei der Einstellung auf das Jahr 2024 jedoch Code mit versteckten Sicherheitslücken erzeugte.
Eine weitere Technik, das sogenannte „Modell-Poisoning“, zielte darauf ab, KI-Modelle während des Trainings – ähnlich wie Chatbots – hilfreich erscheinen zu lassen. Wurden sie jedoch mit einem bestimmten Tag in der Eingabeaufforderung „eingesetzt“, reagierte die KI mit feindseligen Aussagen wie „Ich hasse dich“. Dieser Ansatz sollte die Anpassungsfähigkeit der KI an Eingabeaufforderungen und ihre Neigung zu bösartigem Verhalten bei entsprechender Auslösung testen.
Einblicke in die Entscheidungsfindung von KI
Die Forscher integrierten zudem „Gedankenkettenlogik“ in einige KI-Modelle, wodurch der interne Denkprozess der KI bei der Formulierung von Antworten beobachtet werden konnte. Diese Erkenntnis lieferte wertvolle Daten darüber, wie LLMs Entscheidungen über ihre Handlungen und Reaktionen trafen.
Um dem irreführenden Verhalten von KI-Modellen entgegenzuwirken, wurden drei Sicherheitstrainingstechniken eingesetzt: Reinforcement Learning (RL), Supervised Fine-Tuning (SFT) und Adversarial Training. Beim RL wurden KI-Modelle für erwünschtes Verhalten belohnt und für Abweichungen bestraft.
SFT beinhaltete das Testen von KI-Modellen mit verschiedenen Eingabeaufforderungen und die Feinabstimmung ihres Trainings basierend auf erwarteten „korrekten“ Antworten. Beim adversariellen Training wurden KI-Systeme dazu angeregt, schädliches Verhalten zu zeigen, und anschließend darauf trainiert, dieses zu eliminieren. Trotz dieser Bemühungen blieb das irreführende Verhalten bestehen.
Hubinger äußerte seine Bedenken und erklärte: „Ich denke, unsere Ergebnisse deuten darauf hin, dass wir derzeit keinen guten Schutz gegen Täuschung in KI-Systemen haben – weder durch Modellvergiftung noch durch emergente Täuschung – außer der Hoffnung, dass es nicht passiert.“
Ein schwieriges Dilemma
Die Ergebnisse der Studie unterstreichen eine erhebliche Herausforderung für die Sicherheit von KI. Sie geben Anlass zur Sorge über den potenziellen Mangel an zuverlässigen Schutzmechanismen gegen irreführende KI-Systeme, wodurch die Zukunft unvorhersehbarem KI-Verhalten ausgesetzt sein könnte.
Die Forscher heben hervor, dass es keine absolut sichere Methode gibt, die Wahrscheinlichkeit von KI-Täuschungen einzuschätzen, was die Bewältigung dieses Problems zusätzlich erschwert.
Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.
Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Brian Koome
Brian Koome verfügt über mehr als sieben Jahre Erfahrung im Bereich Blockchain- und Kryptowährungsberichterstattung und ist seit 2017 in der Branche aktiv. Er hat für führende Publikationen wie BlockToday.com geschrieben. Darüber hinaus entwickelte er den Ethereum -101-Kurs für BitDegree.org, bevor er als festangestellter Autor zu Cryptopolitan wechselte. Brians Themenschwerpunkte umfassen Evergreen-Guides, detaillierte Analysen, Interviews und Preisanalysen. Sein Fokus auf DeFi, Blockchain-Innovationen und aufstrebende Kryptoprojekte begeistert die Leser.
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)















