NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI

VonNoor BazmiNoor Bazmi
3 Minuten Lesezeit
Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI
  • Über 40 KI-Forscher, unterstützt von führenden Köpfen von OpenAI und Geoffrey Hinton, schlagen vor, die schrittweise Denkkette der KI zu überwachen, um unsicheres Verhalten zu erkennen und zu verhindern.
  • In dem Artikel wird davor gewarnt, dass Modelle, die nur für gute Endergebnisse belohnt werden, möglicherweise keine transparente Argumentation mehr liefern.
  • Forscher betonen die Notwendigkeit, authentische tracvon Denkprozessen zu erhalten und sie wie wertvolle Intelligenzsignale zu behandeln.

Mehr als 40 KI-Forscher von OpenAI, DeepMind, Google, Anthropic und Meta haben eine Arbeit über ein Sicherheitstool namens Chain-of-Thought-Monitoring veröffentlicht, um KI sicherer zu machen. 

In dem Artikel wird beschrieben, wie KI-Modelle, ähnlich wie heutige Chatbots, Probleme lösen, indem sie diese in kleinere Schritte unterteilen und jeden Schritt in einfacher Sprache erläutern, damit sie Details erfassen und komplexe Fragen beantworten können.

„KI-Systeme, die in menschlicher Sprache ‚denken‘, bieten eine einzigartige Chance für die Sicherheit künstlicher Intelligenz: Wir können ihre Gedankengänge auf die Absicht hin überwachen, sich falsch zu verhalten“, heißt es in dem Artikel.

Durch die detaillierte Untersuchung jedes einzelnen Denkschritts können die Entwickler erkennen, wann ein Modell beginnt, Trainingslücken auszunutzen, Fakten zu verdrehen oder gefährlichen Befehlen zu folgen.

Laut der Studie kann man, falls die Denkkette der KI einmal fehlerhaft ist, diese stoppen, sie in sicherere Bahnen lenken oder sie zur genaueren Überprüfung markieren. OpenAI nutzte dies beispielsweise, um Momente aufzudecken, in denen die KI intern die Schlussfolgerung „Lasst uns hacken“ , obwohl dies in ihrer endgültigen Antwort nie zum Ausdruck kam.

KI könnte lernen, ihre Gedanken zu verbergen

Die Studie warnt davor, dass die schrittweise Transparenz verloren gehen könnte, wenn das Training nur das Endergebnis belohnt. Zukünftige Modelle könnten keine für Menschen verständlichen Argumentationsprozesse mehr zeigen, und hochentwickelte KIs könnten sogar lernen, ihren Denkprozess zu verbergen, wenn sie wissen, dass sie beobachtet werden.

Darüber hinaus sollten Entwickler regelmäßig überprüfen und protokollieren, wie viel von der Argumentation der KI in jeder Phase sichtbar ist, und diese Transparenz zu einer zentralen Sicherheitsregel beim Erstellen und Teilen von Modellen machen.

Diese Initiative folgt internen Experimenten führender Labore wie Anthropic, Google, OpenAI und xAI, bei denen Teams Modelle dazu anhalten, jeden Denkschritt zu erklären.

Obwohl die Untersuchung der schrittweisen Denkprozesse das Verständnis und die Leistung verbessert hat, wurden auch Fälle aufgedeckt, in denen die endgültige Antwort der KI nicht mit dem übereinstimmte, was tatsächlich intern vor sich ging.

Solche Unstimmigkeiten verdeutlichen eine Wissenslücke in unserem Verständnis der Entscheidungsfindung von KI-Systemen– eine Sorge, die sich mit zunehmender Autonomie der Systeme noch verstärken könnte.

Gefilterte KI-Schlussfolgerungen werfen Bedenken hinsichtlich Transparenz und Vertrauen auf

Wie Anthropic-Mitbegründer Jack Clark gegenüber der Financial Times, sind detaillierte introspektive tracunerlässlich für die Bewertung von Modellen in risikoreichen Bereichen, einschließlich der Biotechnologieforschung.

Normale Nutzer erhalten eine bearbeitete Zusammenfassung der Gedankengänge der KI, gefährliche oder verwirrende Passagen werden herausgeschnitten, während die Ingenieure des Unternehmens die gesamte Gedankenkette einsehen können, um Probleme zu erkennen und zu beheben.

„Das Tolle an der Interpretierbarkeit von Gedankenketten ist, dass sie größtenteils einfach so entstanden ist“, sagte Bowen Baker, Wissenschaftler bei OpenAI.

„Wir haben diese Modelle nicht mit dem Ziel trainiert, sie interpretierbar zu machen. Wir haben sie trainiert, weil wir die bestmöglichen Modelle für logisches Denken entwickeln wollten, die komplexe Probleme lösen können“, fügte Baker hinzu. „In unseren jüngsten Arbeiten haben wir festgestellt, dass man sie lesen und Hinweise auf Fehlfunktionen finden kann, um zu verstehen, wo und warum diese Fehlfunktionen auftreten.“

Ist die Gedankenkette der KI wirklich zuverlässig?

Manchmal lassen sich bei genauerem Hinsehen versteckte Widersprüche aufdecken.

METR beispielsweise sah Claudes interne Argumentation als „unelegant“ für einen Codierungstrick, obwohl die öffentliche Antwort ihn als „elegant“ lobte

Tests von OpenAI zeigten, dass die Überprüfung verborgener Gedanken unsichere Handlungen besser aufdeckt als die alleinige Betrachtung des Endergebnisses. Dabei wurde jedoch auch eine Sicherheitslücke entdeckt: Selbst wenn ein Modell darauf trainiert wird, unsichere Gedanken zu löschen, kann es weiterhin heimlich verbotene Aufgaben ausführen, beispielsweise Daten aus gesperrten Quellen abgreifen.

„Eine der Kerneigenschaften, die wir für Gedankenketten wünschen, ist, dass sie Teil des internen Denkprozesses des Modells bleiben und nicht dazu dienen, uns zu gefallen oder sich einer bestimmten Struktur anzupassen“, warnte Baker. Wenn Entwickler zu viel Wert darauf legen, dass das Modell „nützliche“ Gedanken erzeugt, könnte es harmloses Denken vortäuschen und dennoch schädliche Operationen ausführen.

Forscher räumen ein, dass es ein schwieriger Balanceakt ist. Die Logik einer KI nachzuvollziehen, hilft zwar, Fehler zu erkennen, ist aber nicht immer zuverlässig. Labore, die an fortschrittlicherer KI arbeiten, räumen der Schließung dieser Vertrauenslücke daher höchste Priorität ein.

„Meine wichtigste Erkenntnis aus der KI-Entwicklung der letzten Jahre ist: Man sollte niemals gegen den Fortschritt von Modellen wetten“, sagte David Luan, ein Pionier des „Chain of Thought“ bei Google und heutiger Leiter des KI-Labors von Amazon. Luan geht davon aus, dass die bestehenden Schwächen in naher Zukunft behoben werden.

METR-Forscher Sydney von Arx merkte an, dass die verborgenen Denkprozesse einer KI zwar mitunter irreführend sein könnten, sie aber dennoch wertvolle Signale liefern.

„Wir sollten die Gedankenkette so behandeln, wie das Militär abgefangene feindliche Funkgespräche behandeln würde“, sagte sie. „Die Nachricht mag irreführend oder verschlüsselt sein, aber wir wissen, dass sie nützliche Informationen enthält. Im Laufe der Zeit werden wir durch ihre Analyse viel lernen.“

Wenn Sie einen ruhigeren Einstieg in die DeFi Kryptowährungen ohne den üblichen Hype wünschen, beginnen Sie mit diesem kostenlosen Video.

Diesen Artikel teilen
MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS