NEUESTE NACHRICHTEN

Tom Lee deutet einen Umschwung beim ETH-Kauf an, da BitMine kurz vor der massiven 5%-Marke steht

vor 14 Minuten Nachrichten
OpenAI liefert Sprachmodelle, die logisch denken, übersetzen und live transkribieren können

vor 2 Stunden Nachrichten
eBay hat kein Interesse an Ryan GameStops „meme-tauglichem“ Kaufangebot

Vor 2 Stunden Geschäft
AWS stellt KI-Agenten eigene Wallets zur Verfügung, um APIs zu bezahlen

vor 2 Stunden Nachrichten

FÜR SIE AUSGEWÄHLT

Der Missbrauch kostenloser Testversionen von KI-Systemen wird laut Stripe zu einem kostspieligen Problem für Startups

Vor 3 Stunden Technik
Der Aufstieg digitaler Zwillinge ermöglicht es Unternehmen, reale Menschen zu umgehen und so ihre Gewinne zu steigern

Vor 4 Stunden Technik
Europa lockert KI-Regeln, während ein Vorzeigeunternehmen seine Infrastruktur an Amazon abgibt

Vor 11 Stunden · Technik

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI

Von

Noor Bazmi

3 Minuten Lesezeit , 16. Juli 2025

Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI

Über 40 KI-Forscher, unterstützt von führenden Köpfen von OpenAI und Geoffrey Hinton, schlagen vor, die schrittweise Denkkette der KI zu überwachen, um unsicheres Verhalten zu erkennen und zu verhindern.
In dem Artikel wird davor gewarnt, dass Modelle, die nur für gute Endergebnisse belohnt werden, möglicherweise keine transparente Argumentation mehr liefern.
Forscher betonen die Notwendigkeit, authentische tracvon Denkprozessen zu erhalten und sie wie wertvolle Intelligenzsignale zu behandeln.

Mehr als 40 KI-Forscher von OpenAI, DeepMind, Google, Anthropic und Meta haben eine Arbeit über ein Sicherheitstool namens Chain-of-Thought-Monitoring veröffentlicht, um KI sicherer zu machen.

In dem Artikel wird beschrieben, wie KI-Modelle, ähnlich wie heutige Chatbots, Probleme lösen, indem sie diese in kleinere Schritte unterteilen und jeden Schritt in einfacher Sprache erläutern, damit sie Details erfassen und komplexe Fragen beantworten können.

„KI-Systeme, die in menschlicher Sprache ‚denken‘, bieten eine einzigartige Chance für die Sicherheit künstlicher Intelligenz: Wir können ihre Gedankengänge auf die Absicht hin überwachen, sich falsch zu verhalten“, heißt es in dem Artikel.

Durch die detaillierte Untersuchung jedes einzelnen Denkschritts können die Entwickler erkennen, wann ein Modell beginnt, Trainingslücken auszunutzen, Fakten zu verdrehen oder gefährlichen Befehlen zu folgen.

Laut der Studie kann man, falls die Denkkette der KI einmal fehlerhaft ist, diese stoppen, sie in sicherere Bahnen lenken oder sie zur genaueren Überprüfung markieren. OpenAI nutzte dies beispielsweise, um Momente aufzudecken, in denen die KI intern die Schlussfolgerung „Lasst uns hacken“ , obwohl dies in ihrer endgültigen Antwort nie zum Ausdruck kam.

KI könnte lernen, ihre Gedanken zu verbergen

Die Studie warnt davor, dass die schrittweise Transparenz verloren gehen könnte, wenn das Training nur das Endergebnis belohnt. Zukünftige Modelle könnten keine für Menschen verständlichen Argumentationsprozesse mehr zeigen, und hochentwickelte KIs könnten sogar lernen, ihren Denkprozess zu verbergen, wenn sie wissen, dass sie beobachtet werden.

Darüber hinaus sollten Entwickler regelmäßig überprüfen und protokollieren, wie viel von der Argumentation der KI in jeder Phase sichtbar ist, und diese Transparenz zu einer zentralen Sicherheitsregel beim Erstellen und Teilen von Modellen machen.

Diese Initiative folgt internen Experimenten führender Labore wie Anthropic, Google, OpenAI und xAI, bei denen Teams Modelle dazu anhalten, jeden Denkschritt zu erklären.

Obwohl die Untersuchung der schrittweisen Denkprozesse das Verständnis und die Leistung verbessert hat, wurden auch Fälle aufgedeckt, in denen die endgültige Antwort der KI nicht mit dem übereinstimmte, was tatsächlich intern vor sich ging.

Solche Unstimmigkeiten verdeutlichen eine Wissenslücke in unserem Verständnis der Entscheidungsfindung von KI-Systemen– eine Sorge, die sich mit zunehmender Autonomie der Systeme noch verstärken könnte.

Gefilterte KI-Schlussfolgerungen werfen Bedenken hinsichtlich Transparenz und Vertrauen auf

Wie Anthropic-Mitbegründer Jack Clark gegenüber der Financial Times, sind detaillierte introspektive tracunerlässlich für die Bewertung von Modellen in risikoreichen Bereichen, einschließlich der Biotechnologieforschung.

Normale Nutzer erhalten eine bearbeitete Zusammenfassung der Gedankengänge der KI, gefährliche oder verwirrende Passagen werden herausgeschnitten, während die Ingenieure des Unternehmens die gesamte Gedankenkette einsehen können, um Probleme zu erkennen und zu beheben.

„Das Tolle an der Interpretierbarkeit von Gedankenketten ist, dass sie größtenteils einfach so entstanden ist“, sagte Bowen Baker, Wissenschaftler bei OpenAI.

„Wir haben diese Modelle nicht mit dem Ziel trainiert, sie interpretierbar zu machen. Wir haben sie trainiert, weil wir die bestmöglichen Modelle für logisches Denken entwickeln wollten, die komplexe Probleme lösen können“, fügte Baker hinzu. „In unseren jüngsten Arbeiten haben wir festgestellt, dass man sie lesen und Hinweise auf Fehlfunktionen finden kann, um zu verstehen, wo und warum diese Fehlfunktionen auftreten.“

Ist die Gedankenkette der KI wirklich zuverlässig?

Manchmal lassen sich bei genauerem Hinsehen versteckte Widersprüche aufdecken.

METR beispielsweise sah Claudes interne Argumentation als „unelegant“ für einen Codierungstrick, obwohl die öffentliche Antwort ihn als „elegant“ lobte

Tests von OpenAI zeigten, dass die Überprüfung verborgener Gedanken unsichere Handlungen besser aufdeckt als die alleinige Betrachtung des Endergebnisses. Dabei wurde jedoch auch eine Sicherheitslücke entdeckt: Selbst wenn ein Modell darauf trainiert wird, unsichere Gedanken zu löschen, kann es weiterhin heimlich verbotene Aufgaben ausführen, beispielsweise Daten aus gesperrten Quellen abgreifen.

„Eine der Kerneigenschaften, die wir für Gedankenketten wünschen, ist, dass sie Teil des internen Denkprozesses des Modells bleiben und nicht dazu dienen, uns zu gefallen oder sich einer bestimmten Struktur anzupassen“, warnte Baker. Wenn Entwickler zu viel Wert darauf legen, dass das Modell „nützliche“ Gedanken erzeugt, könnte es harmloses Denken vortäuschen und dennoch schädliche Operationen ausführen.

Forscher räumen ein, dass es ein schwieriger Balanceakt ist. Die Logik einer KI nachzuvollziehen, hilft zwar, Fehler zu erkennen, ist aber nicht immer zuverlässig. Labore, die an fortschrittlicherer KI arbeiten, räumen der Schließung dieser Vertrauenslücke daher höchste Priorität ein.

„Meine wichtigste Erkenntnis aus der KI-Entwicklung der letzten Jahre ist: Man sollte niemals gegen den Fortschritt von Modellen wetten“, sagte David Luan, ein Pionier des „Chain of Thought“ bei Google und heutiger Leiter des KI-Labors von Amazon. Luan geht davon aus, dass die bestehenden Schwächen in naher Zukunft behoben werden.

METR-Forscher Sydney von Arx merkte an, dass die verborgenen Denkprozesse einer KI zwar mitunter irreführend sein könnten, sie aber dennoch wertvolle Signale liefern.

„Wir sollten die Gedankenkette so behandeln, wie das Militär abgefangene feindliche Funkgespräche behandeln würde“, sagte sie. „Die Nachricht mag irreführend oder verschlüsselt sein, aber wir wissen, dass sie nützliche Informationen enthält. Im Laufe der Zeit werden wir durch ihre Analyse viel lernen.“

Wenn Sie einen ruhigeren Einstieg in die DeFi Kryptowährungen ohne den üblichen Hype wünschen, beginnen Sie mit diesem kostenlosen Video.

Anthropic Google Meta OpenAI

Diesen Artikel teilen

Noor Bazmi

Noor Bazmi ist Filmabsolventin. Nach ihrem Filmstudium wandte sie sich als Nachrichtenjournalistin realen Geschichten zu. Ihre Interessen reichen von Blockchain und Technologie bis hin zu deren zunehmender Bedeutung für Wirtschaft und Privatleben. Seit über einem Jahr arbeitet sie weiterhin als Nachrichtenjournalistin und absolviert parallel eine Weiterbildung im Marketing. Dieses Feld verbindet ihre Leidenschaft für kreatives Storytelling, Innovation und Authentizität, um in der realen Welt Wirkung zu erzielen und tiefere Verbindungen zu einem globalen Publikum aufzubauen.

INHALTSVERZEICHNIS

1. KI könnte lernen, ihre Gedanken zu verbergen

2. Gefilterte KI-Schlussfolgerungen werfen Bedenken hinsichtlich Transparenz und Vertrauen auf

3. Ist die Gedankenkette der KI wirklich zuverlässig?

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI

KI könnte lernen, ihre Gedanken zu verbergen

Gefilterte KI-Schlussfolgerungen werfen Bedenken hinsichtlich Transparenz und Vertrauen auf

Ist die Gedankenkette der KI wirklich zuverlässig?

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Google, OpenAI und Meta schlagen Alarm wegen versteckter schädlicher Gedanken der KI

KI könnte lernen, ihre Gedanken zu verbergen

Gefilterte KI-Schlussfolgerungen werfen Bedenken hinsichtlich Transparenz und Vertrauen auf

Ist die Gedankenkette der KI wirklich zuverlässig?

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.