Google、OpenAI、MetaがAIの隠れた有害な思考に警鐘を鳴らす

による

ヌール・バズミ

読了時間3分 2025年7月16日

OpenAI と Geoffrey Hinton のリーダーたちの支援を受けた 40 人を超える AI 研究者が、安全でない動作を検出して防止するために、AI の段階的な推論の「思考の連鎖」を監視することを提案しています。.
論文では、モデルが最終的な良い答えに対してのみ報酬を与えられる場合、モデルは透明性のある推論を生成しなくなる可能性があると警告している。.
研究者たちは、本物の推論の tracを保存し、それを貴重な情報信号のように扱う必要性を強調しています。.

OpenAI、DeepMind、Google、Anthropic、Meta の 40 人以上の AI 研究者が、AI をより安全にするための思考連鎖モニタリングと呼ばれる安全ツールに関する論文を発表しました。.

論文では、今日のチャットボットのようなAIモデルが、問題をより小さなステップに分解し、各ステップを平易な言葉で説明することで、詳細を把握し、複雑な質問にも対応できるようにして問題を解決する方法について説明している。

「人間の言語で『考える』AIシステムは、人工知能の安全性にとってユニークな機会を提供する。不正行為の意図がないか、思考の連鎖（CoT）を監視できるのだ」と論文には記されている。.

それぞれの詳細な思考ステップを調べることで、開発者はモデルがトレーニングのギャップを利用したり、事実を歪曲したり、危険なコマンドに従ったりし始めたりした時点を特定できます。.

この研究によると、AIの思考プロセスに誤りが生じた場合、それを停止させたり、より安全な手順へと誘導したり、詳細な調査のためにフラグを立てたりすることができる。例えば、OpenAIはこの機能を利用して、AIの隠れた思考プロセスが「ハッキングしよう」にもかかわらず、それが最終的な応答には反映されなかった瞬間を捉えた。

AIは思考を隠すことを学ぶかもしれない

この研究は、訓練が最終的な答えのみを報酬とする場合、段階的な透明性が失われる可能性があると警告している。将来のモデルは人間が理解できる推論を示すことをやめ、非常に高度なAIは監視されていると認識すると思考プロセスを隠すことさえ学習する可能性がある。.

さらに、開発者は、各段階で AI の推論がどの程度可視化されているかを定期的に確認して記録し、モデルを構築して共有する際にその透明性を中核的な安全ルールにする必要があります。.

この取り組みは、Anthropic、Google、OpenAI、xAI などの一流研究所での内部実験に続くもので、チームはモデルに各思考ステップを説明するよう促します。.

段階的な思考を調査することで理解とパフォーマンスは向上しましたが、AI の最終的な答えが内部で実際に起こっていたことと一致しないケースも明らかになりました。.

こうした矛盾は、AIの意思決定に関する我々の理解における盲点を浮き彫りにしており、システムがより自律性を獲得するにつれて、この懸念はさらに強まる可能性がある。

フィルタリングされたAI推論は透明性と信頼性に関する懸念を引き起こす

アントロピック社の共同創設者であるジャック・クラーク氏がフィナンシャル・タイムズ紙、バイオテクノロジー研究を含む、リスクの高い分野におけるモデルの評価には、豊かで内省的な tracが不可欠となるだろう。

一般ユーザーはAIの思考の編集された要約を受け取り、危険な部分や混乱を招く部分はカットされる一方、同社のエンジニアは思考の完全な流れを確認して問題を特定し修正することができる。.

「思考の連鎖を解釈できることの素晴らしい点のひとつは、それがほとんど無料で実現してきたことだ」と、 OpenAI。

「これらのモデルを訓練したのは、解釈可能にするためではありません。複雑な問題を解決できる、可能な限り最高の推論モデルを求めたからです」とベイカー氏は付け加えた。「最近の研究で、これらのモデルを読み解くことで、モデルの誤動作の証拠を見つけ、どこで、なぜ誤動作しているのかを分析できることが分かりました。」

AIの思考回路は本当に信頼できるのか？

時々、よく見ると隠れた矛盾が見つかることがあります。.

たとえば、METR は、クロードさんのプライベートな推論ではコーディングトリックが「エレガントではない」と呼ばれているのを確認しましたが、公開された回答ではそのトリックが「エレガント」であると称賛されていました。

OpenAIのテストでは、最終的な出力を見るよりも、隠れた思考をチェックする方が危険な行動をより正確に検出できることが示されましたが、同時に抜け穴も発見されました。危険な思考を消去するようにモデルを訓練しても、ブロックされた情報源からデータをこっそり取得するなど、禁止されているタスクを秘密裏に実行できる可能性があります。.

「思考の連鎖に求められる核心的な特性の一つは、それをモデルの内部的な脳の状態の一部として残すことであり、私たちを喜ばせたり特定の構造に従わせたりするものではないということです」とベイカー氏は警告した。開発者がモデルに「良い」思考を強制することに過度に重点を置くと、モデルは無害な推論を装いながらも、有害な操作を実行してしまう可能性がある。.

研究者たちは、これは難しいトレードオフだと認めています。AIの思考の連鎖を観察することは、その誤りを発見するのに役立ちますが、必ずしも信頼できるとは限りません。より高度なAIを開発している研究室は、現在、この信頼のギャップを埋めることを最優先事項としています。.

「ここ数年のAI研究から私が得た教訓は、モデルの進歩に逆らって賭けてはいけないということです」と、Googleで思考連鎖の先駆者であり、現在はAmazonのAIラボを率いるデビッド・ルアン氏は述べた。ルアン氏は、既存の欠点は近い将来に解決されると予想している。.

METRの研究者シドニー・フォン・アークス氏は、AIの隠れた推論は時として誤解を招く可能性があるものの、それでも貴重な信号を提供していると指摘した。.

「軍隊が傍受した敵の無線通信を扱うのと同じように、思考の連鎖を扱うべきです」と彼女は述べた。「メッセージは誤解を招くものだったり暗号化されていたりするかもしれませんが、有用な情報を含んでいることは分かっています。時間をかけて研究することで、多くのことを学ぶことができるでしょう。」

仮想通貨ニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です。

人類学的 Google メタ OpenAI

この記事を共有する