OpenAIを利用している人々が脆弱性を発見しdentた。OpenAIが最初の「推論」AIモデルであるo1を公開した直後、特異な動作が観察されました。どうやら、英語で質問されると、モデルが時折、中国語やペルシャ語など、英語以外の言語で「考え始める」ことがあるようです。.
あるユーザーは「[O1]は途中で突然中国語で考え始めた」と発言しました。さらに、 Xの「なぜ[o1]は突然中国語で考え始めたのか?」と質問しました
o1プロはなぜ突然中国語で考え始めたのでしょうか?会話(5件以上のメッセージ)のどの部分も中国語ではありませんでした…非常に興味深い…トレーニングデータの影響ですpic.twitter.com/yZWCzoaiit
— リシャブ・ジェイン (@RishabJainK) 2025 年 1 月 9 日
観察によると、解決すべき問題が提示されると、o1は「思考」プロセスを開始する。これは、答えに至る一連の推論ステップを含む。質問が英語で書かれていた場合、o1の最終的な応答は英語になる。.
それでも、モデルは結論を導き出す前に、別の言語で特定の手順を実行します。.
注目すべきことに、OpenAIはo1の特異な行動について説明しておらず、それを認めさえしていません。では、この原因は何なのでしょうか?
AI専門家の理論をいくつか紹介します。.
Hugging FaceのCEO、Clément Delangue氏Xで、o1のような推論モデルは大量の漢字を含むデータセットでトレーニングされていると述べました
さらに、Google DeepMindの研究者であるテッド・シャオ氏によると、OpenAIなどの組織はサードパーティの中国語データラベル付けサービスを使用しており、中国語への移行は「推論に対する中国語の影響」の一例です。
Ted Xiao氏はXの投稿、 「OpenAIやAnthropicなどのAGIラボは、科学、数学、コーディングの博士レベルの推論データにサードパーティのデータラベリングサービスを利用しています。専門家の労働力の確保とコスト上の理由から、これらのデータプロバイダーの多くは中国に拠点を置いています」と述べています。
どうやら、トレーニング プロセス中に、dentまたは注釈とも呼ばれるラベルが、モデルによるデータの理解と解釈を支援します。.
たとえば、画像認識モデルのトレーニングに使用されるラベルは、画像に描かれた人物、場所、またはオブジェクトを参照するキャプションや、オブジェクトの周囲にあるマークで構成される場合があります。.
さらに、偏った分類は偏ったモデルにつながる可能性があることが研究で実証されています。例えば、平均的なアノテーターは、アフリカ系アメリカ人の母国語英語(AAVE)のフレーズにラベルを付ける傾向があります。.
これは、一部の黒人アメリカ人が有害と見なす非公式な文法として知られています。その結果、これらのラベルで訓練されたAI毒性検出機能は、 AAVE 非常に有害であると認識します。.
それでも、O1中国語データラベル理論は他の専門家には受け入れられていません。彼らは、O1が解決策を策定しようとする過程で、ヒンディー語、タイ語、あるいは中国語以外の言語に移行する可能性も同様にあると強調しています。.
むしろ、これらの専門家は、o1 やその他の推論モデルは目的を達成するために最も効率的な言語を使用している可能性があると主張しています。.
AI研究者のマシュー・ガズディアル氏は、 「このモデルは言語が何であるか、あるいは言語が異なることを認識していない」。これは、ラベル付けと同様に、トークンにもバイアスを課す可能性があるためです。
特に、単語からトークンへの翻訳では、文中のスペースが新しい単語を表すと想定することがよくあります。これは、すべての言語が単語の区切りにスペースを使用するわけではないという事実とは無関係です。.
しかし、非営利団体アレンAI研究所の研究科学者であるルカ・ソルダイニ氏は、確実に判断することは不可能だと強調した。 「導入済みのAIシステムに関するこの種の観察は、これらのモデルの不透明性のため、裏付けが不可能です。(中略)これは、AIシステムの構築における透明性の重要性が強調される数多くの事例の一つです。」
OpenAIのトラブル
2024年はOpenAIにとってまさにジェットコースターのような年でした。同社とCEOのサム・アルトマンは、イーロン・マスク氏から訴訟を起こされたことで年初を迎えました。アルトマン氏は、OpenAIが当初の非営利目的から、公共の利益よりも利益を重視する方向に転換したと主張しました。.
昨年、ニューヨーク・デイリー・ニュース、シカゴ・トリビューン、デンバー・ポストを含む米国の新聞社8社が、OpenAIとMicrosoftを提訴した。彼らは、OpenAIが数百万点の著作権で保護された出版物を、許可や報酬なしにAIチャットボットの学習に利用したと非難し、その手法が彼らの知的財産権を侵害していると主張した。.
また、OpenAIの最高技術責任者であるミラ・ムラティ氏が退任を発表しました。彼女の技術力は同社の発展に不可欠であったため、これは重要な時期でした。.
さらに、OpenAIはChatGPTにおいて、時折発生する機能停止、チャットボットからの不正確または意味不明な応答につながる不具合、ユーザーのプライバシーに関する懸念など、いくつかの問題に直面しました。また、AIが偏ったコンテンツや不快なコンテンツを生成した事例もありました。.

