OpenAIの新しいChatGPTモデルは「幻覚」を起こす頻度が高いことが判明

シュマス・フマユン著

読了時間3分 2025年4月19日

OpenAI の新しい o3 および o4-mini モデルは、以前のバージョンよりも優れた性能を発揮し、過去の改善傾向を打ち破っています。.
テストの結果、o3 と o4-mini は事実を捏造する頻度が最大 2 倍であり、o4-mini はほぼ半分の割合で幻覚を起こしていることが分かりました。.
リアルタイム検索はエラーの削減に役立つかもしれないが、幻覚の増加の根本的な原因は依然として不明である。.

OpenAI の最新の推論モデルである o3 と o4-mini は、社内および社外のテストで示されているように、同社の以前のモデルよりも頻繁に架空の回答を生成します。.

いわゆる幻覚の増加は、新作が出るたびに前のモデルよりも内容が少なくなるという長年のパターンを打破するものだ。.

OpenAI自身のデータを見れば、この問題は明白だ。PersonQAは、モデルが人物に関する事実をどれだけ正確に記憶しているかを検証する同社のベンチマークだが、o3は回答の33%で事実を捏造しており、これはo1（16%）とo3-mini（14.8%）の約2倍の割合だ。o4-miniはさらに悪く、48%で事実を捏造していた。

技術報告書には調査結果の詳細が記載されている。エンジニアらは、新モデルはコーディングと数学の面で以前のバージョンを上回っているものの、「全体的に主張する内容が増えた」ため、「より正確な主張も、より不正確／妄想的な主張も増えた」と述べている。また、信頼性の低下を説明するには「さらなる研究が必要」であると付け加えている。

OpenAIはoシリーズシステムを推論モデルとして分類しており、これは同社と業界の多くが過去1年間で採用してきた考え方です。Web検索機能を備えたGPT-4oなどの従来の非推論モデルは、最新の2つのモデルを忠実性において上回りました。検索機能を備えたGPT-4oは、別の社内ベンチマークであるSimpleQAで90%の精度を達成しました。.

OpenAIのo3モデルは進歩を遂げている

AI分野の非営利研究所であるTransluceは、と報告した。ある実行では、モデルは「ChatGPT以外」の2021年型MacBook Proでコードを実行し、その数値をコピーしたと報告した。しかし、このモデルにはそのような機能は備わっていない。

「私たちの仮説は、Oシリーズモデルに使用される強化学習の種類は、通常は標準的なトレーニング後のパイプラインによって軽減される（ただし完全に消去されるわけではない）問題を増幅させる可能性があるというものです」と、Transluceの研究者で元OpenAIの従業員であるニール・チョウドリー氏は電子メールで述べています。.

Transluce の共同設立者 Sarah Schwettmann 氏は、エラー率が高いと、o3 の本来の能力が示すほど役に立たなくなる可能性があると述べた。.

スタンフォード大学の非常勤教授であるキアン・カタンフォルーシュ氏は、 TechCrunch 、自身のチームがすでにコーディング作業でo3をテストしており、「競合他社よりも一歩先を行っている」と語った。しかし、彼は別の欠点も指摘している。このモデルは、クリックしても機能しないウェブリンクを返すことがよくあるというのだ。

幻覚は創造性を刺激することもあるが、正確性を求める企業にとって、こうしたシステムの導入は困難だ。例えば、trac書を作成する法律事務所は、事実誤認が頻繁に発生することを許容しないだろう。.

リアルタイム検索はAIモデルの幻覚を減らす可能性がある

解決策の一つはリアルタイム検索です。ウェブを参照するOpenAIのGPT-4oバージョンは、既にSimpleQAで高いスコアを獲得しています。報告書は、少なくともユーザーがサードパーティのエンジンにプロンプトを送信する意思がある場合、同様の戦術によって推論モデルにおける幻覚を削減できる可能性があることを示唆しています。.

「当社のすべてのモデルにおける幻覚への対処は現在も進行中の研究分野であり、その精度と信頼性の向上に継続的に取り組んでいます」とOpenAIの広報担当者ニコ・フェリックス氏は電子メールで述べた。.

リアルタイム検索だけで問題が解決するかどうかは依然として不透明です。報告書は、推論モデルのスケールアップが幻覚の悪化を続ける場合、解決策の探求はより緊急性を増すだろうと警告しています。研究者たちは長年、幻覚をAIにおける最も難しい問題の一つと位置付けており、今回の研究結果は、まだ解決すべき課題が山積していることを浮き彫りにしています。.

OpenAIにとって、 ChatGPTは職場、教室、クリエイティブスタジオで使用されているため、信頼性は重要です。エンジニアたちは、強化学習、データ選択、ツールの使用を継続的に調整し、その数値を下げていくと述べています。それまでは、ユーザーはより高度なスキルと、誤解される可能性の高さとのバランスを取らなければなりません。

最も賢い暗号通貨マインドを持つ人々はすでに私たちのニュースレターを読んでいます。参加してみませんか？ぜひご参加ください。

オープンAI

この記事を共有する