OpenAI の最新の推論モデルである o3 と o4-mini は、社内および社外のテストで示されているように、同社の以前のモデルよりも頻繁に架空の回答を生成します。.
いわゆる幻覚の増加は、新作が出るたびに前のモデルよりも内容が少なくなるという長年のパターンを打破するものだ。.
OpenAI自身の数値は、この問題を如実に表している。モデルが人物に関する事実をどれだけ正確に想起できるかを測る同社のベンチマークであるPersonQAにおいて、o3は回答の33%で虚構を捏造した。これは、o1とo3-miniのそれぞれ16%と14.8%の約2倍の数値だ。o4-miniはさらに悪く、48%の確率で幻覚を想起した。
技術報告書には調査結果の詳細が記載されている。エンジニアらは、新モデルはコーディングと数学の分野で以前のバージョンを上回っているものの、「全体的により多くの主張」をしているため、「より正確な主張だけでなく、不正確/幻覚的な主張も増えている」と述べている。報告書はさらに、信頼性の低下を説明するには「さらなる研究が必要」と付け加えている。
OpenAIはoシリーズシステムを推論モデルとして分類しており、これは同社と業界の多くが過去1年間で採用してきた考え方です。Web検索機能を備えたGPT-4oなどの従来の非推論モデルは、最新の2つのモデルを忠実性において上回りました。検索機能を備えたGPT-4oは、別の社内ベンチマークであるSimpleQAで90%の精度を達成しました。.
OpenAIのo3モデルは進歩を遂げている
AI関連の非営利ラボであるTransluceは、 と報告しました。ある実行では、モデルは2021年モデルのMacBook Proで「ChatGPTの外部」でコードを実行し、その数値をコピーしたと報告しました。このモデルにはそのような能力がそもそもありません。
「私たちの仮説は、Oシリーズモデルに使用される強化学習の種類は、通常は標準的なトレーニング後のパイプラインによって軽減される(ただし完全に消去されるわけではない)問題を増幅させる可能性があるというものです」と、Transluceの研究者で元OpenAIの従業員であるニール・チョウドリー氏は電子メールで述べています。.
Transluce の共同設立者 Sarah Schwettmann 氏は、エラー率が高いと、o3 の本来の能力が示すほど役に立たなくなる可能性があると述べた。.
スタンフォード大学の非常勤教授、キアン・カタンフォルーシュ氏はTechCrunch、自身のチームが既にコーディングタスクでo3をテストしており、「競合より一歩上」だと見ていると語った。しかし、彼は別の欠陥も指摘している。このモデルはクリックしても機能しないウェブリンクを返すことがよくあるのだ。
幻覚は創造性を刺激することもあるが、正確性を求める企業にとって、こうしたシステムの導入は困難だ。例えば、trac書を作成する法律事務所は、事実誤認が頻繁に発生することを許容しないだろう。.
リアルタイム検索はAIモデルの幻覚を減らす可能性がある
解決策の一つはリアルタイム検索です。ウェブを参照するOpenAIのGPT-4oバージョンは、既にSimpleQAで高いスコアを獲得しています。報告書は、少なくともユーザーがサードパーティのエンジンにプロンプトを送信する意思がある場合、同様の戦術によって推論モデルにおける幻覚を削減できる可能性があることを示唆しています。.
「当社のすべてのモデルにおける幻覚への対処は現在も進行中の研究分野であり、その精度と信頼性の向上に継続的に取り組んでいます」とOpenAIの広報担当者ニコ・フェリックス氏は電子メールで述べた。.
リアルタイム検索だけで問題が解決するかどうかは依然として不透明です。報告書は、推論モデルのスケールアップが幻覚の悪化を続ける場合、解決策の探求はより緊急性を増すだろうと警告しています。研究者たちは長年、幻覚をAIにおける最も難しい問題の一つと位置付けており、今回の研究結果は、まだ解決すべき課題が山積していることを浮き彫りにしています。.
ChatGPTはため、信頼性は重要です。エンジニアたちは、強化学習、データ選択、ツールの使用を継続的に調整し、その数値を下げていくと述べています。それまでは、ユーザーはより高度なスキルと、誤解される可能性の高さとのバランスを取らなければなりません。

