OpenAIの最新のLLMであるo3は、同社が当初主張していたよりもはるかに少ない数の難問を解けたという独立しdent テストの結果、精査に直面している。.
OpenAIが12月にo3を発表したとき、幹部は、このモデルは大学院レベルの数学パズルとして悪名高い難問集、FrontierMathの問題の「4分の1強」を解くことができると述べた。.
彼らによると、最も有力な競合企業は2%前後で停滞しているという。「現在、市場に出回っているすべての製品の性能は2%未満です」と、o3とo3のミニライブストリーム。「o3をアグレッシブなテストタイムコンピューティング設定で使用すると、25%を超える性能を実現できます。」
TechCrunchは、OpenAIが先週リリースしたモデルよりも多くの計算能力を使用したo3のバージョンでこの結果を得たと報じた.
金曜日、FrontierMathを開発した研究機関Epoch AIが独自のスコアを一般向けに公開した。.
OpenAI は、待望の推論モデル o3 と、o3-mini の後継となる小型で安価なモデル o4-mini をリリースしました。.
新しいモデルを当社の数学・科学ベンチマークスイートで評価しました。結果はスレッドをご覧ください! pic.twitter.com/5gbtzkEy1B
— エポックAI(@EpochAIResearch) 2025年4月18日
Epoch 社は、ベンチマークの更新版である 290 問を使用して、モデルの正解率を約 10% としました。.
この結果は、OpenAIの12月の技術論文に記載されている下限値と一致しており、Epoch社は、この不一致はさまざまな理由による可能性があると警告した。.
「我々の結果とOpenAIの結果の違いは、OpenAIがより強力な内部スキャフォールドで評価し、より多くのテスト時間コンピューティングを使用しているためか、あるいはそれらの結果がFrontierMathの異なるサブセットで実行されたためである可能性がある」とEpochは書いている。
FrontierMathは、高度なmatic的推論能力の発達を測定するために設計されています。2024年12月の公開セットには180問の問題が含まれており、2025年2月の非公開アップデートでは290問に拡大されました。.
質問リストの変更やテスト時に許可される計算能力の量により、報告されるパーセンテージに大きな変動が生じる可能性があります。.
OpenAIは、公開されたo3モデルはデモ版よりも計算量が少ないことを確認した。
商用版o3に欠陥があるという証拠は、ARC Prize Foundationによるテストからも得られました。同財団は、以前の大規模ビルドを試しました。ARC Prize Foundationは投稿し、「一般公開版は異なるモデルであり、チャットや製品での使用向けに調整されています」と述べ、「リリースされているo3のコンピューティング層はすべて、ベンチマークしたバージョンよりも小さくなっています」と付け加えています。
OpenAIの社員ウェンダ・ゾウ氏も先週のライブ配信で同様の説明を行った。同氏によると、本番環境のシステムは「現実世界のユースケース」と速度に「より最適化」されているという。「モデルのコスト効率を高め、より一般的に有用性を高めるために最適化を行いました」とゾウ氏は述べ、ベンチマークとの「差異」の可能性も認めた。
同社の2つの小型モデル、o3-mini-highと新しく発表されたo4-miniはすでにFrontierMathでo3に勝っており、OpenAIは今後数週間以内にさらに優れたo3-proバリアントが登場すると述べている。.
それでも、ベンチマークの見出しがいかに誤解を招きやすいかを示している。1月には、EpochがOpenAIへの資金提供の開示をo3のデビューまで遅らせたとして批判された。さらに最近では、イーロン・マスクのスタートアップxAIが、Grok 3モデルの能力を誇張したグラフを提示したとして非難された。.
業界ウォッチャーによれば、企業が新しいモデルで注目を集めようと競争する中、このようなベンチマーク論争はAI業界ではよくあることになりつつあるという。.

