OpenAIのo3モデルは、自らのベンチマークの主張に及ばない

による

ヌール・バズミ

読了時間2分 2025年4月21日

OpenAIは、o3モデルがFrontierMathの問題の25%以上を解けると主張したが、Epoch AIによる新たなテストでは、公開バージョンが解けるのは約10%であることが明らかになった。.
ARC Prize と OpenAI のエンジニアは、リリースされたモデルがチャットでの使用に合わせて調整された、よりスリムで高速なビルドであることを確認しました。.
xAIやMetaなどのライバル企業も、ベンチマーク結果の肥大化について厳しい調査に直面している。.

OpenAIの最新のLLMであるo3は、同社が当初主張していたよりもはるかに少ない数の難問を解けたという独立しdent テストの結果、精査に直面している。.

OpenAIが12月にo3を発表したとき、幹部は、このモデルは大学院レベルの数学パズルとして悪名高い難問集、FrontierMathの問題の「4分の1強」を解くことができると述べた。.

彼らによると、最も優れた競合製品でも2%前後で停滞しているという。「現在、市場に出回っているすべての製品の効率は2%未満です」と、チーフリサーチオフィサーのマーク・チェン氏は、o3とo3ミニライブストリーム。「積極的なテスト時の計算設定では、o3で25%を超える効率を達成できることがわかっています。」

TechCrunchは報じた、OpenAIが先週リリースしたモデルよりも多くの計算能力を使用したo3のバージョンでこの結果を得たと.

金曜日、FrontierMathを開発した研究機関Epoch AIが独自のスコアを一般向けに公開した。.

OpenAI は、待望の推論モデル o3 と、o3-mini の後継となる小型で安価なモデル o4-mini をリリースしました。.

新しいモデルを当社の数学・科学ベンチマークスイートで評価しました。結果はスレッドをご覧ください！ pic.twitter.com/5gbtzkEy1B

— エポックAI (@EpochAIResearch) 2025年4月18日

Epoch 社は、ベンチマークの更新版である 290 問を使用して、モデルの正解率を約 10% としました。.

この結果は、OpenAIの12月の技術論文に記載されている下限値と一致しており、Epoch社は、この不一致はさまざまな理由による可能性があると警告した。.

「我々の結果とOpenAIの結果との違いは、OpenAIがより強力な内部フレームワークで評価を行ったこと、より多くのテスト時間計算を使用したこと、あるいは結果がFrontierMathの異なるサブセットで実行されたことなどが原因である可能性がある」とEpochは書いている。

FrontierMathは、高度なmatic的推論能力の発達を測定するために設計されています。2024年12月の公開セットには180問の問題が含まれており、2025年2月の非公開アップデートでは290問に拡大されました。.

質問リストの変更やテスト時に許可される計算能力の量により、報告されるパーセンテージに大きな変動が生じる可能性があります。.

OpenAIは、公開されたo3モデルはデモ版よりも計算量が少ないことを確認した。

商用版o3に欠点があるという証拠は、ARC Prize Foundationによるテストからも得られました。同財団は、以前のより大規模なビルドを試用しました。ARC Prize FoundationはXに「公開版は異なるモデルであり、チャットや製品利用向けに調整されている」投稿し、「リリースされたすべてのo3コンピューティングティアは、我々がベンチマークしたバージョンよりも小さい」と付け加えました。

OpenAIの社員ウェンダ・ゾウ氏も先週のライブ配信で同様の説明を行った。同氏によると、本番環境のシステムは「現実世界のユースケース」と速度に「より最適化」されているという。「モデルのコスト効率を高め、より一般的に有用性を高めるために最適化を行いました」とゾウ氏は述べ、ベンチマークとの「差異」の可能性も認めた。

同社の2つの小型モデル、o3-mini-highと新しく発表されたo4-miniはすでにFrontierMathでo3に勝っており、OpenAIは今後数週間以内にさらに優れたo3-proバリアントが登場すると述べている。.

それでも、ベンチマークの見出しがいかに誤解を招きやすいかを示している。1月には、EpochがOpenAIへの資金提供の開示をo3のデビューまで遅らせたとして批判された。さらに最近では、イーロン・マスクのスタートアップxAIが、Grok 3モデルの能力を誇張したグラフを提示したとして非難された。.

業界ウォッチャーによれば、企業が新しいモデルで注目を集めようと競争する中、このようなベンチマーク論争はAI業界ではよくあることになりつつあるという。.

仮想通貨ニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です。

オープンAI

この記事を共有する