Your bank is using your money. You’re getting the scraps.WATCH FREE

OpenAIのo3モデルは、自らのベンチマークの主張に及ばない

この投稿の内容:

  • OpenAIは、o3モデルがFrontierMathの問題の25%以上を解けると主張したが、Epoch AIによる新たなテストでは、公開バージョンが解けるのは約10%であることが明らかになった。.
  • ARC Prize と OpenAI のエンジニアは、リリースされたモデルがチャットでの使用に合わせて調整された、よりスリムで高速なビルドであることを確認しました。.
  • xAIやMetaなどのライバル企業も、ベンチマーク結果の肥大化について厳しい調査に直面している。.

OpenAIの最新のLLMであるo3は、同社が当初主張していたよりもはるかに少ない数の難問を解けたという独立しdent テストの結果、精査に直面している。. 

OpenAIが12月にo3を発表したとき、幹部は、このモデルは大学院レベルの数学パズルとして悪名高い難問集、FrontierMathの問題の「4分の1強」を解くことができると述べた。.

彼らによると、最も有力な競合企業は2%前後で停滞しているという。「現在、市場に出回っているすべての製品の性能は2%未満です」と、o3とo3のミニライブストリーム。「o3をアグレッシブなテストタイムコンピューティング設定で使用すると、25%を超える性能を実現できます。」

TechCrunchは、OpenAIが先週リリースしたモデルよりも多くの計算能力を使用したo3のバージョンでこの結果を得たと報じた.

金曜日、FrontierMathを開発した研究機関Epoch AIが独自のスコアを一般向けに公開した。.

Epoch 社は、ベンチマークの更新版である 290 問を使用して、モデルの正解率を約 10% としました。.

この結果は、OpenAIの12月の技術論文に記載されている下限値と一致しており、Epoch社は、この不一致はさまざまな理由による可能性があると警告した。.

ウクライナ  の開発者 Andriy Kostiushko が Threads of War: ユニークなコラボレーションを発表

「我々の結果とOpenAIの結果の違いは、OpenAIがより強力な内部スキャフォールドで評価し、より多くのテスト時間コンピューティングを使用しているためか、あるいはそれらの結果がFrontierMathの異なるサブセットで実行されたためである可能性がある」とEpochは書いている

FrontierMathは、高度なmatic的推論能力の発達を測定するために設計されています。2024年12月の公開セットには180問の問題が含まれており、2025年2月の非公開アップデートでは290問に拡大されました。.

質問リストの変更やテスト時に許可される計算能力の量により、報告されるパーセンテージに大きな変動が生じる可能性があります。.

OpenAIは、公開されたo3モデルはデモ版よりも計算量が少ないことを確認した。

商用版o3に欠陥があるという証拠は、ARC Prize Foundationによるテストからも得られました。同財団は、以前の大規模ビルドを試しました。ARC Prize Foundationは投稿し、「一般公開版は異なるモデルであり、チャットや製品での使用向けに調整されています」と述べ、「リリースされているo3のコンピューティング層はすべて、ベンチマークしたバージョンよりも小さくなっています」と付け加えています。

OpenAIの社員ウェンダ・ゾウ氏も先週のライブ配信で同様の説明を行った。同氏によると、本番環境のシステムは「現実世界のユースケース」と速度に「より最適化」されているという。「モデルのコスト効率を高め、より一般的に有用性を高めるために最適化を行いました」とゾウ氏は述べ、ベンチマークとの「差異」の可能性も認めた。

同社の2つの小型モデル、o3-mini-highと新しく発表されたo4-miniはすでにFrontierMathでo3に勝っており、OpenAIは今後数週間以内にさらに優れたo3-proバリアントが登場すると述べている。.

  ENS Labsがゼロ知識ロールアップを使用したレイヤー2ネットワークであるNamechainを立ち上げることも参照してください。

それでも、ベンチマークの見出しがいかに誤解を招きやすいかを示している。1月には、EpochがOpenAIへの資金提供の開示をo3のデビューまで遅らせたとして批判された。さらに最近では、イーロン・マスクのスタートアップxAIが、Grok 3モデルの能力を誇張したグラフを提示したとして非難された。.

業界ウォッチャーによれば、企業が新しいモデルで注目を集めようと競争する中、このようなベンチマーク論争はAI業界ではよくあることになりつつあるという。.

暗号通貨のニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です

共有リンク:

免責事項。提供される情報は取引アドバイスではありません。Cryptopolitan.comCryptopolitanこのページで提供される情報に基づいて行われた投資について一切の責任を負いません。dent調査や資格のある専門家への相談をtronお勧めします

最も読まれている

最も読まれている記事を読み込んでいます...

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

編集者のおすすめ記事を読み込んでいます...

- 常に先を行く暗号通貨ニュースレター -

市場の動きは速い。.

私たちはより速く動きます。.

Cryptopolitan Daily を購読すると、タイムリーで鋭敏かつ関連性の高い暗号通貨の洞察が直接受信箱に届きます。.

今すぐ参加して、
見逃さないようにしましょう。

入って、事実を知り、
前に進みましょう。

CryptoPolitanを購読する