OpenAIがついにGPT 4.5 AIモデルを公開したが、特定のタスクでは競合他社よりも能力が劣る

読了時間4分 2025年3月1日

OpenAI はついに、同社最大の AI モデルであるコードネーム「Orion」の GPT-4.5 を公開しました。.
GPT-4.5 は、学術的なタスクでは Anthropic の Claude 3.7 Sonnet などの競合製品に比べて遅れています。.
4o や o3-mini と比較すると、より温かみのある反応が得られます。.

OpenAIは、コードネーム「Orion」のGPT-4.5を公開しました。同社によれば、これは同社にとってこれまでで最大のモデルとなります。テクノロジーコミュニティの多くの人々は、これまで文章、数学、コーディングなどの分野でmatic 進歩を示してきたGPTモデルシリーズの次なるステップを熱心に待ち望んでいました。.

同社はGPT-4.5を段階的に展開していく方針だ。月額200ドルのChatGPT Proプランの加入者は、研究プレビューとしてすぐにアクセスできる。OpenAIのAPIの有料プランを利用している開発者も、GPT-4.5にすぐにアクセスできる。ChatGPT PlusとChatGPT Teamの顧客もその次で、OpenAIの広報担当者は、新モデルは来週中に利用可能になる予定だと述べた。OpenAIによると、部分的なリリースは、この「巨大」なシステムを支える膨大なコンピューティング需要が一因となっている。.

本日、チャット向けとしてはこれまでで最大かつ最高のモデルであるGPT-4.5の研究プレビュー版をリリースします。

現在、すべてのChatGPT Proユーザーに展開中で、来週にはPlusおよびTeamユーザー、その翌週にはEnterpriseおよびEduユーザーに展開されます。pic.twitter.com/ br5win5OEB
— オープンAI（@OpenAI） 2025年2月27日

テクノロジー業界では、GPT-4.5の登場は、従来の学習手法（主にデータ量と計算リソースのスケールアップ）が今後も大幅なパフォーマンス向上をもたらすかどうかを示す指標と捉えられてきました。これまで、GPTシリーズは比較的予測可能なパターンを辿ってきました。GPT-1、GPT-2、GPT-3、GPT-4といったバージョンでは、OpenAIがより多くの計算能力を適用し、より多くの学習データを投入するたびに、性能が著しく向上しました。.

各世代において、matic、文章力、コーディング能力、その他の分野のベンチマークはmaticに向上しました。GPT-4.5は、同社が「より深い世界知識」と「より高い感情知能」と表現する技術によって、この傾向を継続することを目指しています。しかし同時に、GPT-4.5の特定のテストの結果は、単純なスケールアップによるリターンが頭打ちになりつつある可能性を示唆しています。.

GPT-4.5の初期機能と制限

OpenAIは、GPT-4.5をGPT-4oの直接的な代替品と見なすべきではないことを慎重に指摘しています。GPT-4.5には、ファイルや画像のアップロードのサポートや、クリエイティブな出力のためのChatGPTのキャンバスツールなど、高度な機能が含まれています。ただし、現在のところ、ChatGPTが最近導入した双方向音声モードはサポートされていません。.

OpenAIと他の研究者による初期評価では、GPT-4.5がいくつかのテストカテゴリーでGPT-4oを上回ることが明らかになりました。例えば、モデルが単純な事実に関する質問にどれだけ正確に答えられるかを測定するために設計されたテストであるSimpleQAベンチマークでは、GPT-4.5はGPT-4oよりも高い精度スコアを記録し、OpenAIのo1およびo3-mini推論モデルも上回りました。同社によると、GPT-4.5は他の多くのシステムよりも「幻覚」を起こす頻度が低く、実際の情報から逸脱したコンテンツを生成する傾向が低いということです。.

コーディング評価では、結果はより複雑です。SWE-Bench Verifiedベンチマークでは、GPT-4.5はGPT-4oおよびo3-miniとほぼ同等ですが、上回ることはありません。そのため、GPT-4.5はOpenAIのディープラーニングモデルとAnthropicのClaude 3.7 Sonnetの両方よりも下位に位置しています。.

SWE-Lancerと呼ばれる別のコーディングテストでは、GPT-4.5はGPT-4oやo3-miniよりも優れたパフォーマンスを発揮しますが、依然として詳細な調査には遅れをとっています。.

GPT-4.5のパフォーマンスは、難易度の高い学術ベンチマークでもばらつきがあります。AIMEとGPQAでは、o3-mini、DeepSeekのR1、AnthropicのClaude 3.7 Sonnetといったトップクラスのモデルが示す結果には達していません。しかし、GPT-4.5は「推論」システムに分類されない主要モデルと同等、あるいは場合によっては上回っており、GPT-4.5が堅牢な数学および科学機能を保持していることを示しています。.

OpenAIは、定量化が難しい分野においてもGPT-4.5の強みを高く評価しています。同社によると、GPT-4.5は人間の意図をより深く理解し、より温かみがあり、より自然で、より社会的な配慮を感じさせる返答を生み出すことができるとのことです。.

非公式のテストでは、「テストに失敗してつらい時期を過ごしています」という質問が出されました。他の2つのモデルは有用な情報を提供しましたが、GPT-4.5はより共感的で感情的な感受性を持って反応したと言われています。.

「今回のリリースを通じて、GPT-4.5の機能をより完全に把握できることを期待しています」とOpenAIはブログ投稿で述べた。「学術的なベンチマークが必ずしも現実世界の有用性を反映しているとは限らないことを認識しているからです。」

GPT-4.5は4oやo3-miniよりも温かみのあるレスポンスを示します。出典: OpenAI

スケーリング法の精査

GPT-4.5は、これまでのGPTバージョンで使用されていたものと同じ教師なし学習戦略を用いて構築されており、この戦略はこれまで信頼性が実証されています。しかし、特定の高レベルベンチマークにおけるパフォーマンスの限界は、業界の伝統的な「スケーリング則」が勢いを失いつつある兆候かもしれません。.

OpenAIの共同創設者で元チーフサイエンティストのイリヤ・スツケヴァー氏は12月に、「データのピークに達した」と述べ、「私たちが知っているような事前学習は間違いなく終焉を迎えるだろう」と付け加えた。当時、スツケヴァー氏は、将来の進歩は、大量の情報を単に記憶するのではなく、問題についてより深く推論できるシステムなど、他の手法にかかっていると示唆した。.

タウ大学（TAU）のイリヤ・スツケヴェルとサム・アルトマン。出典：YouTubeのTAUVOD

GPT-4.5は、ホワイトペーパーにも記載されているように「学習に非常にコストがかかる」ようで、性能とコストの問題からOpenAIがリリースを何度も延期したという噂が数ヶ月にわたって流れていた。それでもなお、GPT-4.5単体では、多くの高度なタスクにおいて競合他社の専門的な推論モデルを凌駕しているようには見えない。同社自身は、GPT技術と「o」推論システムを統合する道のりにおける新たな開発マイルストーンと位置付けており、この統合は今年後半にリリースされるGPT-5から始まると予想されている。

GPU不足に関するCEOサム・アルトマン氏のコメント

OpenAIのCEO、サム・アルトマン氏はX（旧Twitter）で、最新モデルの展開が段階的に行われている理由を説明した。「当社は急成長を遂げており、GPUが不足しています」とアルトマン氏は述べ、GPT-4.5を「巨大」かつ「高価」だと表現し、モデルを一般ユーザーに公開するまでには「数万」台のGPUが必要になると警告した。.

GPT-4.5が完成しました！

朗報：私にとって、まるで思慮深い人と話しているような感覚を与えてくれる初めてのモデルです。椅子に深く腰掛け、AIから本当に良いアドバイスをもらって驚いた瞬間が何度もありました。

残念なニュース：巨大で高価なモデルです。私たちは…
— サム・アルトマン (@sama) 2025年2月27日

GPT-4.5はサイズが大きいため、非常に高価であることが判明しています。OpenAIは入力トークン100万個あたり75ドル、モデル生成トークン100万個あたり150ドルを請求しています。これは、GPT-4oモードと比較して、入出力コストがそれぞれ30倍と15倍に相当します。.

同氏はさらにこう説明した。「来週には数万個のGPUを追加し、それをPlus層に展開する予定です。これは我々が望んでいる運営方法ではありませんが、GPU不足につながる成長の急増を完璧に予測するのは難しいのです。」

仮想通貨ニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です。

オープンAI

この記事を共有する