Nvidia の新しい Blackwell チップは、人工知能システムをトレーニングする速度を変えています。.
AIチップの機能をtrac非営利団体MLCommonsが水曜日に発表した最新のベンチマーク結果では、NvidiaがプログラムしたBlackwellアーキテクチャが記録を樹立した。
MetaのオープンソースモデルであるLlama 3.1 405B(同社最大規模かつ最も複雑なAIモデルの一つ)でテストしたところ、Blackwellチップを用いたトレーニングはわずか27分。これはわずか2,496個のBlackwell GPUで実現したものであり、Nvidiaの従来のHopperチップを使用した場合と比べて桁違いに少ない時間です。
Hopper GPUを3倍以上使用していました。チップ単位で見ると、Blackwellは2倍以上の速度を実現し、収束効率が大幅に向上しました。このような性能向上は、兆パラメータモデルを学習する組織にとって、時間とコストの大幅な節約につながる可能性があります。
これらの結果は、このような極端な規模でのモデルトレーニングに関する初のMLCommonsベンチマークであると考えられており、チップが最も要求の厳しい AI ワークロードをどれだけうまく処理できるかについての現実的な測定値を提供します。
CoreWeaveとNvidiaがよりスマートなAIスケーリングを推進
この結果はNVIDIAにとっての勝利であっただけでなく、テストに協力したクラウドインフラ企業CoreWeaveの取り組みも際立たせました。記者会見で、CoreWeaveの最高製品責任者であるチェタン・カプール氏は、業界でますます理にかなった方向性を指摘しました。それは、数万個のGPUからなる大規模で均質なブロックからの脱却です。.
企業は現在、単一の大規模なモノリシック コンピューティング システムを構築するのではなく、大規模なモデル トレーニングをより効率的かつ優れたスケーリングで管理できる、より小規模で相互接続されたサブセットに注目しています。.
カプール氏は、このような技術により、開発者は数兆個のパラメータを持つ極めて大規模なモデルのトレーニングのスケールアップや、トレーニングに必要な時間の短縮を継続できると述べた。.
AI モデルのサイズと複雑さは増大する一方であるため、ハードウェアのモジュール展開への移行も必要です。.
ブラックウェル、AIモデルトレーニングでNVIDIAをリード
最近はChatGPT1のようなモデルがリアルタイムでユーザーの質問に答えるAI推論に焦点が移っていますが、トレーニングは依然としてAI開発の主力です。.
学習によってこれらのモデルは賢くなり、言語を理解し、最も困難な問題のいくつかに取り組み、さらには人間のような散文を生成することさえできるようになります。この計算は非常に要求が厳しく、数千個の高性能チップを長期間(通常は数日、場合によっては数週間、あるいは数ヶ月)動作させる必要があります。.
、NvidiaのBlackwellアーキテクチャによって状況は一変しました。Blackwellチップは、チップサイズと巨大なAIモデルのトレーニングにかかる時間を大幅に削減することで、速度と効率が重要視される市場においてNvidiaに優位性をもたらします。
数兆個のパラメータを持つMetaのLlama 3.1 405Bなどのトレーニングモデルは、これまでは巨大なGPUクラスターで実行する必要があり、コストが高く大量の電力を消費するプロセスとなっていた。.
医療や金融から教育や自動運転車まで、多くの業界でこれまで以上に大規模で強力な AI モデルに対する需要が急増している現在、このようなパフォーマンスの向上は大きな前進となります。.
これは、NVIDIAのライバル企業にも明確なメッセージを送るものです。現在、AI専用チップの開発に取り組んでいるAMDやIntelといったチップメーカーは、NVIDIAと同様のペースを維持するよう、より大きなプレッシャーにさらされています。.
AMDはMLCommonsベンチマークテストに提出しましたが、Llamas 3.1 405Bのような大規模なモデルでは結果を示しませんでした。ベンチマークのハイエンドでテストを行ったのはNvidiaのみであり、同社が優れたハードウェアであり、最も困難な課題にも挑戦する意欲があることを証明しました。.

