イーロン・マスク氏は、NVIDIAの最新世代H100 GPUを搭載したメンフィス・スーパーコンピュータ施設でGROK 3のトレーニングを開始することを正式に発表しました。マスク氏が「世界最強のAIトレーニングクラスター」と呼ぶこの施設は、単一のRDMAファブリック上に10万基の液冷式H100 GPUを搭載し、月曜日から稼働を開始しました。.
訓練はメンフィス現地時間午前4時20分に予定されていました。その後のツイートで、マスク氏は世界最先端のAIは今年12月までに開発できると述べました。また、Xの成果についてもツイートし、xAI、X、NVIDIAのチームの素晴らしい仕事ぶりを称賛しました。.
@xAIチーム、 @Xチーム、 @Nvidia、の素晴らしい仕事のおかげで、現地時間午前4時20分頃にメンフィス・スーパークラスターのトレーニングが開始されました。
— イーロン・マスク(@elonmusk) 2024年7月22日
単一のRDMAファブリック上に10万基の液冷式H100を搭載した、世界最強のAIトレーニングクラスターです!
xAIが戦略を転換し、Oracleサーバーとの取引をキャンセル
この発表は、xAIとオラクルの間で最近キャンセルされた100億ドル規模のサーバー契約の後に行われた。マスク氏は、当初2025年秋に稼働開始予定だったxAIのギガファクトリー・オブ・コンピューティングが、予定より早く稼働を開始したことを示唆した。.
xAIは以前、AIチップをOracleから外注していましたが、独自の高度なスーパーコンピュータを開発するためにOracleとの提携を解消することを決定しました。現在、同プロジェクトは、1基あたり約3万ドルの最先端のH100 GPUのポテンシャルを活用する計画です。GROK 2では2万基のGPUが使用され、GROK 3ではより高度なAIチャットボットを構築するためにその5倍のGPUが必要でした。.
関連記事:イーロン・マスク、テスラへの50億ドルのxAI投資について世論調査
これは非常に驚くべきことです。特にNVIDIAはつい最近、HopperアーキテクチャをベースとしたH200 GPUのリリースを発表したばかりです。H200や、近日発売予定のBlackwellベースのB100およびB200 GPUを待つのではなく、H100 GPUでトレーニングを開始するという決定です。第2四半期に量産開始されたH200 GPUは大幅なパフォーマンス向上を約束していますが、xAIは当面、既存のH100インフラストラクチャを活用して野心的な目標を達成することに注力しています。.
アナリストがメンフィス・スーパークラスターの電力供給に疑問
AIと半導体の専門家であるディラン・パテル氏は、メンフィス・スーパークラスターの運用における電力供給について当初懸念を表明しました。彼は、現在の7メガワットの電力供給では、約4,000基のGPUしか維持できないと指摘しました。テネシー川流域開発公社(TVA)は、8月1日までに締結される予定の契約に基づき、この施設に50MWの電力を供給する予定です。しかし、電力需要を完全に満たすために必要な変電所の完成は2024年後半に予定されています。
イーロンに頭が下がる。彼は本当に素晴らしい。ツイートは削除しました。
— ディラン・パテル @ ICML (@dylan522p) 2024年7月23日
ええ、今はグリッドから8MWしか供給されていませんが、TVA契約を締結すれば8月1日に50MWになります。年末までに200MW、10万台のGPUに必要なのは155MWだけですが、
現在3万2千台がオンライン、残りは第4四半期にオンラインになります。10
万台のH100を3ヶ月使用すれば、現在のGPT 5の稼働状況と同等の成果が得られるでしょう。pic.twitter.com/
パテル氏は衛星画像を分析した結果、マスク氏がVoltaGridのモバイル発電機を14台導入しており、それぞれ2.5メガワットの電力を供給できることを指摘した。これらの発電機は合計35メガワットの電力を生産している。電力網からの8メガワットと合わせると、合計43メガワットとなり、ある程度の電力制限を課せばH100 GPU約3万2000台に電力を供給するのに十分な量となる。.

