埃隆·马斯克正式宣布,位于孟菲斯的超级计算机中心已开始进行 GROK 3 训练,该中心配备了英伟达最新一代的 H100 GPU。马斯克称该中心为“世界上最强大的 AI 训练集群”,它于周一开始运行,借助 10 万个液冷式 H100 GPU 在单一 RDMA 架构上运行。.
培训安排在孟菲斯当地时间凌晨 4 点 20 分进行。随后,马斯克在推特上表示,世界上最先进的人工智能有望在今年 12 月前开发完成。他还就 X 平台取得的成就发推文,祝贺 xAI、X 和 NVIDIA 团队的出色工作。.
@xAI团队、 @X团队、 @Nvidia都做得非常出色,孟菲斯超级集群的训练于当地时间凌晨 4:20 左右启动。
——埃隆·马斯克 (@elonmusk) 2024年7月22日
它拥有 10 万个液冷 H100 芯片,运行在单一的 RDMA 架构上,是世界上最强大的 AI 训练集群!
xAI改变策略,取消与Oracle的服务器交易
此前,xAI 与 Oracle 之间价值 100 亿美元的服务器交易刚刚告吹。马斯克表示,xAI 的超级计算工厂(Gigafactory of Compute)原计划于 2025 年秋季投入运营,但目前已提前投产。.
xAI 此前曾从 Oracle 外包其人工智能芯片,但为了自主研发先进的超级计算机,决定终止合作。该项目目前计划利用最先进的 H100 GPU,每颗 GPU 的售价约为 3 万美元。GROK 2 使用了 2 万颗 GPU,而 GROK 3 则需要五倍于前者的 GPU 数量来构建更复杂的人工智能聊天机器人。.
另请阅读:埃隆·马斯克就特斯拉50亿美元xAI投资征求公众意见
这着实令人惊讶,尤其是在NVIDIA不久前才宣布即将发布基于Hopper架构的H200 GPU的情况下。xAI选择使用H100 GPU而非等待H200或即将推出的基于Blackwell架构的B100和B200 GPU,开始进行训练。H200 GPU已于第二季度量产,有望带来显著的性能提升,但xAI目前的首要任务是利用现有的H100基础设施来实现其雄心勃勃的目标。.
分析师对孟菲斯超级集群的电力供应提出质疑
人工智能和半导体专家迪伦·帕特尔最初表示担忧。他指出,目前7兆瓦的电网供电仅能维持约4000个GPU的运行。田纳西河谷管理局(TVA)预计将于8月1日前签署协议,向该设施供应50兆瓦电力。然而,满足全部电力需求所需的变电站要到2024年底才能建成。
我向埃隆致敬,他真是太牛逼了。已删除推文。
— Dylan Patel @ ICML (@dylan522p) 2024年7月23日
是的,目前电网只有8兆瓦,8月1日签完田纳西河谷管理局(TVA)协议后将达到50兆瓦。到年底将达到200兆瓦,10万GPU只需要155兆瓦,但
现在已经有3.2万个GPU上线,其余的将在第四季度上线。10
万个GPU运行3个月后,性能将与目前的GPT 5运行相当。pic.twitter.com/NQp3M5ruu8
帕特尔在分析卫星图像时发现,马斯克使用了14台VoltaGrid移动发电机,每台发电机可产生2.5兆瓦的电力。这些发电机总共可产生35兆瓦的电力。加上电网提供的8兆瓦电力,总发电量达到43兆瓦,足以在一定功率限制下为大约32000个H100 GPU供电。.

