英伟达新款 Blackwell 芯片大幅缩短 AI 训练时间

- Nvidia 的新款 Blackwell 芯片仅用 27 分钟就训练完成了 Meta 的大型 Llama 3.1 模型。.
- 它们使用的GPU更少,速度却比之前的Nvidia芯片快两倍以上。.
- 这使得英伟达在人工智能训练领域比 AMD 和英特尔等竞争对手更具优势。.
英伟达的新型 Blackwell 芯片正在改变人工智能系统的训练速度。.
非营利组织)周三发布的最新一轮基准测试结果显示 trac性能的 人工智能芯片,英伟达开发的 Blackwell 架构创造了记录。
使用 Meta 的开源 Llama 3.1 405B 模型(其规模最大、最复杂的 AI 模型之一)进行测试时,基于 Blackwell 芯片的训练 仅需 27 分钟 。这仅使用了 2496 个 Blackwell GPU,比使用 Nvidia 上一代 Hopper 芯片所需的 GPU 数量级少了一个数量级。
相比之下,之前的设计需要使用三倍以上的 Hopper GPU 才能达到相同的性能。就芯片而言,Blackwell 的速度提升了两倍以上,这在收敛效率方面实现了巨大的飞跃。这种性能提升对于训练万亿参数模型的机构来说,可以转化为显著的时间和成本节省。
据信,这些结果是 MLCommons 针对如此极端规模的模型训练进行基准测试,并提供了芯片处理最苛刻的 AI 工作负载能力的真实衡量标准。
CoreWeave 和 Nvidia 共同推动更智能的 AI 扩展
此次测试结果不仅是英伟达的胜利,也凸显了云基础设施公司CoreWeave的贡献,该公司是此次测试的合作伙伴。在新闻发布会上,CoreWeave首席产品官Chetan Kapoor指出,行业正在朝着一个日益合理的方向发展:摒弃由数万个GPU组成的大型同质化集群。.
企业不再构建单一、庞大、一体化的计算系统,而是着眼于更小、相互连接的子系统,这些子系统可以更高效、更好地扩展,从而管理大规模模型训练。.
Kapoor 表示,借助这种技术,开发人员可以不断扩大规模或缩短训练具有数万亿个参数的超大型模型所需的时间。.
随着人工智能模型的规模和复杂性不断膨胀,向硬件模块化部署的转变也势在必行。.
Blackwell 认为英伟达在人工智能模型训练方面处于领先地位
尽管近来研究重点已转向人工智能推理,例如 ChatGPT1 等模型可以实时回答用户问题,但训练仍然是人工智能开发的核心环节。.
训练过程赋予这些模型智能,使它们能够理解语言、解决一些最具挑战性的问题,甚至能写出类似人类的文字。计算量极大,需要数千个高性能芯片长时间运行,通常持续数天,甚至数周或数月。.
改变了这一切 英伟达的Blackwell架构。Blackwell芯片大幅减少了芯片尺寸和训练庞大AI模型所需的时间,使英伟达在速度和效率至上的市场中占据了更有利的地位。
训练像 Meta 的 Llama 3.1 405B 这样的模型(它有数万亿个参数)以前必须在巨大的 GPU 集群上运行,这是一个昂贵且耗能的过程。.
在医疗保健、金融、教育和自动驾驶汽车等众多行业对规模更大、功能更强大的 AI 模型有着巨大需求的当下,这样的性能提升无疑是一大优势。.
这也向英伟达的竞争对手发出了明确的信号。现在,像AMD和英特尔这样正在研发人工智能专用芯片的芯片公司面临着更大的压力,需要保持类似的研发速度。.
AMD提交了MLCommons基准测试结果,但没有展示Llamas 3.1 405B这样大型模型的测试结果。Nvidia是唯一一家在高阶基准测试中表现出色的厂商,这证明其硬件性能更胜一筹,并且能够应对最严峻的挑战。.
如果你正在阅读这篇文章,你已经领先一步了。 订阅我们的新闻简报,继续保持领先优势。

内利乌斯·艾琳
内利乌斯拥有工商管理和信息技术双学位,并在加密货币行业拥有五年经验。她也是 Bitcoin Dada)的毕业生。内利乌斯曾为多家主流媒体撰稿,包括 BanklessTimes、Cryptobasic 和 Riseup Media。.
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)














