随着大型科技公司为减少对英伟达的依赖而展开的斗争愈演愈烈,Meta 正在加大力度进军定制 AI 芯片领域。.
该公司表示,其于 2023 年启动了元训练和推理加速器 (MTIA) 项目,目前正在准备在未来两年内推出四代新芯片。.
据 Meta 公司称,这些芯片据称是为 Meta 旗下产品的排名、推荐和 GenAI 任务而打造的。.
该公司还表示,它不会将赌注押在单一供应商或单一硬件上。Meta计划继续从多家行业厂商采购芯片,同时将MTIA置于其自身人工智能基础设施计划的核心位置。.
用该公司的话来说,随着人工智能工作负载的增长和变化,它正采取“组合式方法”。这意味着将外部芯片与内部芯片混合使用,而不是将整个技术栈都交给单一供应商。.
Meta公司加快了MTIA芯片四代产品的推出速度。
Meta 表示,它已经在其应用程序中使用数十万个 MTIA 芯片进行与自然内容和广告相关的推理工作。.
这些芯片是为公司自身项目而打造的,并非面向通用用途。这一点至关重要,因为Meta表示,这些硬件是其定制化全栈解决方案的一部分,这使得该系统能够更好地适应其日常工作。.
该公司表示,与用途更广泛的芯片相比,这种配置在其特定用例中可提供更高的计算效率并降低成本。.
下一阶段是更大规模的部署。Meta表示,他们正在构建 MTIA 300、400、450 和 500,每个版本都将在计算能力、内存带宽和效率方面有所提升。MTIA 300 已投入生产,并将负责排名和推荐训练。
MTIA 400、450 和 500 可以运行所有工作负载,但 Meta 表示,这些芯片在近期和到 2027 年将主要用于 GenAI 推理生产。.
该公司还表示,这种硅芯片采用模块化设计,可以将新芯片无缝集成到现有的机架系统基础设施中,从而缩短从设计到部署的等待时间。.
关于发布速度,Meta 表示,业界通常每隔一到两年推出一款新的 AI 芯片,但现在通过重复利用模块化设计,它有能力每六个月甚至更短的时间推出自己的芯片。.
Meta公司围绕推理和开放标准构建其人工智能芯片战略。
该公司表示,其 MTIA 战略基于三个部分:快速迭代、推理优先的设计以及通过通用标准实现轻松采用。.
关于第一点,Meta表示,较短的发布周期有助于其随着人工智能技术的变化而更快地进行调整,引入更新的硬件技术,并降低开发和部署新芯片版本的成本。
关于第二点,Meta明确指出其计划与常见的市场模式有所不同。该公司表示,大多数主流芯片最初是为大规模的GenAI预训练任务而设计的,之后才用于其他用途,而这些用途的成本往往更高。.
Meta表示他们的做法恰恰相反。MTIA 450和500首先针对GenAI推理进行调优,然后用于排名、推荐训练和推理,以及在需要时用于GenAI训练。.
该公司还表示,MTIA从一开始就基于标准工具和系统构建,包括PyTorch、vLLM、Triton和开放计算项目(OCP)。其系统和机架设计也遵循OCP标准,可用于数据中心。.
Meta补充说,没有哪一款芯片能够满足它的所有需求,因此它计划针对不同的工作负载部署不同的芯片,同时朝着它所谓的“人人享有个人超级智能”的目标迈进。

