OpenAI 正在勾勒出一个看似由机器建造的文明蓝图,这个文明由其自身的芯片、基础设施以及足以点亮两个纽约市的电力驱动。.
该公司庞大的人工智能城市愿景建立在一个几乎不可能实现的愿景之上:与博通公司合作设计和生产数十亿个定制芯片,以支持首席执行官 Sam Altman 所说的未来“计算脊柱”。.
山姆告诉《华尔街日报》,要提供人们所需的人工智能服务,每个用户至少需要一枚人工智能专用芯片,这是一个令人瞠目结舌的预测,耗资数十亿美元。.
艾伦人工智能研究所所长阿里·法哈迪也支持这一规模预测,他表示,如果人工智能以预期的速度取代人类劳动力,“世界需要的AI芯片数量将与传统芯片的数量一样多”。对于 OpenAI,这关乎控制权:控制成本、控制能耗,以及在需求爆炸式增长的情况下,确保其模型能够长期生存下去。
OpenAI 联合博通、英伟达和内存巨头,共同打造下一代计算技术
当然,英伟达仍然在人工智能训练领域占据主导地位,市场份额约为 70%,这就是为什么 OpenAI 不得不继续使用其 GPU 进行模型训练的原因。.
但 OpenAI 现在正在拆分流程:训练在英伟达的芯片上进行,推理(将答案返回给用户的过程)则转移到博通的定制芯片上。这种双trac设计可以大幅降低成本和功耗,而每一个百分点都至关重要。.
SemiAnalysis 的半导体研究员 Jordan Nanos 表示 博通正在帮助 OpenAI “重新设计传统的 AI 芯片”。这些芯片并非通用芯片,而是专门为 OpenAI 的模型量身打造的。OpenAI 的模型依赖于高带宽内存,而这些内存由三星和 SK 海力士提供,这两家公司也是 OpenAI 近期的合作伙伴。
这种类型的内存可以加快处理器之间的数据传输速度,这对像 OpenAI 的 Pulse 这样的系统至关重要。Pulse 是一款人工智能代理,它每天扫描网络并为用户提供简报。Sam 表示,Pulse 消耗的计算能力非常强大,因此只有每月支付 200 美元购买 Pro 套餐的用户才能使用。.
这种对高带宽内存的依赖与OpenAI模型的运行方式直接相关。早期的神经网络是“密集型”的,每次查询都会激活系统中的大部分区域。而较新的神经网络则采用“稀疏型”设计,仅激活特定的专家区域。.
现代系统不再像过去那样使用模型的 25% 来回答问题,而是仅使用不到百分之一的资源。这种差异显著降低了功耗并加快了响应速度。当芯片采用这种稀疏逻辑设计时,效率将大幅提升,而 博通公司 正是实现这一硬件技术的公司。
OpenAI 的千兆瓦级人工智能超级计算机重新defi了基础设施
山姆曾表示,OpenAI 目前的计算资源约为 2 吉瓦,分布在全球各地的数据中心。与博通的合作目标是在 2030 年前将计算资源提升至 10 吉瓦,为业内人士所称的“人工智能城市”奠定物理基础。这些“人工智能城市”指的是由服务器、存储设备和定制互连组成的密集型园区,所有设备均通过博通的 Tomahawk Ultra 网络芯片连接在一起。.
这只是这波浪潮的一部分。过去三周, OpenAI 与AMD和Nvidia达成了新的产能协议,新增了16吉瓦的运维容量,使其总产能达到可能需要近1万亿美元投资的水平。
xAI 的孟菲斯巨像核电站今年秋季已达到 1.21 吉瓦的装机容量。Meta 公司位于路易斯安那州的 Hyperion 核电站已获批 2.3 吉瓦的装机容量,而马克·扎克伯格的目标是 5 吉瓦。人工智能能源竞赛已正式成为全球性竞争。.
山姆将此次转型描述为“历史上规模最大的联合工业项目”,并表示即使是这些交易也“与我们未来的目标相比只是杯水车薪”。他的目标之一是实现供应商多元化。.
位于德克萨斯州阿比林的星际之门园区由甲骨文公司建造,将专注于人工智能训练,主要采用英伟达芯片。AMD硬件将处理推理工作负载,而博通的定制芯片则弥补了效率方面的不足。.
正如纳诺斯所说,“OpenAI 着眼于非常长远的未来,并努力确保他们能够获得足够的芯片供应。”

