据周一发布的一份研究报告称,斯坦福大学和华盛顿大学的人工智能研究人员据称完成了一件没人认为可能的事情——他们用不到 50 美元的云计算积分构建了一个名为 s1 的人工智能模型。.
据报道, s1 模型的性能与 OpenAI 的 o1 和 DeepSeek 的 R1 等顶级推理模型不相上下。更棒的是,整个项目——包括代码、数据等——都已在 GitHub 上开源。
该团队没有从零开始构建新模型,而是直接采用了一个现成的模型。之后,他们通过一种称为“提炼”的过程对其进行了微调。根据他们的研究,他们提炼出了谷歌Gemini 2.0 Flash Thinking Experimental模型的推理能力。.
他们训练 s1 通过学习 Gemini 的答案来模仿其解决问题的技巧。“我们的目标是简单易行,”参与该项目的斯坦福大学研究人员之一尼克拉斯·穆尼霍夫 (Niklas Muennighoff) 说。.
小数据集,大结果
对于希望降低成本的人工智能团队来说,数据蒸馏正迅速成为一种首选工具。伯克利的研究人员上个月开发了一个类似的人工智能模型,训练成本为 450 美元——按行业标准来看仍然很便宜。但斯坦福大学和华盛顿大学更进一步,通过使用更小的数据集和更精简的技术来蒸馏他们的模型,将成本降低到约 50 美元。.
研究人员精心挑选了1000个问题,每个问题都配有来自谷歌Gemini 2.0的详细答案和逐步推理过程。该数据集提供了模型s1达到高水平性能所需的所有知识。根据该团队的论文,该模型学会了如何思考问题。.
监督式微调(SFT)是实现这一目标的关键。研究人员没有采用需要庞大数据集和强大计算能力的强化学习,而是选择了SFT——一种直接训练人工智能模仿数据集中行为的方法。这种方法成本更低、速度更快,而且在本例中取得了成功。.
基础模型来自阿里巴巴旗下的人工智能实验室Qwen。他们的现成模型可以免费下载,这使得项目更加经济实惠。团队仅用了不到30分钟,并且只使用了16块Nvidia H100 GPU,就完成了s1的训练。“如今,我们租用所需的计算资源只需大约20美元,”Muennighoff说道。.
“等待”指令提高了s1的准确率
据报道,研究人员采用了一种巧妙的方法来提升模型 s1 的推理能力:他们在解决问题的过程中加入了“等待”这个词。通过让模型暂停并仔细检查其计算结果,他们提高了准确率。该研究论文详细阐述了这一调整如何让 s1 有足够的时间在提交答案之前思考更优的答案。.
OpenAI 正密切关注此事。他们已经指控 DeepSeek 不正当地从其 API 中窃取数据,用于开发人工智能竞争对手。S1 展示了复制成本可以多么低廉,这让 OpenAI 等大型企业感到担忧。人工智能模型的商品化可能会损害他们的利润。.
但这家科技公司还面临其他问题。周二,埃隆·马斯克的法律团队在奥克兰联邦法院与OpenAI对簿公堂。马斯克是OpenAI的早期投资者,他声称该公司放弃了非营利使命,背叛了其最初的目标。.
他提起诉讼,试图阻止OpenAI转型为一家完全以盈利为目的的企业。埃隆的律师马克·托贝罗夫周五在法庭上表示,埃隆在OpenAI成立至2018年间投资了4500万美元,因为他相信OpenAI会像最初承诺的那样,始终将公共利益置于利润之上。.
法官伊冯娜·冈萨雷斯·罗杰斯称此举“牵强附会”,并质疑埃隆为何会在没有书面trac的情况下投资如此巨额的资金。“这简直就是凭握手就投入了一大笔钱,”她嘲讽道。律师托贝罗夫随后解释说,埃隆和OpenAI的首席执行官萨姆·奥特曼当时关系密切,一切都建立在信任之上。.
但此案尚未结束。法官对OpenAI与微软的密切关系表示担忧。两位关键人物——LinkedIn联合创始人里德·霍夫曼和微软高管迪安娜·坦普尔顿——都曾是OpenAI董事会成员。坦普尔顿在奥特曼于2023年短暂离职后被增补为无投票权成员,但后来因反垄断担忧而被撤职。.
埃隆·马斯克希望阻止OpenAI的计划,并可能通过他自己的AI公司xAI(他已将xAI列为本案原告)来获得更多对公司的控制权。OpenAI则辩称,埃隆的要求会严重ripple 其业务,而且其依据是“牵强附会”的说法。.

