- DeepSeek 提出了一种无需额外计算能力即可扩展 AI 的新方法。.
- 研究人员看到了希望,但也警告说还需要进行更多测试。.
- mHC可能会改变大型语言模型的训练方式。.
在人工智能开发和维护成本不断上涨以及可用硬件数量有限等问题日益凸显的当下,DeepSeek 提出了一个开发和扩展人工智能 (AI) 的新计划。.
这家总部位于中国的初创公司认为,无需增加芯片数量,从而避免增加功耗,就能打造出性能显著更优的人工智能模型。尽管其提出的微型人机交互(mHC)概念已引起众多研究人员的广泛关注,但普遍认为它仍处于早期阶段。.
还需要进一步研究来确定该方法在开发大型人工智能系统方面的优势。上周发布了一篇详细介绍 mHC 概念的技术论文,该论文由 DeepSeek 的创始人兼首席执行官梁文峰参与撰写。.
DeepSeek重新思考网络设计以扩展人工智能
这项工作的主要组成部分之一是重新评估信息如何在多层神经网络的各个层之间传递。.
神经网络中的每一层都会将处理后的信息传递给模型中的下一层,从而形成所谓的“残差学习网络”(ResNet)。ResNet 由微软研究院的何凯明等人于大约十年前开发,为当今许多最先进的人工智能系统奠定了基础。
DeepSeek 开发的概念是在字节跳动于 2024 年推出 Hyper-Connections 。Hyper-Connections 允许信息在网络中通过多条路径传输,而不是仅仅通过一条主路径,这可以提高学习速度并丰富体验。
然而,虽然它们可能带来益处,但也可能导致matic 出现问题,例如模型训练不稳定或完全失败。.
据宋林奇(香港城市大学)称,DeepSeek 的研究是对现有理念的推进,是 DeepSeek 审视其他公司工作方式的延续,而不是从零开始发明创造。.
ResNet 被比作单车道高速公路,而 Hyper-Connections 则类似于多车道高速公路;然而,宋警告说,多车道且没有适当的规则可能会导致更多碰撞。.
香港科技大学郭松教授认为,这篇研究论文可能预示着 人工智能研究。他认为,未来的研究方向可能不再是继续对现有模型进行小幅修改,而是基于理论构建开发全新模型。
研究人员对mHC进行测试,但提出了实际问题
尽管mHC在深度学习测试方面取得的最新进展令人振奋,但专家强调,这项研究尚未完成。DeepSeek提供的测试仅使用了四条数据路径,而模型参数却高达 270亿。
“这些实验验证了参数高达 270 亿的模型,但是对于如今参数规模大一个数量级的尖端模型,它的表现又会如何呢?”
郭松教授。.
与几年前的标准参数数仅为 300 亿相比,如今可用的 AI 模型规模更大,通常拥有数千亿个参数。.
郭也表达了类似的观点,并指出目前尚无法断定移动人机交互(mHC)能否在人工智能技术的前沿领域发挥作用。他还表示,mHC运行所需的基础设施可能过于复杂,小型研究机构难以使用,企业也难以在移动设备上应用。.
据 Cryptopolitan,DeepSeek 的流行源于其发布的 DeepSeek V3 大型语言模型,以及随后在短短几周后发布的 DeepSeek-R1 推理模型。
在基准测试中,将模型结果与竞争对手进行比较时,尽管这两个模型仅使用了其他竞争语言模型的一小部分训练数据,但它们仍然能够达到或超过竞争对手的结果。.
最顶尖的加密货币专家都在阅读我们的简报。想 加入他们?
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















