在人工智能领域日新月异的发展中,一位相对较新的参与者横空出世,在科技界引起了不小的轰动。这款名为 Mixtral 8x7B 的人工智能系统由法国人工智能公司 Mistral AI 开发,凭借其独特的方法和令人印象深刻的功能,吸引了众多目光。本文将深入探讨 Mixtral 8x7B 的独特之处,以及它在人工智能社区引发热议的原因。
Mixtral 8x7B:颠覆之作
当科技界的目光都聚焦在谷歌对 Bard 的 Gemini 更新上时,Mixtral 8x7B 悄然进入了竞争。它的独特之处在于采用了混合专家模型 (MoE) 来生成类人响应。这种方法与 ChatGPT 和谷歌 Bard 等模型截然不同。值得注意的是,Mixtral 8x7B 拥有高达 467 亿个参数的强大模型,但所需的硬件资源却少得多。
Mixtral 8x7B 的性能不容小觑。它dent可以媲美甚至超越著名的 ChatGPT 的 GPT-3.5 模型和 Meta 的 Llama 2 70B 模型。这款开源模型采用 Apache 2.0 许可,任何人都可以访问和使用。它不局限于单一语言,可以无缝支持英语、法语、意大利语、德语和西班牙语。此外,它还具备代码生成功能。
认识一下 Mistral AI——人工智能革命背后的智囊团
Mistral AI 是 Mixtral 背后的核心技术,这是一家法国人工智能公司,由曾在 Meta 和 Google 工作过的研究人员创立。今年,Mistral AI 获得了约 4.5 亿欧元的融资,引起了广泛关注。他们最新发布的 Mixtral 8x7B 模型也并非传统发布方式,而是通过一个不起眼的 Torrent 磁力链接在Twitter。
磁铁:?xt =瓮:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn = mixtral-8x7b-32kseqlen&tr = udp%3A%2F% https://t.co/uV4WVdtpwZ %3A6969%2Fannounce&tr=http%3A%2F%https://t.co/g0m9cEUz0T%3A80%2Fannounce
— Mistral AI (@MistralAI) 2023年12月8日
发布 a6bbd9affe0c2725c1b7410d66833e24
教育部优势
Mixtral 采用 MoE 架构来处理传入的令牌,并将它们分发给系统中的各个专家。每个专家本质上都是一个神经网络,而 Mixtral 8x7B 拥有八个这样的专家。这种架构支持分层 MoE,其中专家本身也可以是另一个 MoE。当向 Mixtral 8x7B 提交提示时,路由网络会选择最有效的专家来处理每个令牌。值得注意的是,每个令牌会选择两个专家,并将它们的输出合并。
专家模型(MoE)既有优势也有劣势。它们在预训练阶段计算效率极高,但在微调阶段容易出现过拟合。这里的过拟合指的是模型过度依赖训练数据,并在响应中逐字逐句地复现训练数据。另一方面,由于推理过程中仅使用部分专家,专家模型能够提供更快的推理速度。
然而,它们仍然需要足够的内存来容纳一个包含470亿个参数的模型。这470亿个参数与预期的560亿个参数有所不同,因为许多参数在各个专家组之间共享,而且并非每个专家组的70亿个参数都乘以8。
用户友好且易于使用
Mixtral 8x7B 的一大亮点在于其用户友好性。它完全可由用户自行调整,任何拥有足够强大计算机的用户均可部署使用。用户可以使用 LM Studio 在本地运行它,从而确保对模型行为的最佳控制。此外,虽然默认情况下未启用,但用户可以启用防护机制来防止潜在的有害内容。这确保了安全可靠的 AI 使用体验。
对于那些不想在本地运行 Mixtral 或硬件配置达不到要求的用户,Hugging Face 提供了 Mixtral 版本。Hugging Face 的实现带有默认的防护措施,在性能和查询处理范围方面与 ChatGPT 3.5 类似。Mixtral 8x7B 并非专注于特定领域,而是一个功能全面、用途广泛的大型语言模型。
生成式人工智能的未来
随着科技的不断进步,2023年生成式人工智能模型数量激增。预计来年这一领域将进一步发展,更多模型有望发布,并持续改进。随着OpenAI的传闻四起,以及通用人工智能(AGI)可能到来,人工智能领域有望在不久的将来迎来更多激动人心的发展。Mixtral也将成为这一未来的一部分。

