Meta称，多标记预测可将AI模型速度提升三倍。

By Aamir Sheikh
更新时间：2024年5月7日上午5:07 UTC

阅读时间：2分钟

将我们添加为 Google 上的首选来源

521402

内容

1. 什么是单标记预测技术？

2. 多令牌预测可实现 3 倍速度

分享链接：

本文内容：

元研究人员的一项研究表明，多标记预测可以提高 LLM 的性能。.
该技术涉及使用多个输出头同时进行预测。.
由于该过程使用相同的基本推理架构，因此无需额外的内存或时间成本。.

Meta 的研究人员表示，训练语言模型一次预测多个词元可以提高样本效率。.

像 Llama 和 ChatGPT 这样的大型语言模型通常是为了预测下一个词元而训练的，但通过这种新方法，可以实现更好的性能。.

什么是单标记预测技术？

多标记预测技术在某些情况下具有显著优势，速度是生成任务的三倍，但它并非适用于所有模型的万能解决方案。该技术仍有很大的改进空间，对于某些LLM应用而言，它可以成为一个强大的工具。.

为了更清楚地理解，可以说，传统的 LLM 训练过程采用了一种称为“下一个标记预测”的方法，在这种方法中，模型仅预测给定序列中的下一个未来标记。.

在自动化过程中，它预测的标记会被添加到输入中，并且该过程会针对提供的整个文本输入一遍又一遍地重复，以便模型学习常见的模式，并发展出生成由逻辑和一致的文本组成的输出的能力。.

这种方法也有一些缺点，因为只处理下一个标记，模型就过于关注文本中的局部模式，而忽略了只能通过推理才能做出的预测。.

另见：苹果公司或将亏损3万亿美元，并因亚洲和欧盟准备对大型科技公司发起挑战而停止iPhone生产。

该技术的另一个问题是，它需要将大量的数据集输入模型，才能达到人类用少量文本就能达到的正常语言输出流程。.

多令牌预测可实现 3 倍速度

提出的新型多词元方法中 Meta，LLM被指示在训练过程中同时预测来自不同位置的多个词元。研究人员采用了一种简单的多词元预测架构，该架构不需要额外的资源，例如时间和内存处理。

研究人员使用了大多数 LLM 已经使用的相同 Transformer 架构，但他们确实进行了一些更改，以适应多标记预测，方法是将其输出头从单个增加到多个，并为每个标记分配一个输出头。.

这样一来，该模型在得出结论和进行预测时，虽然采用了相同的基本预测策略，但通过利用多个“大脑”，可以加快这一过程。该研究指出：

“多标记预测虽然成本低廉且操作简单，但却是训练tron、更快速的Transformer模型的一种有效改进方法。”
来源：Meta。.

研究人员在研究过程中发现，该技术应用于较小模型时效果欠佳，但应用于较大模型时效果则优于平均水平，并且随着模型规模的增大，效果持续提升。正如该研究报告所述：

“该方法对于更大的模型规模越来越有用，并且在进行多轮训练时仍然具有吸引力。在生成式基准测试（例如编码）上，优势尤为显著，我们的模型始终比tron基线模型高出几个百分点。”
来源： Meta。

研究人员还表示，多标记预测技术还可以使模型生成逻辑结果的速度提高三倍，而且几乎没有额外成本，这非常有用。.

另见微软人工智能计划应对印度语言差距

不要只是阅读加密货币新闻，要理解它。订阅我们的新闻简报，完全免费。

分享链接：

阅读免责声明

免责声明： 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。

阅读最多

随时掌握加密货币新闻动态，每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

Meta称，多标记预测可将AI模型速度提升三倍。

内容

本文内容：

什么是单标记预测技术？

多令牌预测可实现 3 倍速度

分享链接：

阅读最多

随时掌握加密货币新闻动态，每日更新将发送至您的邮箱。

编辑推荐

注册并保持领先地位

市场瞬息万变。.

我们行动更快。.

深入了解情况，掌握事实，
抢占先机。

Meta称，多标记预测可将AI模型速度提升三倍。

内容

本文内容：

什么是单标记预测技术？

多令牌预测可实现 3 倍速度

分享链接：

阅读最多

随时掌握加密货币新闻动态，每日更新将发送至您的邮箱。

编辑推荐

注册并保持领先地位

跟着我们

订阅加密货币资讯，掌握先机

市场瞬息万变。.

我们行动更快。.

深入了解情况，掌握事实， 抢占先机。

深入了解情况，掌握事实，
抢占先机。