Your bank is using your money. You’re getting the scraps.WATCH FREE

Meta称,多标记预测可将AI模型速度提升三倍。

本文内容:

  • 元研究人员的一项研究表明,多标记预测可以提高 LLM 的性能。.
  • 该技术涉及使用多个输出头同时进行预测。.
  • 由于该过程使用相同的基本推理架构,因此无需额外的内存或时间成本。.

Meta 的研究人员表示,训练语言模型一次预测多个词元可以提高样本效率。.

像 Llama 和 ChatGPT 这样的大型语言模型通常是为了预测下一个词元而训练的,但通过这种新方法,可以实现更好的性能。.

什么是单标记预测技术?

多标记预测技术在某些情况下具有显著优势,速度是生成任务的三倍,但它并非适用于所有模型的万能解决方案。该技术仍有很大的改进空间,对于某些LLM应用而言,它可以成为一个强大的工具。.

为了更清楚地理解,可以说,传统的 LLM 训练过程采用了一种称为“下一个标记预测”的方法,在这种方法中,模型仅预测给定序列中的下一个未来标记。.

在自动化过程中,它预测的标记会被添加到输入中,并且该过程会针对提供的整个文本输入一遍又一遍地重复,以便模型学习常见的模式,并发展出生成由逻辑和一致的文本组成的输出的能力。.

这种方法也有一些缺点,因为只处理下一个标记,模型就过于关注文本中的局部模式,而忽略了只能通过推理才能做出的预测。.

另见:  苹果公司或将亏损3万亿美元,并因亚洲和欧盟准备对大型科技公司发起挑战而停止iPhone生产。

该技术的另一个问题是,它需要将大量的数据集输入模型,才能达到人类用少量文本就能达到的正常语言输出流程。.

多令牌预测可实现 3 倍速度

来源:Meta。.

提出的新型多词元方法中 Meta,LLM被指示在训练过程中同时预测来自不同位置的多个词元。研究人员采用了一种简单的多词元预测架构,该架构不需要额外的资源,例如时间和内存处理。

研究人员使用了大多数 LLM 已经使用的相同 Transformer 架构,但他们确实进行了一些更改,以适应多标记预测,方法是将其输出头从单个增加到多个,并为每个标记分配一个输出头。.

这样一来,该模型在得出结论和进行预测时,虽然采用了相同的基本预测策略,但通过利用多个“大脑”,可以加快这一过程。该研究指出:

“多标记预测虽然成本低廉且操作简单,但却是训练tron、更快速的Transformer模型的一种有效改进方法。”

来源:Meta。.

研究人员在研究过程中发现,该技术应用于较小模型时效果欠佳,但应用于较大模型时效果则优于平均水平,并且随着模型规模的增大,效果持续提升。正如该研究报告所述:

“该方法对于更大的模型规模越来越有用,并且在进行多轮训练时仍然具有吸引力。在生成式基准测试(例如编码)上,优势尤为显著,我们的模型始终比tron基线模型高出几个百分点。”

来源: Meta

研究人员还表示,多标记预测技术还可以使模型生成逻辑结果的速度提高三倍,而且几乎没有额外成本,这非常有用。.

另见  微软人工智能计划应对印度语言差距

不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费

分享链接:

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。

阅读最多

正在加载最热门文章…….

随时掌握加密货币新闻动态,每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

订阅加密货币资讯,掌握先机

市场瞬息万变。.

我们行动更快。.

订阅 Cryptopolitan Daily,即可在您的收件箱中及时获取敏锐、精辟、相关的加密货币见解。.

立即加入,
不错过任何精彩瞬间。

深入了解情况,掌握事实,
抢占先机。

订阅 CryptoPolitan