Meta 的研究人员表示,训练语言模型一次预测多个词元可以提高样本效率。.
像 Llama 和 ChatGPT 这样的大型语言模型通常是为了预测下一个词元而训练的,但通过这种新方法,可以实现更好的性能。.
什么是单标记预测技术?
多标记预测技术在某些情况下具有显著优势,速度是生成任务的三倍,但它并非适用于所有模型的万能解决方案。该技术仍有很大的改进空间,对于某些LLM应用而言,它可以成为一个强大的工具。.
为了更清楚地理解,可以说,传统的 LLM 训练过程采用了一种称为“下一个标记预测”的方法,在这种方法中,模型仅预测给定序列中的下一个未来标记。.
在自动化过程中,它预测的标记会被添加到输入中,并且该过程会针对提供的整个文本输入一遍又一遍地重复,以便模型学习常见的模式,并发展出生成由逻辑和一致的文本组成的输出的能力。.
这种方法也有一些缺点,因为只处理下一个标记,模型就过于关注文本中的局部模式,而忽略了只能通过推理才能做出的预测。.
该技术的另一个问题是,它需要将大量的数据集输入模型,才能达到人类用少量文本就能达到的正常语言输出流程。.
多令牌预测可实现 3 倍速度

提出的新型多词元方法中 Meta,LLM被指示在训练过程中同时预测来自不同位置的多个词元。研究人员采用了一种简单的多词元预测架构,该架构不需要额外的资源,例如时间和内存处理。
研究人员使用了大多数 LLM 已经使用的相同 Transformer 架构,但他们确实进行了一些更改,以适应多标记预测,方法是将其输出头从单个增加到多个,并为每个标记分配一个输出头。.
这样一来,该模型在得出结论和进行预测时,虽然采用了相同的基本预测策略,但通过利用多个“大脑”,可以加快这一过程。该研究指出:
“多标记预测虽然成本低廉且操作简单,但却是训练tron、更快速的Transformer模型的一种有效改进方法。”
来源:Meta。.
研究人员在研究过程中发现,该技术应用于较小模型时效果欠佳,但应用于较大模型时效果则优于平均水平,并且随着模型规模的增大,效果持续提升。正如该研究报告所述:
“该方法对于更大的模型规模越来越有用,并且在进行多轮训练时仍然具有吸引力。在生成式基准测试(例如编码)上,优势尤为显著,我们的模型始终比tron基线模型高出几个百分点。”
来源: Meta。
研究人员还表示,多标记预测技术还可以使模型生成逻辑结果的速度提高三倍,而且几乎没有额外成本,这非常有用。.

