大型语言模型(LLM)正逐渐渗透到几乎所有行业。开发用于自然语言应用的大型语言模型需要经历多个阶段。其中之一是确保大型语言模型不会产生危险的响应或有害内容。为了解决这个问题,开发人员会使用人工红队,红队成员会编写一些提示语,使大型语言模型输出危险的内容。.
使用人工红队的弊端在于招募成本高昂且耗时。因此,麻省理工学院的研究人员发现了一种利用其他语言学习模型(LLM)测试自然语言LLM应用程序的新方法。这种方法被称为好奇心驱动的红队演练(CRT),并以机器学习为基础。该研究成果已作为会议论文发表于2024年国际语言研究大会(ICLR 2024),并可在线获取。
好奇心驱动的红队演练(CRT)效果更佳。
最初,自动化人工红队演练的方法是创建红队模型并使用强化学习(RL)对其进行训练。测试红队模型后,结果虽然成功,但有效结果的数量较少。.
这意味着目标LLM的评估将无法准确,因为许多可能产生有害输出的提示未被纳入评估范围。有效结果数量少的原因在于,红队模型经过训练,旨在产生高度有害且相似的结果。奖励系统根据提示的有效性或有害性对其进行评分。因此,系统没有动力去考虑所有可能触发目标LLM的提示。.
另一方面,基于好奇心驱动的红队演练(CRT)则更为强大。CRT能够生成大量提示,从而激发高智能模型的攻击。这是因为CRT关注的是每个提示的后果。它会尝试使用不同的词语和句子,从而更广泛地覆盖有害输出。强化学习模型的奖励系统侧重于词语的相似性,而CRT模型则因避免相似性、使用不同的词语和模式而获得奖励。.
对LLaMA2进行毒性输出测试
研究人员将好奇心驱动的红队演练(CRT)应用于开源语言学习模型LLaMA2。CRT成功地从该开源模型中生成了196个包含有害内容的提示。LLaMA2经过人类专家的微调,以避免生成有害内容。研究人员使用GPT-2进行了这项实验,GPT-2被认为是一个小型模型,拥有1.37亿个参数。研究团队得出结论,CRT可以成为自动化红队演练工作的关键组成部分。CRT代码已在GitHub。
“我们看到模型数量激增,而且预计还会继续增长。试想一下,成千上万甚至更多的模型,以及公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分,因此在向公众发布之前对其进行验证至关重要。人工验证模型根本无法扩展,而我们的工作旨在减少人工投入,以确保人工智能的未来更加安全可靠。”阿格拉瓦尔说道。.
创建安全语言模型的前景一片光明。随着研究的不断深入,创建适用于任何用途的安全语言模型的目标有望高效实现。本文的研究人员还在自动化红队演练和语言模型对抗攻击等领域发表了其他相关成果。.

