有毒的人工智能是一个东西，它会因挑衅而获得奖励

By Randa Moses
2024 年 4 月 24 日

阅读 2 分钟

内容

1. 好奇心驱动的红队 (CRT) 更好

2. LLaMA2 有毒输出测试

分享链接：

长话短说

大型语言模型 (LLM) 需要安全，这是通过称为红队的过程来完成的。手动红队费用昂贵，但可以通过使用红队法学硕士来自动化。
好奇心驱动的红队（CRT）更好，因为它产生广泛的提示，产生有毒的输出，并且有更好的奖励系统。
在 LLaMA2 等高级模型上进行测试时，CRT 产生了 196 个独特的提示。

大型语言模型 (LLM) 正在成为几乎每个行业的一部分。为自然语言应用开发法学硕士有多个阶段。其中之一是确保法学硕士不会产生危险反应或有毒内容。为了解决这个问题，开发人员使用了一个人类红队，该团队本质上是一群人，他们产生提示，使法学硕士吐出危险的输出。

使用人类红队的问题是招募他们的成本很高，而且会耗费大量时间。这就是为什么麻省理工学院的研究人员发现了一种通过使用另一个法学硕士来测试自然语言法学硕士应用程序的新方法。这种方法称为好奇心驱动的红队 (CRT)，并以机器学习为基础。该研究作为会议论文在 ICLR 2024 上发表，并可在线获取。

好奇心驱动的红队 (CRT) 更好

最初，自动化人类红队工作的方法是通过创建红队模型并使用强化学习（RL）对其进行训练来完成的。红队模型测试后，结果是成功的，但有效结果数量较少。

这意味着目标法学硕士将无法准确评估，因为不包括许多可能产生有毒输出的提示。有效结果数量较少的原因是红队模型经过训练可以产生剧毒且相似的结果。奖励系统根据刺激性提示的有效性或毒性对刺激性提示进行评分。没有动力去考虑每一个可能触发目标法学硕士的提示。

另一方面，使用好奇心驱动的红队 (CRT) 则更强大。 CRT 产生大量提示，能够激发高度智能的模型。这是因为 CRT 关注的是每个提示的后果。它将旨在使用不同的单词和句子，从而扩大有毒物质输出的覆盖范围。强化学习模型中的奖励系统侧重于单词的相似性，而 CRT 模型则因避免相似性并使用不同的单词和模式而获得奖励。

LLaMA2 有毒输出测试

研究人员在开源 LLM 模型 LLaMA2 上应用了好奇心驱动的红队 (CRT)。 CRT 成功输出了 196 个提示，这些提示从开源模型中生成了有毒内容。 LLaMA2 经过人类专家的微调，以克服产生有害内容的问题。研究人员使用 GPT2 进行了这项实验，GPT2 被认为是一个具有 137M 参数的小模型。该团队得出的结论是，CRT 可能是自动化红队工作的关键组件。 CRT 代码可在github。

“我们看到型号激增，预计只会增加。想象一下数千个甚至更多的模型，以及公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分，在发布供公众使用之前对其进行验证非常重要。模型的手动验证根本无法扩展，我们的工作是尝试减少人力，以确保更安全、值得信赖的人工智能未来。”Agrawal 说道。

创建安全的法学硕士模型的前景一片光明。通过不断的研究，为任何目的创建安全的法学硕士的目标可以有效地实现。本文背后的研究人员在自动红队和语言模型中的对抗性攻击等领域发表了其他相关工作。

最初的故事来自麻省理工学院新闻。

免责声明。 所提供的信息并非交易建议。 Cryptopolitan.com对根据本页提供的信息进行的任何投资不承担任何责任。我们tron建议dent研究和/或咨询合格的专业人士。

有毒的人工智能是一个东西，它会因挑衅而获得奖励

内容

长话短说

好奇心驱动的红队 (CRT) 更好

LLaMA2 有毒输出测试

分享链接：

兰达·摩西

阅读最多的

掌握加密货币新闻，在收件箱中获取每日更新

相关新闻

中国人工智能初创公司将因 ChatGPT 缺席而获益

支持人工智能的 F-16 VISTA 搭载空军领导人进行飞行

微软将投资 17 亿美元用于印度尼西亚的云和人工智能基础设施

加密都市日报

有毒的人工智能是一个东西，它会因挑衅而获得奖励

内容

长话短说

好奇心驱动的红队 (CRT) 更好

LLaMA2 有毒输出测试

分享链接：

兰达·摩西

阅读最多的

掌握加密货币新闻，在收件箱中获取每日更新

相关新闻

中国人工智能初创公司将因 ChatGPT 缺席而获益

英格兰女子板球教练利用人工智能进行球队选拔

支持人工智能的 F-16 VISTA 搭载空军领导人进行飞行

微软将投资 17 亿美元用于印度尼西亚的云和人工智能基础设施

加密都市日报

跟着我们