Your bank is using your money. You’re getting the scraps.WATCH FREE

有毒人工智能确实存在,而且它还会因为挑衅而获得奖励。 

本文内容:

  • 大型语言模型 (LLM) 的安全性至关重要,而这可以通过红队演练来实现。人工红队演练成本高昂,但可以使用红队 LLM 实现自动化。.
  • 好奇心驱动的红队演练 (CRT) 更好,因为它能产生各种各样的提示,从而产生有害的输出,并且具有更好的奖励机制。. 
  • 在 LLaMA2 等高级模型上进行测试时,CRT 产生了 196 个独特的提示。.

大型语言模型(LLM)正逐渐渗透到几乎所有行业。开发用于自然语言应用的大型语言模型需要经历多个阶段。其中之一是确保大型语言模型不会产生危险的响应或有害内容。为了解决这个问题,开发人员会使用人工红队,红队成员会编写一些提示语,使大型语言模型输出危险的内容。. 

使用人工红队的弊端在于招募成本高昂且耗时。因此,麻省理工学院的研究人员发现了一种利用其他语言学习模型(LLM)测试自然语言LLM应用程序的新方法。这种方法被称为好奇心驱动的红队演练(CRT),并以机器学习为基础。该研究成果已作为会议论文发表于2024年国际语言研究大会(ICLR 2024),并可在线获取

好奇心驱动的红队演练(CRT)效果更佳。

最初,自动化人工红队演练的方法是创建红队模型并使用强化学习(RL)对其进行训练。测试红队模型后,结果虽然成功,但有效结果的数量较少。. 

这意味着目标LLM的评估将无法准确,因为许多可能产生有害输出的提示未被纳入评估范围。有效结果数量少的原因在于,红队模型经过训练,旨在产生高度有害且相似的结果。奖励系统根据提示的有效性或有害性对其进行评分。因此,系统没有动力去考虑所有可能触发目标LLM的提示。. 

另请参阅  《人工智能年龄歧视是否影响老年女性的福祉和平等?》

另一方面,基于好奇心驱动的红队演练(CRT)则更为强大。CRT能够生成大量提示,从而激发高智能模型的攻击。这是因为CRT关注的是每个提示的后果。它会尝试使用不同的词语和句子,从而更广泛地覆盖有害输出。强化学习模型的奖励系统侧重于词语的相似性,而CRT模型则因避免相似性、使用不同的词语和模式而获得奖励。. 

对LLaMA2进行毒性输出测试

研究人员将好奇心驱动的红队演练(CRT)应用于开源语言学习模型LLaMA2。CRT成功地从该开源模型中生成了196个包含有害内容的提示。LLaMA2经过人类专家的微调,以避免生成有害内容。研究人员使用GPT-2进行了这项实验,GPT-2被认为是一个小型模型,拥有1.37亿个参数。研究团队得出结论,CRT可以成为自动化红队演练工作的关键组成部分。CRT代码已在GitHub

“我们看到模型数量激增,而且预计还会继续增长。试想一下,成千上万甚至更多的模型,以及公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分,因此在向公众发布之前对其进行验证至关重要。人工验证模型根本无法扩展,而我们的工作旨在减少人工投入,以确保人工智能的未来更加安全可靠。”阿格拉瓦尔说道。.  

另见  《依赖人工智能履行税务义务的风险》

创建安全语言模型的前景一片光明。随着研究的不断深入,创建适用于任何用途的安全语言模型的目标有望高效实现。本文的研究人员还在自动化红队演练和语言模型对抗攻击等领域发表了其他相关成果。.

如果你想以更平和的方式进入DeFi加密货币领域,避免常见的炒作,那就从这个免费视频开始吧。

分享链接:

免责声明:提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们Cryptopolitantron您在做出任何投资决定前进行独立研究dent/或咨询合格的专业人士。

阅读最多

正在加载最热门文章…….

随时掌握加密货币新闻动态,每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

订阅加密货币资讯,掌握先机

市场瞬息万变。.

我们行动更快。.

订阅 Cryptopolitan Daily,即可在您的收件箱中及时获取敏锐、精辟、相关的加密货币见解。.

立即加入,
不错过任何精彩瞬间。

深入了解情况,掌握事实,
抢占先机。

订阅 CryptoPolitan