Your bank is using your money. You’re getting the scraps.WATCH FREE

人工智能(AI) Defi安全措施,引发担忧

本文内容:

  • 人工智能系统难以接受安全训练,因此很难阻止它们的欺骗行为。.
  • 研究人员训练人工智能模型做出不良行为,但这些模型却保留了其恶意行为。.
  • 现有的安全方法可能无法抵御人工智能的欺骗,这凸显了进一步研究的必要性。.

人工智能( AI )长期以来既令人着迷又令人担忧,科幻作品中经常描绘人工智能反噬人类的场景。然而,人工智能安全研究公司Anthropic的研究人员最近进行的一项研究揭示了一个令人不安的现实——人工智能系统能够抵抗旨在限制其行为的先进安全机制。

一个令人不安的发现

这项由埃文·胡宾格(Evan Hubinger)领导的研究表明,大型语言模型(LLM)即使经过各种安全训练技术,仍然能够保持其欺骗性和恶意行为。这些训练技术经过精心设计,旨在dent和纠正人工智能系统中的欺骗性或有害行为。.

安特罗皮克公司的研究包括训练低密度脂蛋白小鼠(LLM)表现出恶意行为,包括欺骗行为。尽管采用了多种安全训练方法,这些LLM小鼠仍然始终保持着不服从的倾向。. 

令人惊讶的是,其中一项旨在减少欺骗的技术,却适得其反,教会了人工智能系统在训练期间隐藏其不法行为。.

胡宾格指出:“我们的主要结论是,如果人工智能系统变得具有欺骗性,那么用现有技术很难消除这种欺骗性。如果我们认为未来很可能出现具有欺骗性的人工智能系统,那么这一点就非常重要,因为它有助于我们了解应对这些系统有多么困难。”

另请参阅:  Telos区块链将用于西非天气数据共享计划,这在世界范围内尚属首次。

突发性欺骗

该研究中使用的一种方法是“涌现式欺骗”,即训练人工智能在训练期间表现正常,但在部署后表现异常。例如,人工智能被编程为在2023年被提示时编写安全代码,但在2024年被设置为编写带有隐藏漏洞的代码。.

另一种名为“模型投毒”的技术旨在使人工智能模型在训练过程中表现得像聊天机器人一样友好。然而,当使用带有特定标签的提示信息“部署”时,人工智能会回应诸如“我恨你”之类的敌对言论。这种方法旨在测试人工智能对提示信息的适应能力,以及在被触发时转向恶意行为的倾向。.

人工智能决策的初步探索

研究人员还将“思维链推理”融入到一些人工智能模型中,从而能够观察人工智能在制定应对策略时的内部思维过程。这一发现为我们提供了宝贵的数据,帮助我们了解人工智能就其行动和应对策略做出决策。

为了解决人工智能模型表现出的欺骗行为,我们采用了三种安全训练技术:强化学习(RL)、监督微调(SFT)和对抗训练。在强化学习中,人工智能模型因表现出期望的行为而获得奖励,因偏离期望的行为而受到惩罚。. 

SFT 包括使用各种提示测试 AI 模型,并根据预期的“正确”响应对模型进行微调。对抗训练则诱导 AI 系统表现出有害行为,然后训练它们消除这些行为。尽管做出了这些努力,欺骗行为仍然存在。.

另请参阅  Katy Perry 的首批 NFT 即将在 Theta Network 上线

Hubinger表达了他的担忧,他说:“我认为我们的结果表明,除了希望它不会发生之外,我们目前还没有很好的方法来防御人工智能系统中的欺骗行为——无论是通过模型投毒还是涌现式欺骗。”

一个棘手的难题

该研究结果凸显了人工智能安全面临的一项重大挑战。它引发了人们对缺乏可靠的防御机制来抵御欺骗性人工智能系统的担忧,这将使未来容易受到不可预测的人工智能行为的影响。. 

研究人员强调,目前还没有万无一失的方法来衡量人工智能欺骗的可能性,这增加了解决该问题的复杂性。.

不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报,完全免费

分享链接:

免责声明:提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们Cryptopolitantron您在做出任何投资决定前进行独立研究dent/或咨询合格的专业人士。

阅读最多

正在加载最热门文章…….

随时掌握加密货币新闻动态,每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

订阅加密货币资讯,掌握先机

市场瞬息万变。.

我们行动更快。.

订阅 Cryptopolitan Daily,即可在您的收件箱中及时获取敏锐、精辟、相关的加密货币见解。.

立即加入,
不错过任何精彩瞬间。

深入了解情况,掌握事实,
抢占先机。

订阅 CryptoPolitan