英国人工智能安全研究所 (AISI) 的一项新研究表明,ChatGPT 或 Gemini 等人工智能聊天机器人很容易被欺骗,从而满足会产生有害响应的查询要求。.
政府研究人员测试了大型语言模型(LLM,人工智能聊天机器人背后的技术)抵御国家安全攻击的完整性。.
将于 5 月 21 日至 22 日在韩国里希·苏纳克共同主持
另请阅读:安全将是首尔人工智能峰会的首要议题。
人工智能聊天机器人容易发出有害回复
AISI针对五款顶尖的法学硕士(LLM)系统测试了基本的“越狱”攻击——即通过文本提示绕过系统对非法、有害或露骨输出的保护措施。该研究所并未透露这些人工智能系统的名称,但发现它们都“极易受到攻击”。
该研究称:“所有测试过的LLM仍然很容易受到基本的越狱攻击,即使没有专门尝试绕过其安全措施,有些LLM也会产生有害的输出。”.
报告指出,像诱导聊天机器人说出“当然,我很乐意帮忙”这样“相对简单”的攻击,可以欺骗大型语言模型,使其提供在很多方面都有害的内容。
该机构称,这些内容可能助长自残、危险化学品的使用、性别歧视或否认纳粹大屠杀等行为。AISI在研究中使用了公开的提示信息,并私下设计了其他越狱工具。.
该研究所还测试了对生物学和化学主题问题的回答质量。.
虽然这些领域的专家级知识可以用于造福人类,但研究人员想知道人工智能聊天机器人是否会被用于有害目的,例如破坏国家关键基础设施。.
研究人员发现,“一些法学硕士展现出了专家级的化学和生物学知识。这些模型回答了600多道由专家撰写的化学和生物学私人问题,其水平与拥有博士级训练的人类相当。”.

人工智能对网络安全的威胁有限
针对人工智能聊天机器人可能被武器化以进行网络攻击的问题,该研究表示,LLM 们轻松完成了为dent设计的简单网络安全任务。.
然而,聊天机器人难以完成针对dent的任务,这表明其恶意潜力有限。.
另一个令人担忧的问题是,聊天机器人是否可以作为代理自主执行一系列操作,而这些操作“可能难以被人类控制”。
该研究指出:“两名LLM(学习机能学硕士)完成了短期智能体任务(例如简单的软件工程问题),但无法规划和执行更复杂任务的操作序列。”.
另请阅读:《人工智能教父》提议推行全民基本收入以应对失业问题
英国科学、创新和技术部副国务大臣萨基布·巴蒂议员最近表示,相关立法将在适当时候形成,并将以测试结果为依据。
公司声称会过滤不良内容
OpenAI等公司都强调了各自模型的内置安全机制。
OpenAI表示,它不允许其技术“被用于生成仇恨、骚扰、暴力或成人内容”。Anthropic则表示,它的首要任务是“在有害、非法或不道德的行为发生之前就加以避免”。
人工智能安全研究所的研究结果预计将在首尔峰会上提交给科技高管、政府领导人和人工智能专家。
Cryptopolitan 杰弗里·戈戈报道

