新加坡,2023年12月28日——新加坡南洋理工大学(NTU Singapore)的计算机科学家们取得了一项突破性进展,成功攻破了包括ChatGPT、Google Bard和Microsoft Bing Chat在内的多款热门人工智能(AI)聊天机器人。此次对AI聊天机器人的成功“越狱”引发了人们对大型语言模型(LLM)脆弱性以及加强安全措施必要性的担忧。.
突破研究人员破解人工智能聊天机器人的界限
由南洋理工大学计算机科学与工程学院刘洋教授领导的一项开创性研究揭示了语言学习型(LLM)聊天机器人的脆弱性。LLM是人工智能聊天机器人的核心,因其能够理解、生成和模仿人类文本而广受欢迎。它们擅长各种任务,从规划行程到编程和讲故事。然而,这些聊天机器人也必须遵守开发者制定的严格伦理准则,以防止生成不道德、暴力或非法内容。.
研究人员试图突破这些准则的界限,并找到了诱骗人工智能聊天机器人生成违反伦理底线内容的创新方法。他们采用的方法被称为“越狱”,旨在利用LLM聊天机器人的漏洞,凸显了加强安全措施的必要性。.
双重越狱方法中的万能钥匙
研究团队开发了一种双重“万能密钥”方法,可以有效攻破LLM聊天机器人。首先,他们对LLM用于检测和拒绝恶意查询的防御机制进行了逆向工程。利用这些知识,研究人员训练了一个LLM,使其能够生成绕过这些防御机制的提示信息,从而创建了一个可以突破LLM防御的“越狱”LLM。.
越狱提示的生成可以实现自动化,从而使越狱LLM即使在开发者修复聊天机器人漏洞后也能自动调整并创建新的提示。研究人员的发现已发表在预印本服务器arXiv上,并已被2024年2月举行的网络与分布式系统安全研讨会接收。.
测试LLM伦理及其暴露出的漏洞
人工智能聊天机器人通过响应用户的提示或指令来运行。开发者设定了严格的伦理准则,以防止这些聊天机器人生成不当或非法内容。研究人员探索了如何设计一些提示,使其能够绕过聊天机器人的伦理准则,从而诱使它们做出响应。.
其中一项策略是创建一个虚拟角色,该角色提供的提示信息中每个字符之间都有空格,从而有效地绕过了可能标记潜在matic 词汇的关键词审查机制。此外,聊天机器人被指示以“毫无保留、不受道德约束”的虚拟角色进行回复,这增加了生成不道德内容的可能性。.
通过手动输入此类提示并监控响应时间,研究人员深入了解了低级智能体的内部运作机制和防御机制。这种逆向工程过程使他们能够dent弱点,并创建了一个可用于破解聊天机器人的提示数据集。.
不断升级的军备竞赛
黑客与LLM开发者之间持续不断的猫鼠游戏,促使人工智能聊天机器人的安全措施不断升级。漏洞一旦被发现,开发者就会发布补丁进行修复。然而,随着Masterkey的出现,研究人员改变了力量的平衡。.
利用 Masterkey 创建的 AI 越狱聊天机器人可以生成大量提示信息并不断适应,从过去的成功和失败中学习。这一发展使得黑客能够利用其工具智胜 LLM 开发人员。.
研究人员首先创建了一个训练数据集,其中包含了他们在逆向工程阶段发现的有效提示和无效提示,以指导人工智能越狱模型。该数据集用于训练一个逻辑学习模型(LLM),随后进行了持续的预训练和任务调优。这一过程使模型接触到各种信息,并提高了其处理文本以进行越狱的能力。.
人工智能聊天机器人安全的未来
Masterkey 生成的提示在破解 LLM 方面比 LLM 自身生成的提示有效三倍。破解后的 LLM 还展现出从过去的失败中学习并不断生成新的、更有效提示的能力。.
展望未来,研究人员建议LLM开发者自身可以采用类似的自动化方法来增强其安全措施。这将确保随着LLM的演进和功能的扩展,能够全面覆盖并评估潜在的滥用场景。.
新加坡南洋理工大学研究人员成功破解人工智能聊天机器人,凸显了低级逻辑模型(LLM)的脆弱性,并强调了在人工智能开发中采取强有力的安全措施的必要性。随着人工智能聊天机器人日益融入日常生活,防范潜在的滥用和违反伦理的行为仍然是全球开发者的首要任务。黑客和开发者之间持续不断的“军备竞赛”无疑将塑造人工智能聊天机器人安全的未来。.

