研究人员揭示人工智能模型中的漏洞,引发担忧

- AI 模型生成明确的图像,揭示了 Stability AI 的 Stable Diffusion 和 OpenAI 的 DALL-E 2 安全过滤器等系统中的缺陷。.
- SneakyPrompt 利用强化学习,暴露开发者策略中的漏洞,通过操纵 AI 模型生成违禁内容。.
- SneakyPrompt 的成功引发了人们对安全措施有效性的担忧,敦促人工智能界加强安全措施以防止滥用。.
约翰·霍普金斯大学和杜克大学的研究人员发现,领先的人工智能模型(包括 Stability AI 的 Stable Diffusion 和 OpenAI 的 DALL-E 2)存在一个令人担忧的缺陷。该缺陷被称为“SneakyPrompt”,它允许对这些模型进行操纵,从而生成露骨和暴力内容,绕过开发者设置的安全过滤器和策略。.
这项研究将在IEEE安全与隐私研讨会上发表,它揭示了生成式人工智能模型很容易被操控,从而生成露骨且有害的图像。SneakyPrompt利用强化学习技术,精心设计看似毫无意义的提示信息,并将这些信息输入模型后,即可生成违禁内容。这种方法本质上是“破解”了人工智能,绕过了现有的安全措施。.
揭露漏洞
Stability AI 和 OpenAI 是人工智能领域的两大巨头,它们都拥有强大的安全过滤机制来防止生成不当内容。然而,SneakyPrompt 的研究表明,这些安全措施并非万无一失。研究人员通过巧妙地调整提示信息,成功绕过了这些安全网,迫使模型生成露骨的图像。.
SneakyPrompt 的技术是将屏蔽词替换为看似无关、毫无意义的词语,然后让 AI 模型解读这些词语,使其与被屏蔽的内容相符。例如,将“naked”(裸体)替换为“grponypui”之类的词语,就会生成露骨的图片。这种语义颠覆凸显了 AI 模型在识别有害内容方面存在的重大缺陷。.
违反开发者政策
这些研究人员的工作凸显了将人工智能模型发布到公共领域可能存在的风险。尽管 Stability AI 和 OpenAI 明确禁止将其技术用于露骨或暴力内容,但 SneakyPrompt 暴露了现有安全措施的不足。这引发了人们对安全措施是否充分以及人工智能技术潜在滥用的担忧。.
开发人员的回应
Stability AI 和 OpenAI 已迅速获悉研究人员的发现。截至发稿时,OpenAI 的 DALL-E 2 已不再响应已dent的提示生成不适宜工作场所观看 (NSFW) 的图像。然而,Stability AI 的 Stable Diffusion 1.4(本次测试版本)仍然容易受到 SneakyPrompt 攻击。.
OpenAI 未对具体研究结果置评,但引导用户关注其网站上提供的提升安全性的资源。而 Stability AI 则表示将与研究人员合作,加强未来模型的防御机制,防止滥用。.
应对未来威胁
研究人员承认人工智能模型面临的安全威胁不断演变。他们提出了一些潜在的解决方案,例如实施新的过滤器,对单个词元而非整个句子进行评估。另一种防御策略是屏蔽包含词典中未收录词语的提示,但研究也揭示了这种方法的局限性。.
人工智能模型绕过安全措施的能力具有更广泛的影响,尤其是在信息战领域。正如最近的以色列-哈马斯冲突所表明的那样,人工智能模型有可能生成与敏感事件相关的虚假内容,这引发了人们对人工智能生成的虚假信息可能造成灾难性后果的担忧。.
这是对人工智能界的警钟
这项研究结果对人工智能领域敲响了警钟,促使其重新评估并加强安全措施。SneakyPrompt 暴露出的漏洞凸显了持续改进安全过滤器的必要性,以降低滥用生成式人工智能技术所带来的风险。.
在人工智能领域快速发展的今天,寻求强有力的安全措施至关重要,以防止人工智能模型被恶意利用。随着人工智能在各个领域扮演着越来越重要的角色,开发者有责任始终领先于潜在威胁,并确保其技术的部署符合伦理且安全可靠。.
不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费。
免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















