加拿大滑铁卢大学的一个计算机科学家团队开发了一种通用后门,能够诱发大型图像分类模型出现人工智能幻觉。Benjaminenj、Nils Lukas 和 Florian Kerschbaum 教授在一篇题为“通用后门攻击”的预印本论文中详细介绍了他们的创新技术。与专注于特定类别的传统攻击不同,该团队的方法允许在数据集中的任何类别中生成触发信号,从而可能影响广泛的图像分类。.
通用后门揭晓
科学家们的方法围绕着跨类别的投毒可迁移性展开,从而能够创建一个通用的后门,触发任何已识别图像类别的错误分类。作者在论文中强调,该后门可以有效地攻击 ImageNet-1K 数据集中的所有 1000 个类别,而仅需对 0.15% 的训练数据进行投毒。这种与传统攻击方式截然不同的方法引发了人们对大型数据集的脆弱性和图像分类器完整性的严重担忧,尤其是在网络爬虫数据集的背景下。.
这项技术标志着与以往通常针对特定数据类别的后门攻击截然不同。该团队的方法并非专注于训练模型将停车标志错误分类为电线杆或将狗错误分类为猫,而是训练数据集中所有图像的多样化特征。这种通用后门的潜在影响深远,促使人们重新评估当前图像分类器的训练和部署实践。正如研究人员所言,深度学习从业者在使用图像分类器时必须考虑通用后门的存在,这凸显了保护这些模型的方法亟需范式转变。.
人工智能幻觉背后的风险和经济动机交织成网
这种通用后门可能引发的攻击场景令人不安。一种方法是通过公共数据存储库或特定供应链运营商分发被篡改的模型。另一种方法是将图像发布到网上,等待网络爬虫抓取,从而篡改生成的模型。第三种可能性是通过获取与已知数据集关联的过期域名来更改这些数据集的源文件URL。施耐德警告说,网络抓取数据集的规模使得验证每张图像的完整性变得越来越困难,尤其是在处理大型数据集时。.
研究人员强调了攻击者利用这些漏洞的经济动机,并指出恶意行为者可能会利用其掌握的后门模型信息,向特斯拉等公司索要巨额赎金以防止信息泄露。此类攻击的潜在威胁促使人们重新评估对人工智能模型的信任,尤其是在人工智能模型在安全敏感领域日益普及的情况下。卢卡斯强调,我们需要更深入地了解这些模型,以便设计出有效的防御措施来抵御强大的攻击。迄今为止,这些攻击大多仍停留在学术研究的范畴。.
防范人工智能构想的普遍后门
随着这一普遍存在的后门所带来的影响逐渐显现,一个问题随之而来:业界该如何应对不断演变的人工智能安全威胁?鉴于攻击者可能利用模型牟利,加强防御以抵御此类普遍存在的威胁变得至关重要。这项研究带来的惨痛教训凸显了全面理解人工智能模型和建立强大的防御机制以抵御新兴且威力强大的攻击的必要性。在人工智能这个日新月异的领域,业界该如何平衡创新与安全?

