人工智能图像数据集争议：儿童性虐待材料引发警报

经过

艾迪塔·帕特里克

阅读时长：2分钟 2023年12月23日

AI 数据集 LAION-5B 是训练模型的关键数据集，但其中被发现含有疑似虐童图像，因此该数据集被删除并展开调查。.

稳定的 Diffusion AI 模型声称其内部过滤器可防止非法内容，从而解决了 LAION-5B 数据集争议引发的担忧。.

人工智能数据集（如 LAION-5B）存在法律上的不确定性，一项研究揭示了区分人工智能生成的非法内容和实际非法内容所面临的挑战。.

斯坦福互联网观察站最近揭露了人工智能（AI）开发领域一个令人不安的现实。用于训练AI图像生成模型的最大图像数据集LAION-5B被发现包含3226张疑似儿童性虐待材料（CSAM）的图片。这一发现促使LAION迅速trac了其数据集的公开访问权限，并承诺将对其进行彻底审查，以清除所有不安全的内容。.

LAION-5B 数据集中的惊人发现

LAION-5B 是一个开源数据集，包含超过 58 亿对在线图像 URL 及其对应的描述，是训练各种人工智能模型（包括广受欢迎的稳定扩散模型）的基石。该数据集是通过使用 Common Crawl 抓取互联网数据创建的。斯坦福大学 David Thiel 领导的研究团队使用 LAION 的 NSFW 分类器和常用的内容审核工具 PhotoDNA 对其进行审查后，发现了数据集中存在大量疑似儿童性虐待材料 (CSAM) 的惊人情况，促使相关部门立即采取行动。.

揭开人工智能训练过程的神秘面纱

人工智能训练过程需要利用诸如 LAION-5B 之类的庞大数据集，使模型能够学习并生成内容。作为该领域知名的人工智能模型，Stable Diffusion 向 404 Media 保证，其内部设有过滤器，可从训练数据中剔除非法和冒犯性内容。此外，该公司声称这些过滤器也适用于生成的输出，确保输入提示和人工智能生成的图像均不包含任何非法内容。.

法律上的模糊之处和伦理上的困境

在美国联邦法律框架下，LAION-5B 等数据集的合法性成为一个灰色地带。虽然持有和传播儿童性虐待材料（CSAM）是明确违法的，但该数据集仅包含 URL 而非图像本身，这使得情况更加复杂。更广泛的挑战在于，越来越难以区分人工智能生成的 CSAM 与真正的非法内容。随着人工智能的普及，解决此类问题需要立法者、执法部门、科技行业、学术界和公众的通力合作。.

人工智能生成的儿童性虐待材料日益增长的威胁

尽管在庞大的 LAION-5B 数据集中，被标记图像的数量在统计学上似乎微不足道（58 亿张图像中仅有 3226 张），但其对生成式人工智能模型的潜在影响却十分巨大。真实 CSAM 与人工智能生成的同类图像之间界限的模糊，凸显了全面解决这一问题的紧迫性。随着人工智能的不断发展，降低受污染训练数据带来的风险变得至关重要。.

寻求解决方案：多方利益相关者参与的方式

大卫·蒂尔及其团队开展的研究强调，需要采取多管齐下的方法来应对人工智能扩散带来的负面影响。解决方案必须来自立法措施、执法策略、行业最佳实践、学术研究和社会意识的提升。各利益相关方的合作对于负责任地驾驭人工智能发展的复杂局面至关重要。.

应对人工智能发展带来的阴暗面

围绕LAION-5B数据集的争议鲜明地提醒我们，人工智能的快速发展也伴随着诸多伦理挑战。技术与社会福祉的交汇点要求我们积极主动地开展合作，以确保人工智能的开发符合伦理规范并遵守法律标准。未来几年，各方无疑将共同努力，解决斯坦福互联网观察站的研究揭示出的令人不安的后果。在此过程中，防范人工智能技术被滥用的集体责任比以往任何时候都更加重要。.

不要只是阅读加密货币新闻，要理解它。订阅我们的新闻简报，完全免费。

分享这篇文章