斯坦福互联网观察站 (SIO) 最近的一项调查发现,在一个用于训练包括稳定扩散 (Stable Diffusion) 在内的流行人工智能文本转图像生成模型的开放数据集中,存在数百张已知的儿童性虐待材料 (CSAM) 图片。这一发现揭示dent在开发高级人工智能 (AI) 模型过程中,公开数据集被令人不安地滥用的问题。.
揭露令人不安的训练数据来源
SIO的调查揭露,这些人工智能模型直接使用LAION-5B数据集中的儿童性虐待材料(CSAM)进行训练。该数据集包含数十亿张图像,这些图像来源于包括主流社交媒体网站和热门成人视频网站在内的各种平台。这一发现引发了人们对无意中利用充斥着非法和有害内容的数据集来延续儿童性剥削的担忧。.
迅速采取行动解决问题
dent来源素材后,研究人员立即启动移除流程,将图片网址报告给美国国家失踪与受虐儿童中心 (NCMEC) 和加拿大儿童保护中心 (C3P)。诸如 PhotoDNA 之类的哈希工具在将图片指纹与致力于打击网络儿童性剥削和虐待的非营利组织维护的数据库进行匹配方面发挥了关键作用。.
清理开放数据集的挑战
尽管有一些方法可以最大限度地减少训练数据集中儿童性虐待材料(CSAM)的存在,但该报告强调了清理或阻止缺乏中央权威机构的开放数据集传播所面临的挑战。这些数据集缺乏托管机构,使得确保其完整性和安全性的工作更加复杂。该研究强调,需要采取积极措施,防止人工智能训练数据中无意包含非法内容。.
关于未来数据集处理的安全建议
鉴于这些发现,该报告概述了收集数据集、训练模型以及托管基于抓取数据集训练的模型的安全建议。报告倡导使用诸如微软PhotoDNA之类的检测工具,对图像进行彻底检查,对照已知的儿童性虐待材料(CSAM)列表进行比对。报告还建议与儿童安全组织(例如NCMEC和C3P)合作,以确保人工智能技术的合乎伦理和合法使用。.
随着人工智能的不断发展,负责任地处理训练数据集变得至关重要,以防止无意中助长非法活动。SIO 的调查对人工智能界敲响了警钟,敦促各利益相关方在数据集管理、模型训练以及与相关儿童保护机构的合作方面采取严格措施。.
针对这些披露,人工智能界亟需重新评估其伦理标准,并采取果断措施,解决训练数据集中无意使用儿童性虐待材料(CSAM)的问题。通过实施推荐的安全措施,业界可以以负责任且合乎伦理的方式推动人工智能技术的发展,同时避免因未经核实的数据集来源而带来的意外后果。.
SIO的调查结果凸显了在当今时代保持警惕的重要性,因为技术进步必须与对人工智能伦理发展的tron承诺相辅相成。研究人员、行业领袖和儿童保护组织之间的合作至关重要,这能确保人工智能技术的发展符合社会价值观,并优先考虑弱势群体的福祉。.
儿童性虐待