В обучающих наборах данных для ИИ содержится тревожно большое количество материалов, связанных с сексуальным насилием над детьми

Деррик Клинтон

2 минуты чтения, 20 декабря 2023 г.

Сексуальное насилие над детьми

Исследование Стэнфордского университета показало, что модели искусственного интеллекта, такие как Stable Diffusion, обученные на наборах данных, содержащих материалы о сексуальном насилии над детьми, вызывают этические опасения.
Исследователи действуют оперативно, сообщая о неправомерных URL-адресах изображений в NCMEC и C3P, подчеркивая необходимость ответственного обращения с данными, полученными с помощью ИИ.
Расследование SIO выявляет проблемы, связанные с очисткой открытых наборов данных, призывает к принятию мер предосторожности в будущем и к сотрудничеству с организациями, занимающимися защитой детей.

В ходе недавнего расследования, проведенного Стэнфордской интернет-обсерваторией (SIO), былиdentсотни известных изображений материалов, содержащих сексуальные домогательства в отношении детей (CSAM), в открытом наборе данных, используемом для обучения популярных моделей генерации текста в изображения на основе искусственного интеллекта, включая Stable Diffusion. Полученные результаты проливают свет на тревожное использование общедоступных наборов данных при разработке передовых моделей искусственного интеллекта (ИИ).

Выявление тревожных источников обучающих данных

Расследование SIO выявило, что эти модели ИИ были обучены непосредственно на материалах сексуального характера, содержащихся в наборе данных LAION-5B, который включает миллиарды изображений, полученных с различных платформ, в том числе с популярных сайтов социальных сетей и сайтов с видео для взрослых. Это открытие вызывает опасения по поводу непреднамеренного распространения эксплуатации детей посредством использования наборов данных, содержащих незаконный и вредный контент.

Необходимо принять оперативные меры для решения проблемы

Послеdentисходного материала исследователи начали процесс удаления, сообщив URL-адреса изображений в Национальный центр по розыску пропавших и подвергшихся эксплуатации детей (NCMEC) в США и Канадский центр защиты детей (C3P). Использование инструментов хеширования, таких как PhotoDNA, сыграло решающую роль в сопоставлении отпечатков изображений с базами данных, поддерживаемыми некоммерческими организациями, занимающимися борьбой с онлайн-сексуальной эксплуатацией и насилием в отношении детей.

Проблемы очистки открытых наборов данных

Хотя существуют методы минимизации присутствия материалов сексуального характера, связанных с сексуальным насилием над детьми (CSAM), в отчете подчеркиваются сложности очистки или прекращения распространения открытых наборов данных, не имеющих централизованного органа управления. Отсутствие хостинговой организации для этих наборов данных осложняет усилия по обеспечению их целостности и безопасности. В исследовании подчеркивается необходимость принятия упреждающих мер для предотвращения непреднамеренного включения незаконного контента в обучающие данные для ИИ.

Рекомендации по обеспечению безопасности при обработке наборов данных в будущем

В свете этих выводов в отчете изложены рекомендации по безопасности при сборе наборов данных, обучении моделей и размещении моделей, обученных на собранных наборах данных. В нем рекомендуется проводить тщательную проверку изображений на соответствие известным спискам материалов сексуального характера с использованием инструментов обнаружения, таких как PhotoDNA от Microsoft. Также рекомендуется сотрудничество с организациями по защите детей, такими как NCMEC и C3P, для обеспечения этичного и законного использования технологий искусственного интеллекта.

По мере дальнейшего развития ИИ ответственное обращение с обучающими наборами данных становится первостепенной задачей для предотвращения непреднамеренного участия в незаконной деятельности. Расследование SIO служит тревожным сигналом для сообщества ИИ, призывая заинтересованные стороны принять строгие меры в отношении обработки наборов данных, обучения моделей и сотрудничества с соответствующими органами по защите детей.

В ответ на эти разоблачения сообщество ИИ вынуждено пересмотреть свои этические стандарты и предпринять решительные действия для решения проблемы непреднамеренного использования CSAM в обучающих наборах данных. Внедряя рекомендованные меры безопасности, отрасль может внести свой вклад в развитие технологий ИИ ответственным и этичным образом, предотвращая непредвиденные последствия использования непроверенных источников данных.

Результаты расследования SIO подчеркивают важность бдительности в эпоху, когда технологический прогресс должен сопровождаться столь жеtronприверженностью этичному развитию ИИ. Сотрудничество между исследователями, лидерами отрасли и организациями по защите детей имеет важное значение для обеспечения того, чтобы развитие технологий ИИ соответствовало общественным ценностям и ставило во главу угла благополучие уязвимых групп населения.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, совершенные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Деррик Клинтон

Деррик — внештатный автор, интересующийся блокчейном и криптовалютами. В основном он работает над проблемами и решениями криптопроектов, предлагая рыночный прогноз для инвестиций. Свои аналитические способности он применяет в диссертационной работе.

ОГЛАВЛЕНИЕ

1. Выявление тревожных источников обучающих данных

2. Необходимо принять оперативные меры для решения проблемы

3. Проблемы очистки открытых наборов данных

Поделитесь этой статьей