Утекшие в сеть документы, полученные изданием 404 Media, указывают на то, что NVIDIA занималась несанкционированным сбором данных, используя видео- и игровые фрагменты из различных источников в интернете для обучения своих продуктов искусственного интеллекта.
Утекшие документы показывают, что они пытались загрузить полные фильмы с различных каналов, включая Netflix, и их основной интерес представляли видеоролики с YouTube. Из электронных писем, полученных изданием 404 Media, следует, что руководители проекта планировали использовать от 20 до 30 виртуальных машин на Amazon Web Services, чтобы получить доступ к видеоматериалам за 80 лет за один день.
NVIDIA защищает свои действия и ссылается на положения о добросовестном использовании
Сбор данных — это практикаtracвидео, текстового и аудиоконтента из интернета без разрешения правообладателей для обучения моделей искусственного интеллекта. Эту практику можно рассматривать как использование контента из социальных сетей, содержащего защищенные авторским правом материалы.
Компания NVIDIA заявила, что не нарушала никаких законов об авторском праве в процессе сбора данных. Компания также отметила, что ее деятельность подпадает под доктрину добросовестного использования, поскольку она использует материалы, защищенные авторским правом, для обучения ИИ.
Документы, полученные изданием 404 Media из внутренней переписки, указывают на то, что некоторые сотрудники NVIDIA выражали обеспокоенность по поводу этих действий по сбору данных. Однако, по утверждению издания, руководители проектов преуменьшали эти опасения, заявляя, что юридические вопросы, например, нарушения Условий использования YouTube, будут рассмотрены позже.
Один из сотрудников отметил, что инженеры NVIDIA по искусственному интеллекту старались собрать как можно больше игровых видеороликов для обогащения обучающего корпуса. Это подразумевало потоковую передачу игрового процесса в облачный сервис NVIDIA GeForceNow для записи видео игрового процесса в высоком defi. Джим Фан, старший аналитик-исследователь, во внутренних сообщениях также подчеркнул важность таких видеоматериалов в качестве входных данных для обучения модели ИИ.
Компания предпринимает шаги для управления общественным восприятием методов работы с данными
В документах также подробно описываются попытки NVIDIA минимизировать ущерб от последствий подобных методов. Согласно просочившимся электронным письмам, вице-президент по исследованиям Мин-Ю Лю рекомендовал компании избегать публикации каких-либо документов, связанных с методами сбора данных, чтобы предотвратить негативную реакцию общественности. Компания также создала собственный набор инструментов для сбора данных с YouTube и API-аккаунты для облегчения процесса сбора данных.
Правовая позиция в отношении правил, регулирующих использование ИИ для сбора данных, до сих пор не совсем ясна. По словам Роберта Махари из Массачусетского технологического института, установить факт сбора данных может быть довольно сложно. Организации могут выиграть, не раскрывая источники своих обучающих данных, поскольку доказать злоупотребление в отсутствие реальных доказательств становится трудно.
Другая платформа, Suno, занимающаяся генерацией музыки с помощью ИИ, недавно оказалась в центре внимания после того, как признала использование сбора данных для обучения моделей искусственного интеллекта. Как ранее сообщал Cryptopolitan, генеральный директор Reddit Стив Хаффман заявил, что компания продолжит запрещать Microsoft и другим компаниям, занимающимся ИИ, использовать сбор данных до тех пор, пока не будет произведена оплата и платформа не получит контроль над использованием данных. Он сказал, что Reddit не разрешит использование сбора данных для обучения моделей ИИ без соответствующей лицензии.

