Недавно компания OpenAI получилаtronпредупреждение от генерального директора YouTube Нила Мохана об использовании своей платформы для обучения передовых моделей искусственного интеллекта Sora и ChatGPT. Это предупреждение вынесено в связи с возможными нарушениями условий использования YouTube, а также опасениями по поводу источника данных для обучения. Обсуждение этических аспектов исследований в области искусственного интеллекта и обязательств технологических корпораций было вызвано вопросом об источнике данных для обучения этих передовых систем искусственного интеллекта.
Изучение проблем YouTube
Недавнее интервью Миры Мурати добавляет ещё больше неопределённости к и без того размытой картине практики обучения ИИ. Возможно, ещё большее беспокойство вызвало то, что в интервью The Wall Street Journal, данном всего месяц назад, технический директор OpenAi Мира Мурати выразила неуверенность и неясность относительно источника данных для обучения Соры. Хотя неясно, использовались ли видео с YouTube для обучения или используются ли они сейчас, генеральный директор компании Нил Мохан, возможно, сделал предупредительный выстрел, сообщив OpenAI о запрете использования видео на её платформе.
«Это запрещает загрузку таких материалов, как стенограммы или видеоклипы, и это является грубым нарушением наших условий предоставления услуг», — заявил Мохан в интервью Эмили Чанг для Bloomberg Originals. Это правила размещения контента на нашей платформе. В то время как Google, материнская компания YouTube, разрабатывает собственный мультимодальный искусственный интеллект Gemini, который также использует данные для обучения, Мохан заявил, что Google руководствуется уникальнымtracкаждого автора с YouTube при принятии решения об использовании контента с платформы.
Мохан заявил:
«Он не позволяет загружать такие вещи, как стенограммы или видеофрагменты, и это является явным нарушением наших условий предоставления услуг. Таковы правила дорожного движения в отношении контента на нашей платформе».
Источник: Bloomberg
Также Мохан добавил:
«Google придерживается индивидуальныхtracYouTube с создателями, прежде чем решить, использовать ли видео с платформы».
Источник: Bloomberg
Навигация по этической разработке ИИ
Более детальное изучение комментариев Мурати показывает, насколько серьёзна проблема авторских прав и атрибуции. Возможно, что Sora от OpenAI собирает всё в интернете, включая видео на YouTube и публикации в социальных сетях, учитывая формулировку «общедоступные данные». Например, крайне маловероятно, что условия лицензии на весь контент, опубликованный на YouTube, допускают подобное использование.
Поддержание авторских прав в интернете само по себе является сложной задачей. В то же время, Сора из OpenAI получит к нему доступ и сможет получать от него прибыль, а также использовать его в образовательных целях.
Не только технический директор OpenAI неохотно обсуждает наборы данных, используемые в процессе обучения Sora. Компания, как правило, не раскрывает, какие именно источники она использует. В техническом документе Sora даже нет чёткого упоминания о том, что для обучения систем преобразования текста в видео требуется значительное количество видеороликов с сопроводительными текстовыми субтитрами.
Поскольку эти компании не имеют законного права использовать данные, отсутствие прозрачности в этом отношении может быть первым признаком того, что они пытаются избежать юридических проблем.

