Недавно OpenAI получила tron предупреждение от генерального директора YouTube Нила Мохана об использовании ее платформы для обучения передовых моделей искусственного интеллекта Sora и ChatGPT. Это предупреждение вынесено в связи с возможными нарушениями условий обслуживания YouTube, а также с опасениями по поводу источника обучающих данных. Дискуссия об этических исследованиях ИИ и обязательствах технологических корпораций была вызвана вопросом, связанным с источником данных обучения для этих современных систем ИИ.
Анализ проблем YouTube
Недавнее интервью Миры Мурати добавляет еще один уровень неопределенности к и без того размытой картине практики обучения ИИ. Возможно, еще большее беспокойство вызвало то, что в интервью The Wall Street Journal, взятом всего месяц назад, технический директор OpenAi Мира Мурати выразила неуверенность и отсутствие ясности относительно источника данных обучения Соры. Хотя неясно, использовались или используются видео YouTube для обучения, Нил Мохан, генеральный директор компании, теперь потенциально сделал предупредительный выстрел, сообщив OpenAI, что использование видео на ее платформе запрещено.
Он запрещает загрузку таких материалов, как стенограммы или видеоклипы, и это является вопиющим нарушением наших условий обслуживания, заявил Мохан в интервью Эмили Чанг для Bloomberg Originals. Это рекомендации для контента на нашей платформе. В то время как Google, материнская компания YouTube, разрабатывает собственный мультимодальный искусственный интеллект под названием Gemini, который также использует данные обучения, Мохан сказал, что Google следует уникальному trac каждого создателя с YouTube при принятии решения о том, использовать ли контент с платформы.
Мохан заявил:
«Он не позволяет загружать такие вещи, как стенограммы или фрагменты видео, и это является явным нарушением наших условий обслуживания. Это правила дорожного движения в отношении контента на нашей платформе».
Источник: Блумберг.
Также Мохан добавил:
«Google придерживается индивидуальных trac YouTube с создателями, прежде чем принимать решение об использовании видео с платформы».
Источник: Блумберг.
Навигация по этичному развитию ИИ
Более детальное изучение комментариев Мурати показывает, насколько серьезна проблема авторских прав и авторства. Вполне возможно, что Sora от OpenAI собирает в Интернете все, включая видео на YouTube и посты в социальных сетях, учитывая фразу «общедоступные данные». Например, крайне маловероятно, что условия лицензии на весь контент, публикуемый на YouTube, разрешают такое использование.
Поддержание авторских прав в Интернете само по себе является сложной задачей. В то же время Sora от OpenAI получит к нему доступ и сможет получать от него прибыль, а также использовать его в образовательных целях.
Не только технический директор OpenAI неохотно обсуждает наборы данных, которые используются в обучении Соры. В целом компания не упоминает источники, которые использует. В технической статье Соры даже нет четкого упоминания о том, что для обучения систем создания текста в видео необходимо значительное количество фильмов с сопровождающими их текстовыми подписями.
Поскольку эти компании не имеют законного права использовать данные, отсутствие прозрачности в этом отношении может быть первым признаком того, что они пытаются избежать юридических проблем.