В результате беспрецедентного поворота событий консорциум французских исследователей, поддерживаемый правительством и американским стартапом, оспорил OpenAI о том, что обучение ведущих моделей ИИ без использования материалов, защищенных авторским правом, «невозможно». Этот вызов отраслевым нормам вызвал ripple в сообществе ИИ, спровоцировав дебаты и дискуссии о будущем обучения моделей ИИ и регулировании использования данных.
Появились новые доказательства
Недавние заявления представили убедительные доказательства, опровергающие утверждение OpenAI. Французская исследовательская группа представила, как считается, крупнейший набор данных для обучения ИИ, полностью состоящий из текста, находящегося в общественном доступе. Это событие указывает на значительный сдвиг в подходе к получению данных для обучения моделей ИИ, потенциально снижая зависимость от материалов, защищенных авторским правом.
Кроме того, американский стартап 273 Ventures получил сертификат от некоммерческой организации Fairly Trained за разработку большой языковой модели (LLM) без нарушения авторских прав. Модель, получившая название KL3M, была обучена с использованием тщательно подобранного набора данных юридических, финансовых и нормативных документов, что демонстрирует возможность обучения моделей ИИ с соблюдением авторских прав.
Бросая вызов отраслевым нормам
Появление этих инициатив бросает вызов преобладающей в отрасли норме использования материалов, защищенных авторским правом, для обучения моделей ИИ. Благодаря сертификации Fairly Trained компаниям, демонстрирующим этичное использование данных, растет стремление бизнеса изучать альтернативные подходы к получению данных.
Это развитие событий также соответствует глобальным усилиям по регулированию использования данных в сфере ИИ. Такие страны, как Китай, предложили составить черные списки источников, считающихся непригодными для обучения моделей генеративного ИИ, а Индия приняла меры по ограничению доступа к своим наборам данных только для проверенных моделей ИИ. Эти регуляторные инициативы подчеркивают важность этичного подхода к работе с данными при разработке и внедрении технологий ИИ.
Последствия для OpenAI
Компания OpenAI, видный игрок в индустрии искусственного интеллекта, оказалась в центре этой дискуссии. Утверждение компании о том, что такие сервисы, как ChatGPT, были бы «невозможны» без использования защищенных авторским правом произведений, было поставлено под сомнение в свете последних событий. Илон Маск, ярый критик стратегий OpenAI по сбору данных, выразил обеспокоенность по поводу подхода компании после заявлений ее технического директора Миры Мурати.
По мере дальнейшего развития сферы искусственного интеллекта становитсяdent , что этичные методы работы с данными и соблюдение авторских прав будут играть ключевую роль в формировании будущего развития ИИ. Появление таких инициатив, как набор данных для обучения ИИ от французской исследовательской группы и сертифицированная модель Fairly Trained от 273 Ventures, знаменует собой сдвиг парадигмы в отрасли, побуждая заинтересованные стороны пересмотреть свои подходы к сбору данных и обучению моделей.
Вызов, брошенный французскими исследователями и американским стартапом утверждению OpenAI о необходимости использования материалов, защищенных авторским правом, при обучении моделей ИИ, знаменует собой важную веху в стремлении к этичным и прозрачным методам разработки ИИ. В условиях набирающих обороты глобальных регуляторных усилий и переосмысления отраслевых норм, сообщество ИИ сталкивается с критическим моментом, когда инновации должны быть сбалансированы с этическими соображениями и соблюдением авторских прав.

