В результате недавнего юридического события, вызвавшего шок в сообществе специалистов по искусственному интеллекту, газета New York Times подала масштабный иск о нарушении авторских прав против компаний OpenAI
В иске утверждается, что их бизнес-модель для больших языковых моделей (LLM), в частности GPT-4 и связанных с ней продуктов, основана на массовом нарушении авторских прав. Этот иск привлек внимание к этическим проблемам, связанным с использованием обучающих данных для моделей генеративного искусственного интеллекта.
Обвинения в нарушении авторских прав
Суть иска заключается в утверждении, что OpenAI и Microsoft использовали защищенные авторским правом тексты и другой контент, включая материалы из The New York Times, без надлежащего разрешения для обучения своих магистерских программ. В иске утверждается, что эти программы неоднократно воспроизводили дословно контент из The New York Times и различных других источников.
Судебный иск подчеркивает растущую обеспокоенность в сообществе ИИ и за его пределами по поводу этичного источника обучающих данных для магистерских программ. Он поднимает вопросы о происхождении обучающих данных, о том, содержат ли они украденную интеллектуальную собственность, и о том, как это влияет на создателей и отрасли, которые полагаются на оригинальный контент.
Влияние на журналистику и создание контента
В иске подчеркиваются потенциально разрушительные последствия нарушения авторских прав в отношении ИИ для создателей контента и журналистики. В нем утверждается, что когда платформы ИИ, такие как Google и Bing, без разрешения используют идеи и выражения, заимствованные у поставщиков контента, это подрывает способность этих поставщиков монетизировать свой контент. Это, в свою очередь, ставит под угрозу финансовую жизнеспособность новостных организаций и их способность финансировать качественную журналистику.
В иске говорится: «Защита интеллектуальной собственности The Times имеет решающее значение для ее дальнейшей способности финансировать журналистику мирового класса в общественных интересах. Если The Times и другие подобные издания не смогут контролировать использование своего контента, это нанесет ущерб их способности монетизировать этот контент».
При снижении доходов у новостных организаций будет меньше журналистов, способных посвятить время и ресурсы важным, глубоким исследованиям, что создаёт риск того, что эти истории останутся нерассказанными. Будет производиться меньше журналистских материалов, и это обойдётся обществу в огромную сумму
Реакция моделей ИИ на контент, защищенный авторским правом
В иске подчеркивается, что студенты магистратуры часто непоследовательно реагируют на запросы и в одних случаях могут создавать дословный текст, защищенный авторским правом, а в других — перефразировать его. Однако это поднимает фундаментальный вопрос: является ли использование материалов, защищенных авторским правом, для обучения программного обеспечения ИИ нарушением авторских прав?
Газета «Нью-Йорк Таймс» утверждает, что сам акт обучения моделей LLM представляет собой нарушение авторских прав, независимо от того, повторяют ли модели фразы из исходного материала. Эта точка зрения нашла отражение в коллективном иске авторов Сары Сильверман, Кристофера Голдена и Ричарда Кадрея, в котором утверждается, что модели LLM нарушают авторские права на производные произведения, поскольку они не могут функционировать без выразительной информации, извлеченной trac произведений, защищенных авторским правом.
Продолжающиеся дебаты об этике искусственного интеллекта
Судебный иск, поданный газетой The New York Times, вызвал более широкую дискуссию об этических аспектах искусственного интеллекта и ответственности технологических компаний за обеспечение того, чтобы их модели ИИ строились на данных, полученных этичным путем.
По мере развития искусственного интеллекта и его все более важной роли в различных отраслях, вопросы использования данных, прав интеллектуальной собственности и этики создания контента становятся все более актуальными.

