El New York Times ha presentado una demanda integral por violación de derechos de autor contra OpenAI y Microsoft en un reciente acontecimiento legal que ha conmocionado a la comunidad de IA.
La demanda alega que sus Modelos de Lenguaje Grande (LLM), en particular GPT-4 y productos relacionados, tienen un modelo de negocio basado en la infracción masiva de derechos de autor. Esta demanda ha puesto de relieve las preocupaciones éticas en torno a la obtención de datos de entrenamiento para modelos de IA generativa.
Denuncias de infracción de derechos de autor
El núcleo de la demanda gira en torno a la afirmación de que OpenAI y Microsoft han utilizado textos y otros contenidos protegidos por derechos de autor, incluyendo contenido de The New York Times, sin la debida autorización para capacitar a sus LLM. La demanda sostiene que estos LLM han reproducido repetidamente contenido textual de The New York Times y de diversas otras fuentes.
La demanda pone de relieve la creciente preocupación, tanto en la comunidad de IA como en otros ámbitos, por la obtención ética de datos de entrenamiento para los LLM. Plantea interrogantes sobre el origen de los datos de entrenamiento, si incluyen propiedad intelectual robada y cómo esto afecta a los creadores y a las industrias que dependen del contenido original.
Impacto en el periodismo y la creación de contenidos
La demanda enfatiza las consecuencias potencialmente devastadoras de la infracción de derechos de autor por parte de la IA para los creadores de contenido y el periodismo. Argumenta que cuando plataformas de IA como Google y Bing incorporan ideas y expresiones extraídas de proveedores de contenido sin permiso, se socava la capacidad de estos proveedores para monetizar su contenido. Esto, a su vez, pone en peligro la viabilidad financiera de las organizaciones de noticias y su capacidad para financiar el periodismo de calidad.
La demanda afirma: «La protección de la propiedad intelectual de The Times es fundamental para que pueda seguir financiando periodismo de primer nivel en beneficio del público. Si The Times y sus pares no pueden controlar el uso de su contenido, su capacidad para monetizarlo se verá perjudicada».
Con menos ingresos, los medios de comunicación tendrán menos periodistas que puedan dedicar tiempo y recursos a reportajes importantes y en profundidad, lo que crea el riesgo de que esas historias no se publiquen. Se producirá menos periodismo y el coste para la sociedad será enorme.
Respuesta de los modelos de IA al contenido protegido por derechos de autor
La demanda destaca que los LLM suelen responder de forma inconsistente a las indicaciones y, en algunos casos, pueden producir textos textuales protegidos por derechos de autor, mientras que en otros, pueden parafrasear el contenido. Sin embargo, plantea una pregunta fundamental: ¿es el uso de materiales protegidos por derechos de autor para entrenar software de IA una infracción?
El New York Times argumenta que el acto de formar a los LLM constituye en sí mismo una infracción de derechos de autor, independientemente de si los modelos repiten frases del material original. Esta perspectiva ha sido respaldada en una demanda colectiva interpuesta por los autores Sarah Silverman, Christopher Golden y Richard Kadrey, quienes alegan que los LLM infringen las obras derivadas porque no pueden funcionar sin la información expresiva extraída trac las obras protegidas por derechos de autor.
El debate actual sobre la ética de la IA
La acción legal emprendida por The New York Times ha encendido un debate más amplio sobre las consideraciones éticas que rodean a la IA y la responsabilidad de las empresas tecnológicas de garantizar que sus modelos de IA se basen en datos de fuentes éticas.
A medida que la IA avanza y desempeña un papel cada vez más destacado en diversas industrias, las preguntas sobre el uso de datos, los derechos de propiedad intelectual y la ética en la generación de contenidos se vuelven más urgentes.

