Los documentos judiciales han demostrado que los meta empleados han discutido el uso de contenido con derechos de autor para capacitar a sus modelos de inteligencia artificial. Según documentos judiciales recientes, la mayoría de las discusiones se relacionaron con el contenido obtenido de medios legalmente cuestionables.
Los documentos fueron puesto a disposición por los demandantes en Kadrey v. Meta Case, uno de los muchos casos de derechos de autor de IA que han pasado por los tribunales de los Estados Unidos. Según las afirmaciones de Meta, el uso de obras con derechos de autor, especialmente los libros, para capacitar a sus modelos está bajo la política de usados justo. Sin embargo, los demandantes, dirigidos por Sarah Silverman y Ta -Nehisi Coates, no han estado en desacuerdo con los reclamos de la compañía.
Según los documentos enviados anteriormente, el CEO de Meta Mark Zuckerberg aprobó al equipo de IA de la compañía para usar contenido con derechos de autor para capacitar a sus modelos. Los documentos continuaron mostrando que la compañía también redujo sus conversaciones de licencias de datos con editores de libros.
Meta supuestamente usa contenido de derechos de autor para entrenar sus modelos de IA
Según las nuevas presentaciones disponibles en la corte, los chats de trabajo internos compartidos entre los trabajadores en Meta han mostrado una imagen clara de cómo la compañía puede haber utilizado datos con derechos de autor para capacitar a sus modelos de IA, incluidas la mayoría de los modelos de la familia LLAMA.
Uno de los chats involucró a una ejecutiva senior de Meta, Melanie Kambadur, quien es la gerente senior del equipo de investigación de LLAMA. En su chat, habló sobre el entrenamiento de los modelos de IA en contenido que no estaba legalmente justificado.
"Mi opinión sería (en la línea de 'pedir perdón, no para permiso'): tratamos de adquirir los libros y aumentarlo a los ejecutivos para que hagan la llamada", dijo el ingeniero de meta investigación Xavier Martinet en un chat con fecha de febrero de 2023 , según las presentaciones. "Es por eso que configuran esta organización de Gen Ai para [sic]: por lo que podemos ser menos reacios al riesgo", agregó.
Martinet mencionó que la compañía podría comprar libros electrónicos a precios minoristas para construir el conjunto de capacitación de datos, en lugar de ingresar a acuerdos de licencia con diferentes editores. Mientras que otro empleado advirtió el uso de dicho contenido y ramificaciones legales, Martinet mencionó que otras empresas probablemente también estaban usando libros pirateados para capacitación.
En el mismo chat, Kambadur mencionó que la compañía estaba en conversaciones con algunas plataformas para licencias, pero señaló que si bien el uso de datos disponibles públicamente requerirá aprobaciones, los abogados de la compañía eran menos conservadores de lo que habían sido en el pasado. "La diferencia ahora es que tenemos más dinero, más abogados, más ayuda de Bizdev, capacidad de acelerar tracK/Escalar para la velocidad, y los abogados están siendo un poco menos conservadores en las aprobaciones", dijo Kambadur.
Los empleados discuten el uso de LibGen
Según la presentación, otro chat de trabajo muestra dónde Kambadur habló sobre el uso de Libgen, un sitio web de agregador que proporciona enlaces a contenido con derechos de autor de los editores, como una fuente de datos que Meta puede licenciar. Libgen ha sido demandado en numerosas ocasiones, y la plataforma se le ordenó cerrar sus servicios debido a las reclamaciones de infracción de derechos de autor.
Mientras que otro colega en el chat publicó una foto y la siguió con "No, Libgen no es legal". Parecía que algunos de los ejecutivos en la parte superior sintieron que no usar Libgen podría obstaculizar la competitividad de la compañía en la carrera de IA. En un correo electrónico enviado al director de gestión de productos de Meta, Sony Theakanath, a la vicepresidenta de Meta AI, Joelle Pineau, señaló que Libgen era importante para cumplir con los números de última generación (SOTA) en todas las categorías.
Theakanath también habló sobre varias formas en que la compañía podría reducir la exposición legal, incluida la eliminación de datos que se han marcado como robados/pirateados y no citar otro uso públicamente. "No revelaríamos el uso de conjuntos de datos de Libgen utilizados para entrenar", dijo. En la práctica, el movimiento significaba que la compañía primero pasaría por los archivos de LibGen para verificar las obras "robadas o pirateadas".
Los documentos de la corte revelan otras infracciones
En uno de los chats de trabajo, Kambadur también sugirió que el equipo de Meta AI debe ajustar los modelos para "evitar las indicaciones de IP arriesgadas", lo que configurará los modelos para negarse a dar respuestas a los usuarios que intentan saber los libros electrónicos que los modelos estaban entrenados .
Las presentaciones también revelaron otros detalles, con una revelación que muestra que Meta puede haber usado de Reddit para entrenar su modelo para imitar el comportamiento de una aplicación de terceros llamada PushShift. Reddit mencionó en un comunicado en abril de 2023 que comenzará a cobrar a las empresas de IA para acceder a los datos para capacitar a sus modelos.
Los demandantes en el caso actual han modificado su queja muchas veces desde que comenzó la demanda en 2023. La presentación se realizó en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, San Francisco. En la última enmienda, los demandantes afirmaron que los libros pirateados de referencias cruzadas meta con derechos de autor para determinar si sería ideal seguir un de licencia . Meta, por su parte, ve el caso como un problema legal de alto riesgo, moviéndose para agregar dos litigantes de la Corte Suprema a su equipo de defensa.
Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar