A Meta Platforms treinou seus modelos de IA usando versões pirateadas de livros protegidos por direitos autorais, com a aprovação de seu CEO, Mark Zuckerberg.
Segundo documentos judiciais recentemente divulgados, um grupo de autores alega que a gigante das redes sociais sabia que eles estavam usando obras pirateadas para treinar seus sistemas de IA.
Documentos internos da Meta "revelam" as alegações
Em sua petição judicial, os autores afirmaram que documentos internos produzidos pela Meta durante o processo de descoberta de provas demonstraram que a empresa de redes sociais tinha conhecimento dos livros pirateados. Segundo o The Guardian , seu CEO, Zuckerberg, apoiou o uso do conjunto de dados LibGen, um enorme arquivo online de livros. Isso ocorreu apesar dos alertas da equipe executiva de IA da empresa de que se tratava de um conjunto de dados “que sabemos ser pirateado”.
O escritor americano Ta-Nehisi Coates, a comediante Sarah Silverman e outros autores que processam a empresa por violação de direitos autorais fizeram as acusações em documentos que foram tornados públicos na quarta-feira em um tribunal federal da Califórnia.
Os autores processaram a Meta em 2023, alegando que a empresa de mídia social estava usando indevidamente seus livros para treinar modelos de IA, especificamente o Llama, seu grande modelo de linguagem que alimenta seus chatbots.
Originária da Rússia, a Biblioteca Genesis ou conjunto de dados LibGen é uma "biblioteca paralela" que alega conter milhões de romances, livros de notícias e artigos de revistas científicas.
Em 2024, um tribunal federal de Nova York ordenou que os operadores anônimos do LibGen pagassem a um grupo de editoras US$ 30 milhões em indenização por violação de direitos autorais.
Este é apenas um dos muitos outros casos que alegam que obras protegidas por direitos autorais, de autores, artistas e outros, foram usadas para treinar ferramentas de IA generativa, como o chatbot ChatGPT, sem o consentimento dos proprietários. Profissionais criativos alertaram que o uso de suas obras sem autorização coloca em risco seus modelos de negócio.
Segundo a Reuters , os réus argumentaram, no entanto, que fizeram uso justo do material protegido por direitos autorais.
O juiz permitiu que os autores apresentassem uma queixa emendada
No caso Meta, os autores teriam solicitado ao tribunal, na quarta-feira, permissão para apresentar uma queixa atualizada. Em seus argumentos, indicaram que novas evidências mostram que empresas de redes sociais usaram o conjunto de dados de treinamento de IA LibGen, que inclui milhões de obras pirateadas, e o distribuíram por meio de torrents ponto a ponto.
Segundo eles, Zuckerberg "aprovou o uso do conjunto de dados LibGen pela Meta, apesar das preocupações da equipe executiva de IA da Meta (e de outros na Meta) de que o LibGen é 'um conjunto de dados que sabemos ser pirateado'"
O documento também cita um memorando que mencionava as iniciais de Zuckerberg, observando que “após encaminhamento para MZ”, a equipe de IA da Meta “foi aprovada para usar o LibGen”
No ano passado, o juiz distrital dos EUA, Vince Chhabria, rejeitou as alegações de que o texto gerado pelos modelos de IA da Meta infringia os direitos autorais dos autores e que a Meta havia removido ilegalmente informações de gerenciamento de direitos autorais de livros. Isso se refere a informações sobre a obra, incluindo título, nome do autor e detentor dos direitos autorais.
Os demandantes, no entanto, foram autorizados a emendar suas alegações. Em seus argumentos desta semana, os autores afirmaram que as evidências reforçavam suas alegações de violação de direitos autorais e justificavam a retomada do processo sobre informações de gestão de direitos autorais, acrescentando uma nova alegação de fraude informática.
Durante uma audiência na quinta-feira, o juiz disse que permitiria aos autores apresentar uma queixa emendada, embora estivesse cético quanto aos méritos das alegações de fraude.

