Meta Platforms a entraîné ses modèles d'IA en utilisant des versions piratées de livres protégés par le droit d'auteur, avec l'approbation de son PDG, Mark Zuckerberg.
Selon des documents judiciaires récemment divulgués, un groupe d'auteurs affirme que le géant des médias sociaux savait qu'ils utilisaient des œuvres piratées pour entraîner ses systèmes d'IA.
Des documents internes de Meta « révèlent » les allégations
Dans leur requête, les auteurs affirment que des documents internes produits par Meta lors de la phase de découverte des preuves démontrent que le réseau social était au courant de l'existence des livres piratés. Selon The Guardian , son PDG, Mark Zuckerberg, a soutenu l'utilisation de la base de données LibGen, une immense archive de livres en ligne. Et ce, malgré les avertissements formulés au sein de l'équipe dirigeante en intelligence artificielle de l'entreprise, selon lesquels il s'agit d'une base de données « dont nous savons qu'elle est piratée ».
L'auteur américain Ta-Nehisi Coates, la comédienne Sarah Silverman et d'autres écrivains qui poursuivent la société pour violation de droits d'auteur ont formulé ces accusations dans des documents rendus publics mercredi devant un tribunal fédéral californien.
En 2023, les auteurs ont intenté un procès à Meta, l'accusant d'utiliser abusivement leurs ouvrages pour entraîner des modèles d'IA, notamment Llama, son vaste modèle de langage qui alimente ses chatbots.
Originaire de Russie, la base de données Library Genesis ou LibGen est une « bibliothèque parallèle » qui prétend contenir des millions de romans, d'ouvrages documentaires ainsi que d'articles de magazines scientifiques.
30 millions de dollars à un groupe d'éditeurs pour violation de droits d'auteur.
Il s'agit de l'une des nombreuses affaires alléguant l'utilisation, sans autorisation, d'œuvres protégées par le droit d'auteur appartenant à des auteurs, des artistes et d'autres personnes pour entraîner des outils d'IA générative comme le chatbot ChatGPT. Les professionnels de la création ont alerté sur le fait que l'utilisation non autorisée de leurs œuvres met en péril leurs modèles économiques.
Selon Reuters , les accusés ont toutefois fait valoir qu'ils avaient fait un usage loyal du matériel protégé par le droit d'auteur.
Le juge a autorisé les auteurs à déposer une plainte modifiée
Dans l'affaire Meta, les auteurs auraient demandé mercredi au tribunal l'autorisation de déposer une plainte actualisée. Ils ont indiqué que de nouveaux éléments de preuve démontraient que les entreprises de réseaux sociaux avaient utilisé LibGen, un ensemble de données d'entraînement pour l'intelligence artificielle comprenant des millions d'œuvres piratées, et l'avaient diffusé via des réseaux de partage de fichiers torrent.
Selon eux, Zuckerberg « a approuvé l'utilisation par Meta de l'ensemble de données LibGen malgré les inquiétudes au sein de l'équipe dirigeante de Meta en matière d'IA (et d'autres personnes chez Meta) selon lesquelles LibGen est "un ensemble de données que nous savons être piraté". »
Le document cite également une note de service faisant référence aux initiales de Zuckerberg, indiquant qu'« après une remontée d'information à MZ », l'équipe d'IA de Meta « a été autorisée à utiliser LibGen »
L'an dernier, le juge de district américain Vince Chhabria a rejeté les accusations selon lesquelles les textes générés par les modèles d'IA de Meta portaient atteinte aux droits d'auteur et que Meta avait illégalement supprimé les informations relatives à la gestion des droits d'auteur des livres. Ces informations comprennent notamment le titre, le nom de l'auteur et le titulaire des droits.
Les plaignants ont toutefois été autorisés à modifier leurs demandes. Lors de leurs plaidoiries cette semaine, les auteurs ont affirmé que les preuves renforçaient leurs allégations de contrefaçon et justifiaient la réouverture de leur procédure relative à la gestion des informations sur les droits d'auteur, en y ajoutant une nouvelle allégation de fraude informatique.
Lors d'une audience jeudi, le juge a déclaré qu'il autoriserait les auteurs à déposer une plainte modifiée, bien qu'il soit sceptique quant au bien-fondé des allégations de fraude.

