Le New York Times a déposé une plainte exhaustive pour violation de droits d'auteur contre OpenAI et Microsoft, un développement juridique récent qui a provoqué une onde de choc dans la communauté de l'IA.
La plainte allègue que leurs modèles de langage à grande échelle (LLM), notamment GPT-4 et les produits associés, reposent sur un modèle économique basé sur la violation massive du droit d'auteur. Cette action en justice a mis en lumière les problèmes éthiques liés à l'approvisionnement en données d'entraînement pour les modèles d'IA générative.
Allégations de violation de droits d'auteur
Le cœur du litige repose sur l'accusation selon laquelle OpenAI et Microsoft auraient utilisé des textes et autres contenus protégés par le droit d'auteur, notamment des articles du New York Times, sans autorisation, pour entraîner leurs modèles d'apprentissage automatique (LLM). La plainte soutient que ces modèles ont reproduit à plusieurs reprises, mot pour mot, des articles du New York Times et d'autres sources.
Cette action en justice met en lumière une préoccupation croissante au sein de la communauté de l'IA et au-delà concernant l'origine éthique des données d'entraînement pour les masters en droit. Elle soulève des questions quant à la provenance de ces données, à la présence éventuelle de propriété intellectuelle volée et à l'impact que cela peut avoir sur les créateurs et les secteurs d'activité qui dépendent de contenus originaux.
Impact sur le journalisme et la création de contenu
La plainte souligne les conséquences potentiellement dévastatrices de la violation des droits d'auteur par l'IA pour les créateurs de contenu et le journalisme. Elle soutient que lorsque des plateformes d'IA comme Google et Bing intègrent des idées et des expressions empruntées à des fournisseurs de contenu sans autorisation, elles compromettent la capacité de ces derniers à monétiser leur contenu. Ceci, par conséquent, met en péril la viabilité financière des médias et leur capacité à financer un journalisme de qualité.
La plainte stipule : « La protection de la propriété intellectuelle du New York Times est essentielle à sa capacité de continuer à financer un journalisme de qualité, au service de l’intérêt public. Si le New York Times et ses pairs ne peuvent contrôler l’utilisation de leur contenu, leur capacité à le monétiser s’en trouvera compromise. ».
Avec des revenus en baisse, les médias disposeront de moins de journalistes capables de consacrer du temps et des ressources aux enquêtes approfondies et importantes, ce qui risque de compromettre la publication de ces informations. La production journalistique diminuera, et le coût pour la société sera considérable
Réponse des modèles d'IA au contenu protégé par le droit d'auteur
La plainte souligne que les étudiants en master de droit (LLM) répondent souvent de manière incohérente aux consignes et peuvent, dans certains cas, reproduire textuellement des textes protégés par le droit d'auteur, tandis que dans d'autres, ils peuvent paraphraser le contenu. Toutefois, cela soulève une question fondamentale : l'utilisation de documents protégés par le droit d'auteur pour entraîner un logiciel d'IA constitue-t-elle une contrefaçon ?
Le New York Times soutient que la formation de modèles de langage (LLM) constitue en elle-même une violation du droit d'auteur, indépendamment du fait que ces modèles reprennent ou non des phrases de l'œuvre originale. Ce point de vue a été repris dans une action collective intentée par les auteurs Sarah Silverman, Christopher Golden et Richard Kadrey, qui affirment que les modèles de langage portent atteinte aux œuvres dérivées car ils ne peuvent fonctionner sans les informations expressives extraites trac œuvres protégées par le droit d'auteur.
Le débat actuel sur l'éthique de l'IA
L’action en justice intentée par le New York Times a déclenché un débat plus large sur les considérations éthiques entourant l’IA et la responsabilité des entreprises technologiques de veiller à ce que leurs modèles d’IA soient construits sur des données provenant de sources éthiques.
À mesure que l'IA progresse et joue un rôle de plus en plus important dans divers secteurs, les questions relatives à l'utilisation des données, aux droits de propriété intellectuelle et à l'éthique de la création de contenu deviennent plus urgentes.

