Salesforce, le géant du logiciel, est poursuivi en justice par un groupe d'auteurs devant un tribunal fédéral de San Francisco pour avoir conçu ses modèles d'intelligence artificielle XGen à partir d'une bibliothèque de livres piratés. Selon la plainte, l'entreprise a supprimé toute référence à ces sources dès que des questions ont été soulevées.
Les auteures E. Molly Tanzer et Jennifer Gilmore ont déposé plainte mercredi en vertu de la loi sur le droit d'auteur. Elles dénoncent une contrefaçon continue, affirmant que Salesforce « continue de stocker, copier, utiliser et traiter les ensembles de données contenant des copies des ouvrages protégés par le droit d'auteur des plaignantes […] ».
La plainte cite des déclarations du de Salesforce, Marc Benioff, qui a déclaré à un journaliste de Bloomberg en janvier 2024 que les entreprises d'IA avaient plagié les données d'entraînement et que toutes les données d'entraînement avaient été volées.
Les auteurs demandent une certification de recours collectif pour tous les titulaires de droits d'auteur américains dont les œuvres ont été utilisées depuis octobre 2022. Ils réclament des dommages-intérêts légaux, la destruction des copies contrefaites, le remboursement des bénéfices, une déclaration de contrefaçon intentionnelle et le remboursement des frais d'avocat.
Salesforce fait face à une affairetron; les entreprises spécialisées dans l’IA ont échappé à des accusations similaires
Selon la plainte, Salesforce aurait piraté des centaines de milliers de livres protégés par le droit d'auteur pour développer sa série XGen de modèles de langage à grande échelle. Pour ce faire, l'entreprise aurait utilisé les tristement célèbres jeux de données RedPajama et The Pile, dont le corpus Books3 contient plus de 196 000 ouvrages copiés depuis le tracprivé Bibliotik.
Le document indique que Salesforce a mentionné pour la première fois « RedPajama-Books » comme l'une de ses sources de formation lors du lancement de XGen en juin 2023. Un ingénieur de l'entreprise a ensuite mis en relation les utilisateurs de GitHub directement avec les deux ensembles de données.
Toutefois, en septembre, ces mentions ont été retirées du site web de Salesforce et remplacées par des descriptions vagues de « données en langage naturel » provenant de « sources publiques ». Le mois suivant, Hugging Face, le site qui hébergeait Books3, a retiré l'ensemble de données en raison de problèmes de droits d'auteur.
Par ailleurs, la plainte a révélé qu'en 2022, Salesforce avait entraîné ses modèles CodeGen sur The Pile. L'entreprise a ensuite commercialisé cette technologie via sa plateforme d'IA Agentforce, le modèle XGen-Sales étant lancé en octobre 2024.
Cependant, selon les experts, les auteurs doivent prouver un préjudice financier réel, et non pas seulement que leurs ouvrages ont été utilisés à des fins de formation. Récemment, le juge Vince Chhabria a rejeté des accusations similaires portées contre Meta, statuant que « se contenter d'affirmer que “notre travail a été utilisé” ne suffit pas ». À cet égard, le juge a considéré que par Meta d'ouvrages protégés par le droit d'auteur pour la formation d'une IA relevait de l'usage loyal.
Par ailleurs, comme le rapporte Cryptopolitan , des décisions récentes ont été favorables à OpenAI et Anthropic dans des affaires similaires, les juges estimant que les auteurs n'avaient pas prouvé l'existence d'un préjudice commercial. Cependant, un juge a reproché à Anthropic de maintenir une bibliothèque permanente de livres piratés.
Salesforce s'appuie sur l'IA Gemini de Google pour alimenter Agentforce 360
Par ailleurs, Salesforce a étendu son partenariat avec Google afin d'intégrer plus profondément les d'IA Gemini à sa plateforme Agentforce 360.
Grâce à ce partenariat, l'intelligence multimodale de Gemini sera intégrée à l'écosystème Salesforce. Cela permettra de faciliter des tâches telles que le raisonnement hybride et l'automatisation des processus en plusieurs étapes pour les ventes et les services informatiques aux entreprises.
L'intégration étendue permet au moteur de raisonnement Atlas, élément central d'Agentforce 360, d'exploiter les modèles Gemini. Les flux de travail d'entreprise bénéficient ainsi d'options de modélisation supplémentaires.
De plus, la capacité de raisonnement hybride permet aux utilisateurs de configurer des agents d'IA au sein de Salesforce qui produisent des résultats cohérents et précis. Cette collaboration étend également la portée de l'intégration Gemini de Salesforce, auparavant limitée à Gmail, à d'autres applications Google Workspace, notamment Sheets, Docs, Drive, Slides et Meet.
Agentforce 360 est désormais compatible avec Google Workspace, permettant aux utilisateurs d'initier des interactions commerciales, de qualifier des prospects et de planifier des réunions directement depuis des applications comme Gmail et Google Agenda. Il offre également un accès direct aux applications Salesforce Customer 360 au sein des outils Google, simplifiant ainsi l'accès aux données et la continuité des flux de travail pour les équipes commerciales et de service client.
Silvio Savarese, directeur scientifique de Salesforce, a déclaré : « Dans l'environnement de l'entreprise, il est impératif que les agents d'IA soient extrêmement performants et cohérents, en particulier pour les cas d'utilisation critiques […] Ensemble, nous établissons une nouvelle norme pour construire l'avenir de ce qui est possible dans l'entreprise agentique, jusqu'au niveau du modèle. »

