Google entraîne ses outils de recherche IA sur le contenu des éditeurs malgré les refus de retrait

Par

Nellius Irène

3 minutes de lecture - 3 mai 2025

Google entraîne ses outils de recherche IA sur le contenu des éditeurs malgré les refus de retrait

Google utilise le contenu des éditeurs pour entraîner ses outils de recherche IA, même lorsque les éditeurs s'y opposent.
Le ministère de la Justice américain fait pression pour que des changements majeurs soient apportés aux activités de Google, notamment la vente de sa branche technologique publicitaire.
Les éditeurs et les organismes de réglementation s'inquiètent de la manière dont Google utilise les données pour l'entraînement de son intelligence artificielle.

Google fait l'objet d'un nouvel examen minutieux après qu'un cadre supérieur a témoigné que les produits d'intelligence artificielle (IA) spécifiques à la recherche de l'entreprise, tels que AI Overviews, sont entraînés sur le contenu des éditeurs, même lorsque ces éditeurs ont explicitement refusé l'entraînement par l'IA.

Eli Collins, vice-présidentdent Google DeepMind, a reconnu vendredi devant un tribunal fédéral que si les éditeurs peuvent empêcher que leur contenu soit utilisé pour entraîner des modèles d'IA développés par DeepMind, ces options de retrait ne s'appliquent pas à l'ensemble de l'organisation de recherche de Google.

« Une fois que vous prenez le modèle d'IA Gemini et que vous l'intégrez à l'organisation de recherche, celle-ci a la possibilité de s'entraîner sur les données que les éditeurs ont refusé d'utiliser pour l'entraînement, n'est-ce pas ? » a demandé Diana Aguilar, avocate au ministère de la Justice américain (DOJ).

Collins a confirmé que les données pouvaient encore être utilisées « à des fins de recherche »

Cette révélation intervient en plein procès antitrust crucial visant à déterminer comment le géant technologique doit restructurer ses activités après avoir été reconnu coupable l'an dernier de monopole illégal sur le marché de la recherche en ligne. Le ministère de la Justice insiste désormais sur des mesures correctives structurelles, notamment la cession du navigateur Chrome et l'interdiction des accords qui en feraient le moteur de recherche par défaut sur tous les appareils – une mesure qui impacterait également les produits d'intelligence artificielle, dont Gemini.

Google alimente ses outils d'IA avec du contenu que les éditeurs affirment n'avoir pas autorisé

La fonctionnalité « Aperçu IA » de Google , qui résume les réponses en haut des résultats de recherche grâce à un texte généré par l'IA, inquiète déjà les éditeurs de sites web. Nombre d'entre eux affirment qu'elle réduit le nombre de clics vers les sites originaux et nuit à leurs revenus, pourtant Google continue d'exploiter les données issues de ces sources.

Dans un document du Département de la Justice américain daté du 26 août 2024 et intitulé « Search GenAI <> Gemini v3 », des données internes ont révélé que Google avait filtré environ 80 milliards de tokens (des extraits de texte) de son corpus d'entraînement de 160 milliards de tokens suite aux refus des éditeurs. Cependant, les 80 milliards de tokens restants pourraient encore contenir du contenu alimentant les fonctionnalités d'IA de Google Search.

Le même document mentionnait également les « données de sessions de recherche » et les vidéos YouTube comme sources supplémentaires pour améliorer l'entraînement de l'IA, ce qui soulève des inquiétudes quant à l'étendue des données utilisateur intégrées aux modèles d'IA de l'entreprise technologique.

Lorsque le juge Amit Mehta a demandé si la moitié des données avaient effectivement été supprimées en raison des refus des éditeurs, Collins a confirmé : « C'est exact. »

Le ministère de la Justice souligne son intérêt interne pour l'exploitation des données de recherche dans le cadre de l'IA

Le ministère de la Justice a également mis en lumière des discussions internes chez Google suggérant l'ambition d'entraîner des modèles d'IA en utilisant ses vastes quantités de données de recherche : classements, requêtes et comportements des utilisateurs.

Un exemple de ce type est une note d'information préparée pour Demis Hassabis, PDG de DeepMind, dans laquelle il envisageait la possibilité d'entraîner un modèle d'IA de Google à l'aide de données de recherche exhaustives afin d'évaluer les gains de performance qui en résulteraient.

Aguilar a demandé à Collins si Google avait élaboré un modèle à partir des données de recherche. Collins a répondu qu'il n'était pas au courant de l'existence d'un tel modèle en développement, tout en reconnaissant que Hassabis avait manifesté de l'intérêt pour ce concept.

L'équipe juridique de Google a tenté de minimiser les inquiétudes liées à la domination de l'IA, arguant que d'autres entreprises spécialisées dans l'IA peuvent prospérer sans exploiter son index de recherche. Par exemple, les chatbots sportifs peuvent accéder à des données en temps réel grâce à des partenariats commerciaux avec des fournisseurs de scores, et non par le biais de contenus collectés par indexation web.

Le ministère de la Justice maintient néanmoins que la domination de longue date de Google dans le domaine de la recherche lui confère un avantage injuste dans le domaine de l'IA, notamment grâce à l'intégration de Gemini dans son infrastructure de recherche.

Google fait l'objet d'un examen plus approfondi de son activité publicitaire

Alphabet (Google) devra également comparaître en septembre devant les autorités de la concurrence pour faire face à une proposition visant à contraindre l'entreprise à céder une partie de ses activités liées aux technologies publicitaires. Ces modifications proposées ont pour objectif de remédier à la position dominante de Google sur les outils utilisés par les éditeurs en ligne pour vendre des publicités numériques.

La juge fédérale Leonie Brinkema, siégeant à Alexandria, en Virginie, a fixé la date du procès après avoir entendu les arguments de Google et du ministère de la Justice concernant les solutions envisageables. Les deux parties devraient déposer des propositions détaillées d'ici lundi.

Le ministère de la Justice cherche à obtenir que la société technologique cède ses activités de plateforme d'échange publicitaire et de serveur publicitaire pour éditeurs – un processus qui devrait prendre plusieurs années, selon l'avocate du ministère, Julia Tarver Wood.

L'avocate de Google, Karen Dunn, a rétorqué que l'entreprise soutenait les mesures correctives comportementales, comme l'autorisation des enchères en temps réel pour les concurrents. Elle a toutefois soutenu que le ministère de la Justice ne pouvait légalement contraindre l'entreprise à vendre une partie de ses activités. Mme Dunn a par ailleurs affirmé qu'une telle mesure nuirait aux internautes et se heurterait à des difficultés en raison du manque d'acquéreurs potentiels.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Google

Partagez cet article

Nellius Irène

Nellius est diplômée en gestion d'entreprise et en informatique et possède cinq ans d'expérience dans le secteur des cryptomonnaies. Elle est également diplômée de Bitcoin Dada. Nellius a collaboré avec des publications médiatiques de premier plan, notamment BanklessTimes, Cryptobasic et Riseup Media.

TABLE DES MATIÈRES

1. Google alimente ses outils d'IA avec du contenu que les éditeurs affirment n'avoir pas autorisé

2. Le ministère de la Justice souligne son intérêt interne pour l'exploitation des données de recherche dans le cadre de l'IA

3. Google fait l'objet d'un examen plus approfondi de son activité publicitaire

Partagez cet article