On observe depuis peu un changement significatif. Les principaux sites web commencent à protéger leur contenu contre les géants de la technologie comme Google et OpenAI. Cette évolution modifie la relation traditionnelle entre les éditeurs web et les moteurs de recherche. Ce changement est motivé par l'essor des technologies d'intelligence artificielle (IA).
Les sites web protègent leur contenu
Traditionnellement, les sites web utilisaient un outil simple mais puissant, le fichier `robots.txt`, pour gérer l'interaction des moteurs de recherche avec leur contenu. Ce système permettait aux sites de bénéficier du trafic généré par ces moteurs. Cependant, les modèles d'intelligence artificielle avancés ont complexifié cette relation. Des entreprises comme OpenAI et Google utilisent d'immenses quantités de contenu en ligne pour entraîner leurs systèmes d'IA. Ces IA peuvent désormais répondre directement aux requêtes des utilisateurs, réduisant ainsi la nécessité pour ces derniers de consulter les sites web d'origine. Elles perturbent le flux de trafic des moteurs de recherche vers ces sites.
En réponse, Google a introduit un nouveau protocole appelé Google Extended. Ce protocole permet aux sites web d'empêcher l'utilisation de leur contenu pour l'entraînement de modèles d'intelligence artificielle. Lancé en septembre dernier, il a été adopté par environ 10 % des 1 000 sites web les plus visités, dont des médias de renom comme le New York Times et CNN.
Comparaison de l'adoption et perspectives d'avenir
Bien que Google Extended représente un pas en avant vers un meilleur contrôle du contenu par les sites web, son taux d'adoption reste inférieur à celui d'autres outils comme GPTBot d'OpenAI. Cette hésitation pourrait s'expliquer par la crainte d'un manque de visibilité dans les futurs résultats de recherche basés sur l'IA. Les sites web qui bloquent l'accès à leur contenu risquent d'être ignorés par les modèles d'IA et de ne pas figurer parmi les réponses aux requêtes pertinentes.
Le cas du New York Times est particulièrement révélateur. Le journal est engagé dans un litige de droits d'auteur avec OpenAI. Depuis, il a adopté une position ferme en utilisant Google Extended pour bloquer l'accès à son contenu aux fins d'entraînement des modèles d'IA.
L'expérience expérimentale de recherche générative (SGE) de Google laisse entrevoir une transformation potentielle de la manière dont l'information est organisée et présentée aux utilisateurs. Elle met en avant le contenu généré par l'IA plutôt que les méthodes de recherche traditionnelles. Les décisions prises par les entreprises technologiques et les éditeurs web façonneront l'écosystème numérique et influenceront la manière dont l'information est consultée et consommée à l'ère de l'IA.

