Une analyse menée par Press Gazette a révélé qu'une part importante des 100 principaux sites d'information en langue anglaise mettent en œuvre des mesures pour empêcher d'exploration d'IA d'accéder à leur contenu. Sur les 106 sites examinés, 45 ne présentaient aucun blocage de robots d'exploration d'IA, tandis que les autres appliquaient différents niveaux de restriction.
Analyse des tendances de blocage des robots d'exploration IA sur les principaux sites d'information
Parmi les sites d'actualités étudiés, plus de quatre sur dix autorisent tous les robots d'exploration web dotés d'IA à extraire leur contenu sans aucune restriction. Cependant, une part importante, soit 61 sites, impose des restrictions en bloquant au moins un robot d'exploration. Notamment, 32 sites vont plus loin en bloquant deux robots d'exploration ou plus, certains en interdisant même jusqu'à cinq.
En tête de liste des robots d'exploration d'IA bloqués figure GPTBot, le robot d'exploration web associé à ChatGPT et développé par OpenAI. Un pourcentage impressionnant de 56,6 % des sites web analysés interdisent l'accès à GPTBot. Juste derrière, on trouve Google-Extended, un autre robot d'exploration fréquemment bloqué, utilisé par le chatbot IA de Google, Gemini (anciennement nommé Bard).
De plus, les robots d'exploration tels que Claude-Web, Claudebot, anthropic-ai, Cohere-ai, Perplexity-ai, Seekr et Meltwater sont confrontés à des degrés de restriction variables sur les sites Web étudiés.
Principales exclusions et inclusions
Alors que certains grands éditeurs choisissent de bloquer certains robots d'indexation, d'autres préfèrent ne pas imposer de restrictions. Par exemple, Mirror, Express, Manchester Evening News, Ladbible, Unilad et les publications du groupedent et Evening Standard, propriété de Lebedev, autorisent un accès illimité aux robots d'indexation.
De même, Politico, filiale d'Axel Springer, autorise l'accès aux robots d'exploration d'IA grâce à un accord de partage de contenu avec OpenAI.
Contre toute attente, le Daily Beast, propriété d'IAC, s'abstient de bloquer les robots d'exploration basés sur l'IA, malgré les plaidoyers de son président en faveur d'une rémunération des éditeurs par les entreprises spécialisées en IA. À l'inverse, certains sites web politiquement conservateurs, tels que GB News, Newsmax, Zero Hedge, Breitbart et Fox News, choisissent de ne pas bloquer ces robots, se démarquant ainsi des autres publications du groupe Murdoch.
Implications et perspectives d'avenir
Les différentes approches adoptées par les éditeurs de presse concernant l'accès des robots d'exploration d'IA reflètent le débat actuel sur l'utilisation des contenus et les droits de propriété intellectuelle à l'ère numérique. Si certains éditeurs privilégient un contrôle strict de leurs contenus afin de se prémunir contre toute utilisation non autorisée et de maîtriser leur diffusion, d'autres privilégient l'accessibilité et la collaboration avec des entreprises spécialisées en IA pour la diffusion et l'innovation des contenus.
Face à cette évolution constante du paysage, il reste à voir comment les éditeurs, les entreprises d'IA et les organismes de réglementation géreront le contexte complexe à l'intersection de la technologie, de la propriété du contenu et de la protection de la vie privée des utilisateurs.
Les décisions prises par les éditeurs de presse concernant l'accès des robots d'exploration d'IA ont un impact non seulement sur la diffusion de l'information, mais aussi sur le débat plus large autour de l'utilisation du contenu numérique et des droits de propriété intellectuelle.

