Lors du lancement de son chatbot ChatGPT, OpenAI a également dévoilé son robot d'exploration web, GPTBot. Ce dernier fonctionne de la même manière qu'un robot Google, et les propriétaires de sites web peuvent bloquer son accès à leurs sites via le fichier robots.txt. OpenAI a d'ailleurs fourni une option pour bloquer son robot. Selon une étude d'Originality.AI, environ 48 % des sites web ont bloqué son accès. Par la suite, Google a annoncé un robot distinct, Google Extended, permettant aux webmasters de bloquer ses outils d'IA sans impacter son robot de recherche.
Débat en cours sur les robots d'intelligence artificielle
Depuis le lancement de ChatGPT, la question de l'exploitation de sa capacité à bloquer l'accès aux sites à certains robots d'intelligence artificielle fait l'objet d'un débat constant. Aucune solution unique ne peut satisfaire l'ensemble des parties prenantes, car la discussion à ce sujet persiste au sein du secteur du référencement et dans la quasi-totalité des publications en ligne. La question de l'impact pratique du blocage de ces robots reste toutefois posée, étant donné que de nombreux services parcourent le web sans autorisation.
Un argument en faveur de cette théorie est que le robot d'exploration d'OpenAI a été annoncé assez tardivement. L'entreprise a probablement utilisé diverses méthodes pour collecter des données, qu'elle qualifie de largement disponibles sur le web. Le problème est que les entreprises peuvent utiliser des robots sous différents noms et auprès de différents fournisseurs ; par conséquent, si l'on bloque un nouveau robot, il est impossible de récupérer les données qu'il a déjà collectées.
Cela a facilité la tâche aux sites de scraping pour générer du contenu à partir de ces mêmes robots entraînés sur vos données, celles produites par l'humain.
Ils veulent votre contenu
Certains pourraient penser que les entreprises d'IA ne veulent pas de leur contenu et qu'elles seront un jour capables de produire un contenu d'une qualité équivalente. C'est un problème très préoccupant pour les sites axés sur le contenu. Cela soulève également des questions quant à l'efficacité et la pertinence des pratiques de référencement (SEO) actuelles. Un autre problème réside dans le grand nombre de sites produisant le même contenu. Par conséquent, compte tenu de ces éléments, certains secteurs pourraient bloquer massivement les robots d'IA.
Les experts favorables à l'accès à des services comme les bots ChatGPT fondent leur argument sur le fait que ChatGPT n'est pas utilisé comme un moteur de recherche, mais comme un assistant, notamment pour la création de code, la traduction et la création de contenu. Ils ajoutent que la part de marché de Bing n'a augmenté que de 1 % depuis l'intégration de ChatGPT. Actuellement, Google affirme que son bot d'IA est indépendant, mais l'avenir reste incertain, car Google prévoit d'intégrer l'IA à ses résultats de recherche.
Les partisans de cette pratique affirment également que le problème ne se limite pas à les chatbots. Selon eux, si ces derniers mentionnent votre marque, cela lui confère une visibilité accrue auprès d'un public plus large. De plus, bloquer leur accès empêche que vos idées ne soient prises en compte dans la formation des futurs responsables de la formation. Cependant, il existe untronque, dans le futur, des clones de marques et de produits soient générés par ces mêmes modèles, ce qui ne fera qu'amplifier le problème des deepfakes.
La menace que représentent les modèles d'IA pour le référencement naturel et Google ne réside pas dans une concurrence directe, mais plutôt dans un outil permettant de générer du contenu à grande échelle. Cette situation perturbe la recherche, car elle crée des problèmes pour Google et Bing et capte le trafic qui serait autrement généré par du contenu humain. En fin de compte, la décision d'autoriser ou non un bot dépend des préférences de chaque individu (blogueur) ou de chaque entreprise (éditeur), après analyse de leurs priorités.

