Recentemente, uma mudança significativa vem ocorrendo. Os principais sites estão começando a proteger seu conteúdo contra gigantes da tecnologia como Google e OpenAI. Essa medida altera a relação de longa data entre editores da web e mecanismos de busca. A mudança é impulsionada pela ascensão das tecnologias de inteligência artificial (IA).
Os sites protegem seu conteúdo
Tradicionalmente, os sites utilizam uma ferramenta simples, porém poderosa, conhecida como `robots.txt`, para gerenciar a interação dos mecanismos de busca com seu conteúdo. Essa configuração permitia que os sites se beneficiassem do tráfego direcionado pelos mecanismos de busca. No entanto, modelos avançados de IA introduziram novas complexidades a essa relação. Empresas como a OpenAI e o Google têm utilizado vastas quantidades de conteúdo online para treinar seus sistemas de IA. Essas IAs agora podem responder diretamente às consultas dos usuários, reduzindo a necessidade de os usuários visitarem os sites originais. Elas interrompem o fluxo de tráfego dos mecanismos de busca para esses sites.
Em resposta, o Google introduziu um novo protocolo chamado Google Extended. Ele permite que sites bloqueiem o uso de seu conteúdo para o treinamento de modelos de IA. O protocolo foi lançado em setembro do ano passado e já foi adotado por cerca de 10% dos 1.000 sites mais populares. Isso inclui nomes de grande destaque como The New York Times e CNN.
Comparando a adoção e olhando para o futuro
Embora o Google Extended represente um passo em direção ao controle do conteúdo dos sites, sua taxa de adoção ainda está atrás de outras ferramentas, como o GPTBot da OpenAI. Essa hesitação pode decorrer da preocupação com a visibilidade em futuros resultados de busca baseados em IA. Sites que bloqueiam o acesso ao seu conteúdo correm o risco de serem ignorados pelos modelos de IA, podendo perder a oportunidade de aparecer em respostas a consultas relevantes.
O caso do The New York Times é particularmente revelador. A publicação entrou em uma disputa de direitos autorais com a OpenAI. Desde então, adotou uma postura firme, utilizando o Google Extended para bloquear o acesso ao seu conteúdo para treinamento de modelos de IA.
A Experiência Generativa de Busca (SGE, na sigla em inglês) experimental do Google indica uma possível mudança na forma como as informações são selecionadas e apresentadas aos usuários. Ela destaca o conteúdo gerado por IA em detrimento dos métodos de busca tradicionais. As decisões tomadas por empresas de tecnologia e editores da web moldarão o ecossistema digital e influenciarão a forma como as informações são acessadas e consumidas na era da IA.

