O Google está sob novo escrutínio depois que um executivo sênior testemunhou que os produtos de inteligência artificial (IA) específicos para buscas da empresa, como o AI Overviews, são treinados com conteúdo de editores, mesmo quando esses editores optaram explicitamente por não participar do treinamento de IA.
Eli Collins, vice-presidente dent Google DeepMind, reconheceu na sexta-feira em um tribunal federal que, embora os editores possam impedir que seu conteúdo seja usado para treinar modelos de IA desenvolvidos pelo DeepMind, essas opções de exclusão não se aplicam à organização de buscas do Google em geral.
“Uma vez que você pega o Gemini [modelo de IA] e o coloca dentro da organização de busca, a organização de busca tem a capacidade de treinar com os dados que os editores optaram por não usar no treinamento, correto?”, perguntou Diana Aguilar, advogada do Departamento de Justiça dos EUA (DOJ).
Collins confirmou que os dados ainda poderiam ser usados “para fins de pesquisa”
Essa revelação surge em meio a um julgamento antitruste crucial que determina como a empresa de tecnologia deve reestruturar suas operações após ter sido considerada culpada, no ano passado, de monopolizar ilegalmente o mercado de buscas online. O Departamento de Justiça está agora pressionando por medidas estruturais, incluindo obrigar a empresa a se desfazer do navegador Chrome e proibir acordos que o tornem o mecanismo de busca padrão em todos os dispositivos — uma medida que também afetaria os produtos de IA , incluindo o Gemini.
O Google utiliza conteúdo que, segundo as editoras, não foi autorizado a usar em suas ferramentas de IA
O recurso Visão Geral com IA do Google , que resume as respostas no topo dos resultados de pesquisa usando texto gerado por IA, já alarmou os editores de sites. Muitos argumentam que ele reduz os cliques dos usuários nos sites originais e prejudica sua receita, mas a empresa de tecnologia continua usando dados dessas fontes.
Em um documento apresentado pelo Departamento de Justiça dos EUA, datado de 26 de agosto de 2024 e intitulado “Search GenAI <> Gemini v3”, dados internos mostraram que o Google filtrou cerca de 80 bilhões de tokens — essencialmente trechos de texto — de seu conjunto de treinamento de 160 bilhões de tokens, em resposta a solicitações de exclusão por parte de editores. No entanto, os 80 bilhões de tokens restantes ainda podem incluir conteúdo que alimenta os recursos de IA da Busca do Google.
O mesmo documento também listou “dados de sessões de pesquisa” e vídeos do YouTube como fontes adicionais para aprimorar o treinamento de IA, levantando preocupações sobre o escopo dos dados do usuário que estão sendo inseridos nos modelos de IA da empresa de tecnologia.
Quando o juiz Amit Mehta perguntou se metade do conjunto de dados havia sido de fato removida devido a opções de exclusão da editora, Collins confirmou: "Isso mesmo"
O Departamento de Justiça destaca o interesse interno em aproveitar os dados de busca para IA
O Departamento de Justiça destacou ainda discussões internas no Google que sugeriam ambições de treinar modelos de IA usando seus vastos acervos de dados de busca — classificações, consultas e comportamento do usuário.
Um desses exemplos incluiu um briefing preparado para o CEO da DeepMind, Demis Hassabis, no qual ele ponderou a ideia de treinar um modelo de IA do Google usando dados de pesquisa abrangentes para avaliar os ganhos de desempenho resultantes.
Aguilar perguntou a Collins se o Google havia construído um modelo usando dados de busca. Collins respondeu que não tinha conhecimento de nenhum modelo desse tipo em desenvolvimento, embora tenha reconhecido que Hassabis havia demonstrado interesse no conceito.
A equipe jurídica do Google tentou minimizar as preocupações com o domínio da IA, argumentando que outras empresas de IA podem prosperar sem depender do seu índice de busca. Por exemplo, chatbots esportivos podem acessar dados em tempo real por meio de parcerias comerciais com provedores de placares, e não por meio de conteúdo rastreado da web.
Ainda assim, o Departamento de Justiça sustenta que o domínio de longa data do Google nas buscas lhe confere uma vantagem injusta no espaço da IA, principalmente à medida que integra o Gemini à sua infraestrutura de buscas.
O Google enfrenta um escrutínio ainda maior em seu negócio de publicidade
O Google, da Alphabet, também enfrentará um julgamento em setembro devido às propostas das autoridades antitruste para forçar a empresa a vender parte de seu negócio de tecnologia de publicidade. As mudanças propostas visam combater o domínio da empresa sobre as ferramentas usadas por editores online para vender anúncios digitais.
A juíza distrital Leonie Brinkema, em Alexandria, Virgínia, marcou a data do julgamento após ouvir o Google e o Departamento de Justiça sobre possíveis soluções. Espera-se que ambas as partes apresentem propostas detalhadas até segunda-feira.
O Departamento de Justiça está buscando que a empresa de tecnologia se desfaça de seus negócios de troca de anúncios e servidores de anúncios para editores — um processo que deve levar vários anos, de acordo com a advogada do Departamento de Justiça, Julia Tarver Wood.
A advogada do Google, Karen Dunn, rebateu, afirmando que a empresa apoia medidas comportamentais, como permitir que os concorrentes façam lances em tempo real. No entanto, ela argumentou que o Departamento de Justiça não pode obrigar legalmente a empresa a vender partes de seus negócios. Dunn afirmou ainda que tal medida prejudicaria os usuários da internet e enfrentaria desafios devido à falta de compradores interessados.

