que grandes modelos de linguagem (LLMs, na sigla em inglês) treinados com iterações anteriores de material gerado por IA produzem resultados que carecem de substância e nuances. As descobertas representam um novo desafio para os desenvolvedores de IA, que dependem de conjuntos de dados limitados gerados por humanos para a obtenção de conteúdo.
Leia também: Deepfakes criados com IA estão dificultando a proteção de crianças pelas autoridades americanas – reportagem
Pesquisadores de inteligência artificial das Universidades de Cambridge e Oxford, no Reino Unido, tentaram criar perguntas usando um conjunto de dados composto exclusivamente por conteúdo gerado por IA. O resultado não foi o ideal, pois produziu respostas incompreensíveis.
A IA ainda precisa de humanos para fazer sentido
Um dos autores do artigo, Zhakar Shumaylov, da Universidade de Cambridge, afirmou que é necessário controle de qualidade nos dados que alimentam os LLMs, a tecnologia por trás de chatbots de IA generativa como o ChatGPT e o Gemini do Google. Shumaylov disse:
“A mensagem é que precisamos ter muito cuidado com o que acaba em nossos dados de treinamento. [Caso contrário,] as coisas sempre darão errado, comprovadamente.”.
O fenômeno é conhecido como "colapso do modelo", detalhou Shumaylov. Foi comprovado que ele afeta todos os tipos de modelos de inteligência artificial, incluindo aqueles especializados em geração de imagens a partir de instruções de texto.
De acordo com o estudo , a repetição de textos usando dados gerados por IA em um modelo resultou em uma sequência de palavras sem sentido. Por exemplo, os pesquisadores descobriram que um sistema testado com texto sobre as torres das igrejas medievais do Reino Unido produziu uma lista repetitiva de lebres-da-califórnia (jackrabbits) após apenas nove gerações.
Ao comentar os resultados, o cientista da computação da Universidade da Califórnia, Hany Farid, comparou o colapso dos dados aos desafios inerentes à endogamia em animais.
“Se uma espécie se reproduz endogâmicamente com seus próprios descendentes e não diversifica seu patrimônio genético, isso pode levar ao colapso da espécie”, disse Farid.
Quando os pesquisadores inseriram dados gerados por humanos nos dados de IA, o colapso ocorreu mais lentamente do que quando o sistema estava sendo executado apenas com conteúdo gerado por IA.

Pesquisadores: IA pode agravar preconceitos contra grupos minoritários
Os modelos de linguagem funcionam construindo associações entre tokens — palavras ou partes de palavras — em grandes quantidades de texto, geralmente extraídas da internet. Eles geram texto ao sugerir a próxima palavra estatisticamente mais provável, com base nesses padrões aprendidos.
Leia também: O ursinho de pelúcia Poe, com tecnologia ChatGPT, lê histórias para crianças na hora de dormir.
O estudo, publicado na revista Nature em 24 de julho, mostrou que informações mencionadas algumas vezes em conjuntos de dados provavelmente não se repetirão. Os pesquisadores temem que isso possa impactar negativamente grupos minoritários já marginalizados.
Para evitar o colapso do modelo em casos de uso reais, o estudo sugeriu a aplicação de marcas d'água em conteúdo gerado por IA e conteúdo gerado por humanos. No entanto, isso também poderia sermatic devido à falta de coordenação entre empresas de IA concorrentes, segundo o estudo.
As conclusões do estudo surgem num momento em que se intensifica o debate sobre se a IA resultará na exclusão total dos humanos na criação de conteúdo, incluindo a escrita de romances e artigos de jornal.
Intitulado "Modelos de IA entram em colapso quando treinados com dados gerados recursivamente", o estudo pôs fim a esse debate – os humanos ainda não estão sendo removidos da equação.

