les grands modèles de langage (LLM) entraînés sur des versions antérieures de contenu généré par l'IA produisent des résultats manquant de substance et de nuances. Ces conclusions constituent un nouveau défi pour les développeurs d'IA, qui dépendent de jeux de données limités, générés par l'humain, pour la création de contenu.
À lire également : Les deepfakes créés par l’IA compliquent la tâche des autorités américaines pour protéger les enfants – rapport
Des chercheurs en intelligence artificielle des universités de Cambridge et d'Oxford, au Royaume-Uni, ont tenté de rédiger des questions à partir d'un ensemble de données composé exclusivement de contenu généré par l'IA. Le résultat n'a pas été concluant, car les réponses obtenues étaient incompréhensibles.
L'IA a toujours besoin des humains pour être compréhensible
L'un des auteurs de l'article, Zhakar Shumaylov, de l'Université de Cambridge, a déclaré qu'un contrôle de qualité des données alimentant les LLM (Low Linked Models), la technologie sous-jacente aux chatbots d'IA générative comme ChatGPT et Gemini de Google, est nécessaire. Shumaylov a ajouté :
« Le message est clair : nous devons être très prudents quant aux données qui se retrouvent dans nos entraînements. [Sinon,] les choses tourneront toujours mal, c'est inévitable. ».
Ce phénomène est connu sous le nom d’« effondrement du modèle », a précisé Shumaylov. Il a été démontré qu’il affecte tous les types de modèles d’intelligence artificielle, y compris ceux spécialisés dans la génération d’images à partir de requêtes textuelles.
D'après l' étude , les requêtes textuelles répétées, utilisant des données générées par l'IA sur un modèle donné, ont fini par produire des réponses incohérentes. Par exemple, les chercheurs ont constaté qu'un système testé avec un texte sur les clochers médiévaux du Royaume-Uni a produit une liste répétitive de lièvres après seulement neuf générations.
Commentant ces résultats, Hany Farid, informaticien à l'Université de Californie, a comparé l'effondrement des données aux problèmes inhérents à la consanguinité animale.
« Si une espèce pratique la consanguinité avec sa propre progéniture et ne diversifie pas son patrimoine génétique, cela peut conduire à l'effondrement de l'espèce », a déclaré Farid.
Lorsque les chercheurs ont intégré des données générées par l'humain aux données de l'IA, l'effondrement s'est produit plus lentement que lorsque le système fonctionnait uniquement avec du contenu généré par l'IA.

Des chercheurs affirment que l'IA pourrait aggraver les préjugés envers les groupes minoritaires
Les modèles de langage fonctionnent en établissant des associations entre les tokens (mots ou parties de mots) dans de vastes corpus de textes, souvent extraits d'Internet. Ils génèrent du texte en proposant le mot suivant le plus probable statistiquement, en se basant sur ces schémas appris.
À lire également : Poe, l’ours en peluche propulsé par ChatGPT, lit des histoires aux enfants avant de dormir.
L'étude, publiée dans la revue Nature le 24 juillet, a montré que les informations mentionnées à quelques reprises dans des ensembles de données ont peu de chances d'être répétées. Les chercheurs craignent que cela n'ait un impact négatif sur des groupes minoritaires déjà marginalisés.
Pour éviter l'effondrement du modèle dans des cas d'utilisation concrets, l'étude suggère d'apposer un filigrane sur les contenus générés par l'IA et ceux générés par les humains. Cependant, elle souligne que cette solution pourrait également posermatic en raison d'un manque de coordination entre les entreprises concurrentes spécialisées dans l'IA.
Les conclusions de cette étude interviennent à un moment où le débat s'intensifie sur la question de savoir si l'IA entraînera l'exclusion totale des humains de la création de contenu, notamment de la rédaction de romans et d'articles de journaux.
Intitulée « Les modèles d'IA s'effondrent lorsqu'ils sont entraînés sur des données générées de manière récursive », l'étude met fin à ce débat : les humains ne sont pas encore écartés de l'équation.

