DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Les modèles d'IA crachent du « charabia » lorsqu'ils sont formés sur des données générées par l'IA

ParJeffrey GogoJeffrey Gogo
2 minutes de lecture -
IA
  • Une étude révèle que les modèles d'IA entraînés à l'aide de données générées par l'IA manquent de substance et de nuance.
  • Ces résultats constituent un nouveau défi pour les développeurs d'IA.
  • Les chercheurs appellent à la prudence quant aux données utilisées pour entraîner l'IA.

les grands modèles de langage (LLM) entraînés sur des versions antérieures de contenu généré par l'IA produisent des résultats manquant de substance et de nuances. Ces conclusions constituent un nouveau défi pour les développeurs d'IA, qui dépendent de jeux de données limités, générés par l'humain, pour la création de contenu.

À lire également : Les deepfakes créés par l’IA compliquent la tâche des autorités américaines pour protéger les enfants – rapport

Des chercheurs en intelligence artificielle des universités de Cambridge et d'Oxford, au Royaume-Uni, ont tenté de rédiger des questions à partir d'un ensemble de données composé exclusivement de contenu généré par l'IA. Le résultat n'a pas été concluant, car les réponses obtenues étaient incompréhensibles.

L'IA a toujours besoin des humains pour être compréhensible

L'un des auteurs de l'article, Zhakar Shumaylov, de l'Université de Cambridge, a déclaré qu'un contrôle de qualité des données alimentant les LLM (Low Linked Models), la technologie sous-jacente aux chatbots d'IA générative comme ChatGPT et Gemini de Google, est nécessaire. Shumaylov a ajouté :

« Le message est clair : nous devons être très prudents quant aux données qui se retrouvent dans nos entraînements. [Sinon,] les choses tourneront toujours mal, c'est inévitable. ».

Ce phénomène est connu sous le nom d’« effondrement du modèle », a précisé Shumaylov. Il a été démontré qu’il affecte tous les types de modèles d’intelligence artificielle, y compris ceux spécialisés dans la génération d’images à partir de requêtes textuelles.

D'après l' étude, les requêtes textuelles répétées, utilisant des données générées par l'IA sur un modèle donné, ont fini par produire des réponses incohérentes. Par exemple, les chercheurs ont constaté qu'un système testé avec un texte sur les clochers médiévaux du Royaume-Uni a produit une liste répétitive de lièvres après seulement neuf générations.

Commentant ces résultats, Hany Farid, informaticien à l'Université de Californie, a comparé l'effondrement des données aux problèmes inhérents à la consanguinité animale.

« Si une espèce pratique la consanguinité avec sa propre progéniture et ne diversifie pas son patrimoine génétique, cela peut conduire à l'effondrement de l'espèce », a déclaré Farid.

Lorsque les chercheurs ont intégré des données générées par l'humain aux données de l'IA, l'effondrement s'est produit plus lentement que lorsque le système fonctionnait uniquement avec du contenu généré par l'IA.

IA
Les modèles d'IA produisent des résultats incohérents lorsqu'ils sont entraînés sur des données générées par l'IA.

Des chercheurs affirment que l'IA pourrait aggraver les préjugés envers les groupes minoritaires

Les modèles de langage fonctionnent en établissant des associations entre les tokens (mots ou parties de mots) dans de vastes corpus de textes, souvent extraits d'Internet. Ils génèrent du texte en proposant le mot suivant le plus probable statistiquement, en se basant sur ces schémas appris.

À lire également : Poe, l’ours en peluche propulsé par ChatGPT, lit des histoires aux enfants avant de dormir.

L'étude, publiée dans la revue Nature le 24 juillet, a montré que les informations mentionnées à quelques reprises dans des ensembles de données ont peu de chances d'être répétées. Les chercheurs craignent que cela n'ait un impact négatif sur des groupes minoritaires déjà marginalisés.

Pour éviter l'effondrement du modèle dans des cas d'utilisation concrets, l'étude suggère d'apposer un filigrane sur les contenus générés par l'IA et ceux générés par les humains. Cependant, elle souligne que cette solution pourrait également posermatic en raison d'un manque de coordination entre les entreprises concurrentes spécialisées dans l'IA.

Les conclusions de cette étude interviennent à un moment où le débat s'intensifie sur la question de savoir si l'IA entraînera l'exclusion totale des humains de la création de contenu, notamment de la rédaction de romans et d'articles de journaux.

Intitulée « Les modèles d'IA s'effondrent lorsqu'ils sont entraînés sur des données générées de manière récursive », l'étude met fin à ce débat : les humains ne sont pas encore écartés de l'équation.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Jeffrey Gogo

Jeffrey Gogo

Jeffrey Gogo est un journaliste cumulant 20 ans d'expérience dans l'actualité et l'analyse des affaires, de la finance et du changement climatique. Ses articles ont été publiés par la Fondation Thomson Reuters, le Zimbabwe Herald et plusieurs publications en ligne. Il a également beaucoup écrit sur l'intelligence artificielle et le métavers et couvre les marchés des cryptomonnaies depuis 2017. Gogo a étudié le journalisme et la communication de masse au CCOSA de Harare.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES