🔥Liste d'accès anticipé : décrochez un emploi Web3 bien rémunéré en 90 jours APPRENDRE ENCORE PLUS

Les modèles d'IA crachent du « charabia » lorsqu'ils sont formés sur des données générées par l'IA

Dans cet article :

  • Selon une étude, les modèles d’IA formés à l’aide de données générées par l’IA manquent de substance et de nuances.
  • Les résultats présentent un nouveau défi pour les développeurs d’IA.
  • Les chercheurs appellent à la prudence quant aux données utilisées pour entraîner l’IA.

Selon une nouvelle étude, les grands modèles de langage (LLM) formés sur Les résultats présentent un nouveau défi pour les développeurs d’IA, qui s’appuient sur des ensembles limités de données générées par l’homme pour leur contenu.

A lire aussi : Les deepfakes de l'IA rendent difficile aux autorités américaines de protéger les enfants – rapport

Des chercheurs en intelligence artificielle de l’Université de Cambridge et de l’Université d’Oxford au Royaume-Uni ont tenté d’écrire des invites en s’appuyant sur un ensemble de données comprenant uniquement du contenu généré par l’IA. Le résultat n’a pas été idéal car il a suscité des réactions incompréhensibles.

L’IA a encore besoin des humains pour avoir un sens

L'un des auteurs de l'article, Zhakar Shumaylov de l'Université de Cambridge, a déclaré qu'il était nécessaire de contrôler la qualité des données qui alimentent les LLM, la technologie derrière les chatbots génératifs d'IA comme ChatGPT et Gemini de Google. Choumaïlov a dit :

« Le message est que nous devons faire très attention à ce qui se retrouve dans nos données d’entraînement. [Sinon,] les choses iront toujours, de manière prouvée, mal ».

Le phénomène est connu sous le nom d’« effondrement du modèle », a détaillé Shumaylov. Il a été prouvé qu’il affecte toutes sortes de modèles d’intelligence artificielle, y compris ceux spécialisés dans la génération d’images à l’aide d’invites textuelles.

Selon l' étude , la répétition d'invites de texte utilisant des données générées par l'IA sur un modèle a fini par générer du charabia. Par exemple, les chercheurs ont découvert qu'un système testé avec un texte sur les tours des églises médiévales du Royaume-Uni produisait une liste répétitive de lièvres après seulement neuf générations.

Voir aussi  Apple dévoile l’iPhone 16 amélioré par l’IA dans un contexte de concurrence mondiale

Commentant les résultats, Hany Farid, informaticien de l’Université de Californie, a comparé l’effondrement des données aux défis endémiques de la consanguinité animale.

"Si une espèce se reproduit avec sa propre progéniture et ne diversifie pas son pool génétique, cela peut conduire à son effondrement", a déclaré Farid.

Lorsque les chercheurs ont intégré des données générées par l’homme dans les données de l’IA, l’effondrement s’est produit plus lentement que lorsqu’ils fonctionnaient sur du contenu purement généré par l’IA.

IA
Les modèles d’IA produisent du charabia lorsqu’ils sont formés sur des données générées par l’IA.

Chercheurs : l’IA pourrait aggraver les préjugés contre les groupes minoritaires

Les modèles linguistiques fonctionnent en établissant des associations entre des jetons (mots ou parties de mots) dans de vastes pans de texte, souvent récupérés sur Internet. Ils génèrent du texte en crachant le mot suivant statistiquement le plus probable, sur la base de ces modèles appris.

A lire aussi : Poe, l'ours en peluche alimenté par ChatGPT, lit des histoires aux enfants avant d'aller au lit

L'étude, publiée dans la revue Nature le 24 juillet, a montré que les informations mentionnées à plusieurs reprises dans les ensembles de données sont susceptibles de ne pas être répétées. Les chercheurs craignent que cela puisse avoir un impact négatif sur les groupes minoritaires déjà marginalisés.

Pour éviter l’effondrement du modèle dans des cas d’utilisation réels, l’étude suggère de filigraner le contenu généré par l’IA et le contenu généré par l’homme. Mais cela pourrait aussi poser matic en raison d’un manque de coordination entre les sociétés d’IA rivales, ajoute-t-il.

Voir aussi  La Chine a 6 mois de retard sur les États-Unis en matière de produits d'IA

Les conclusions de l'étude surviennent à un moment où le débat s'intensifie sur la question de savoir si l'IA entraînera l'exclusion totale des humains dans la création de contenu, y compris l'écriture de romans et d'articles de journaux.

Intitulé « Les modèles d'IA s'effondrent lorsqu'ils sont entraînés sur des données générées de manière récursive », les résultats de l'étude mettent un terme à ce débat : les humains ne sont pas encore retirés de l'équation.

Lien de partage:

Clause de non-responsabilité. Les informations fournies ne sont pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous tron vivement dent recherches indépendantes et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Les plus lus

Chargement des articles les plus lus...

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Nouvelles connexes

L'Irlande va enquêter sur le modèle d'IA de Google pour des raisons de protection des données
cryptopolite
Abonnez-vous à CryptoPolitan

Intéressé à lancer votre carrière Web3 et à décrocher un emploi bien rémunéré en 90 jours ?

Des experts de premier plan du secteur vous montrent comment procéder avec ce tout nouveau cours : Crypto Career Launchpad

Rejoignez la liste d'accès anticipé ci-dessous et soyez le premier à savoir quand le cours ouvrira ses portes. Vous économiserez également 100 $ sur le prix de lancement régulier.