L'essor des grands modèles de langage : transformer la génération de texte par l'IA

Par

Brian Koome

3 minutes de lecture - 14 novembre 2023

Les grands modèles de langage (LLM) sont devenus une force prépondérante dans le domaine de l'intelligence artificielle.
Les grands modèles de langage tracleur origine dans l'introduction des réseaux neuronaux profonds.
La formation des étudiants en droit (LLM) nécessite un corpus massif de données textuelles.

Les grands modèles de langage (GML) sont devenus un élément incontournable de l'intelligence artificielle, révolutionnant notre façon d'interagir avec le texte et de le générer. Leur essor remonte tracl'introduction des réseaux neuronaux profonds, et plus particulièrement de l'architecture Transformer en 2017.

Cette innovation a ouvert la voie à l'évolution des modèles de langage conventionnels vers les grands modèles de langage (LLM). Les LLM sont conçus pour gérer une multitude de tâches liées au texte, notamment la génération de texte, la génération de code, la synthèse, la traduction et la reconnaissance vocale. Il est toutefois important de reconnaître que les LLM présentent certaines limitations.

Un inconvénient majeur réside dans la qualité des textes générés, souvent inférieure aux standards humains, et qui peut même parfois produire des contenus absurdes, voire erronés. Les modèles linguistiques automatisés (MLA) sont également connus pour générer des « hallucinations », inventant des faits qui peuvent paraître plausibles à ceux qui ignorent leurs inexactitudes. De plus, les traductions générées par les MLA sont rarement parfaites sans relecture humaine, et le code produit par ces modèles peut contenir des bogues ou être non fonctionnel. Bien que des efforts soient déployés pour empêcher les MLA de tenir des propos controversés ou de promouvoir des activités illégales, des messages malveillants peuvent parfois contourner ces protections.

L'entraînement des modèles de langage (LLM) nécessite un vaste corpus de données textuelles. Parmi les jeux de données utilisés figurent le 1B Word Benchmark, Wikipédia, le Toronto Books Corpus, Common Crawl et les dépôts GitHub publics et open source. Cependant, les grands corpus de données textuelles soulèvent des problèmes de droits d'auteur, et plusieurs actions en justice sont actuellement en cours à ce sujet. Des efforts sont déployés pour répondre à ces préoccupations, comme en témoigne le Colossal Clean Crawled Corpus (C4), un jeu de données de 800 Go dérivé de Common Crawl et ayant fait l'objet d'un nettoyage rigoureux.

Les modèles de langage (LLM) se distinguent des modèles de langage traditionnels par leur utilisation de réseaux neuronaux profonds et la nécessité de millions, voire de milliards, de paramètres (poids) dans ces réseaux. Avec les progrès du domaine, la taille des LLM a considérablement augmenté, certains modèles comme GPT-3 atteignant le nombre impressionnant de 175 milliards de paramètres. Cependant, cette augmentation du nombre de paramètres a des conséquences : les modèles plus volumineux requièrent davantage de mémoire et sont plus lents. Notamment, des LLM plus petits ont également vu le jour en 2023, offrant ainsi des options adaptées à différentes ressources de calcul.

Historique des modèles de génération de texte

Les modèles de génération de texte ont une longue histoire, remontant aux travaux d'Andrey Markov en 1913, qui appliquait lesmaticà la poésie et introduisait le concept de chaînes de Markov pour les prédictions au niveau des caractères. Claude Shannon a étendu ces travaux en 1948, et plus tard, Fred Jelinek et Robert Mercer ont appliqué des modèles statistiques de langage à la reconnaissance vocale en temps réel.

Au XXIe siècle, les réseaux de neurones, et plus particulièrement les modèles de réseaux de neurones autorégressifs à propagation avant, ont remplacé les modèles statistiques traditionnels. Ces modèles neuronaux ont considérablement amélioré la précision de la prédiction des mots par rapport aux méthodes précédentes, donnant naissance à ce que l'on appelle aujourd'hui les grands modèles de langage.

Les modèles de langage modernes servent à diverses fins, notamment la génération de texte, la classification, la réponse aux questions, l'analyse des sentiments, la reconnaissance d'entités, la reconnaissance vocale et manuscrite, et bien plus encore. La personnalisation pour des tâches spécifiques, appelée ajustement fin, est réalisée grâce à des ensembles d'entraînement supplémentaires.

Les tâches intermédiaires des modèles de langage comprennent divers processus tels que la segmentation des phrases, la tokenisation des mots, la racinisation, la lemmatisation, l'dentmorphosyntaxique, l'identification des mots vides, la reconnaissance d'entités nommées, la classification de textes, le découpage en segments et la résolution des coréférences. Ces tâches contribuent à la polyvalence des modèles de langage et à leur applicabilité à un large éventail de tâches de compréhension du langage naturel.

Comme mentionné précédemment, les grands modèles de langage se distinguent des modèles traditionnels par leurs réseaux neuronaux profonds, leurs vastes ensembles de données d'entraînement et leur grand nombre de paramètres. L'entraînement d'un grand modèle de langage consiste à optimiser ces paramètres afin de minimiser les erreurs dans la tâche désignée, souvent par le biais d'un apprentissage, comme la prédiction du mot suivant dans un corpus textuel.

Les LLM les plus populaires

L'essor récent des architectures LLM s'explique par l'article fondateur de 2017, « Attention is All You Need », qui a introduit l'architecture Transformer. Depuis, de nombreuses architectures LLM ont vu le jour, repoussant sans cesse les limites de la taille et des performances.

Les grands modèles de langage ont considérablement évolué, transformant en profondeur le paysage de la génération et de la compréhension de textes par l'IA. Si leurs capacités sont impressionnantes, leurs limites et les questions éthiques qu'ils soulèvent ne doivent pas être négligées. À mesure que le domaine progresse, trouver un équilibre entre la taille du modèle, son impact environnemental et la gestion des données devient crucial pour un développement et un déploiement responsables des grands modèles de langage.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brian Koome

Brian Koome possède plus de sept ans d'expérience dans le journalisme spécialisé en blockchain et cryptomonnaies, et est actif dans ce secteur depuis 2017. Il a collaboré avec des publications de référence, dont BlockToday.com. Par ailleurs, il a conçu le cours Ethereum 101 pour BitDegree.org avant de rejoindre Cryptopolitan en tant que rédacteur à temps plein. Brian rédige des guides pratiques, des analyses approfondies, des interviews et des analyses de prix. Son intérêt pour DeFi, l'innovation blockchain et les projets crypto émergents est très apprécié des lecteurs.

TABLE DES MATIÈRES

1. Historique des modèles de génération de texte

2. Les LLM les plus populaires

Partagez cet article