DERNIÈRES NOUVELLES

ZCash peut-il survivre à la crise d'approvisionnement qui a fait chuter le ZEC de 53 % ?

Actualités d'il y a 9 minutes
Arthur Hayes affirme « Je n'ai pas acheté » suite au transfert de 2 millions de dollars de HYPE

Actualités d'il y a 46 minutes
ZachXBT et Arthur Hayes, cofondateur de BitMEX, s'affrontent au sujet d'une accusation de « liquidité de sortie »

Actualités du 6 juin 2026
Twenty One Capital retrouve l'intégralité de son comité d'audit suite à la nomination d'un administrateurdent par Tether

Actualités du 6 juin 2026

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

La prédiction multi-jetons triple la vitesse des modèles d'IA, selon Meta

Par

Aamir Sheikh

2 minutes de lecture - 7 mai 2024

Une étude de recherche menée par des méta-chercheurs montre que les prédictions multi-jetons peuvent améliorer les performances des LLM.
Cette technique consiste à utiliser plusieurs têtes de sortie pour effectuer des prédictions simultanément.
Cela ne nécessite aucun coût supplémentaire en termes de mémoire ou de temps, car le processus utilise la même architecture d'inférence de base.

Selon les chercheurs de Meta, entraîner les modèles de langage à prédire plusieurs jetons simultanément permet d'obtenir une meilleure efficacité d'échantillonnage.

Les grands modèles de langage comme Llama et ChatGPT sont généralement entraînés pour la prédiction du jeton suivant, mais avec cette nouvelle approche, de meilleures performances peuvent être obtenues.

Qu'est-ce que la technique de prédiction à jeton unique ?

La technique de prédiction multi-jetons offre un avantage considérable dans certains scénarios, avec une vitesse trois fois supérieure à celle des tâches génératives. Cependant, elle ne constitue pas une solution universelle pour tous les types de modèles. Cette technique présente un potentiel d'amélioration important et peut devenir un outil robuste pour certaines applications LLM.

Pour une compréhension plus claire, on peut dire que le processus traditionnel d'entraînement des LLM utilise une approche appelée « prédiction du jeton suivant », et de cette manière, un modèle prédit uniquement le jeton futur suivant dans une séquence donnée.

Dans un processus automatisé, le jeton prédit est ajouté à l'entrée, et le processus est répété encore et encore sur l'ensemble du texte fourni afin que le modèle apprenne les schémas communs et développe la capacité de produire une sortie composée d'un texte logique et cohérent.

Cette technique présente certains inconvénients, car en ne traitant que le jeton suivant, le modèle se concentre trop sur les schémas locaux du texte et ignore les prédictions qui ne peuvent être faites que par le raisonnement.

Un autre problème de cette technique est qu'elle nécessite d'alimenter le modèle avec d'énormes quantités de données pour atteindre le flux normal de production langagière que les humains peuvent réaliser avec très peu de texte.

La prédiction multi-jetons permet une vitesse 3 fois supérieure

Dans la nouvelle approche multi-jetons proposée par Meta, le modèle linéaire à longue portée (LLM) est entraîné à prédire simultanément plusieurs jetons à partir de différentes positions. Les chercheurs ont utilisé une architecture de prédiction simple pour la prédiction multi-jetons, ne nécessitant pas de ressources supplémentaires telles que le temps de traitement et la mémoire.

Les chercheurs ont utilisé la même architecture Transformer que celle déjà utilisée par la plupart des LLM, mais ils ont apporté quelques modifications pour prendre en charge la prédiction de plusieurs jetons en augmentant le nombre de têtes de sortie de une à plusieurs et en en allouant une à chaque jeton.

Ainsi, pour tirer des conclusions et faire des prédictions, le modèle utilise la même stratégie de prédiction de base, mais en exploitant plusieurs points de vue, il accélère le processus. L'étude indique :

« Bien que gratuite et simple, la prédiction multi-jetons est une modification efficace pour entraîner des modèles de transformateurs plustronet plus rapides. »
Source : Meta.

Les chercheurs ont constaté au cours de l'étude que la technique donnait des résultats médiocres lorsqu'elle était utilisée sur des modèles de petite taille, mais que les résultats devenaient supérieurs à la moyenne lorsqu'ils appliquaient le même processus à des modèles plus grands, et que les résultats continuaient de s'améliorer avec la taille du modèle. Comme l'indique l'étude,

« La méthode est de plus en plus utile pour les modèles de grande taille et conserve tout son intérêt lors de l'entraînement sur plusieurs époques. Les gains sont particulièrement marqués sur les benchmarks génératifs comme le codage, où nos modèles surpassent systématiquement les référencestronde plusieurs points de pourcentage. »
Source : Meta.

Les chercheurs ont également indiqué que la technique de prédiction multi-jetons permettait également au modèle de produire des résultats logiques trois fois plus rapidement, ce qui est utile sans frais supplémentaires ou à très faibles coûts.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Aamir Sheikh

Aamir est un journaliste spécialisé dans les technologies, fort de près de six ans d'expérience dans les secteurs des cryptomonnaies et des technologies. Diplômé de l'université MAJ avec un MBA en finance et marketing, il travaille actuellement pour Cryptopolitan, où il couvre l'actualité des marchés des cryptomonnaies et propose des prévisions de prix.

TABLE DES MATIÈRES

1. Qu'est-ce que la technique de prédiction à jeton unique ?

2. La prédiction multi-jetons permet une vitesse 3 fois supérieure

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, John Palmer, technicien

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, John Palmer, technicien

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)