La prédiction multi-jetons triple la vitesse des modèles d'IA, selon Meta

- Une étude de recherche menée par des méta-chercheurs montre que les prédictions multi-jetons peuvent améliorer les performances des LLM.
- Cette technique consiste à utiliser plusieurs têtes de sortie pour effectuer des prédictions simultanément.
- Cela ne nécessite aucun coût supplémentaire en termes de mémoire ou de temps, car le processus utilise la même architecture d'inférence de base.
Selon les chercheurs de Meta, entraîner les modèles de langage à prédire plusieurs jetons simultanément permet d'obtenir une meilleure efficacité d'échantillonnage.
Les grands modèles de langage comme Llama et ChatGPT sont généralement entraînés pour la prédiction du jeton suivant, mais avec cette nouvelle approche, de meilleures performances peuvent être obtenues.
Qu'est-ce que la technique de prédiction à jeton unique ?
La technique de prédiction multi-jetons offre un avantage considérable dans certains scénarios, avec une vitesse trois fois supérieure à celle des tâches génératives. Cependant, elle ne constitue pas une solution universelle pour tous les types de modèles. Cette technique présente un potentiel d'amélioration important et peut devenir un outil robuste pour certaines applications LLM.
Pour une compréhension plus claire, on peut dire que le processus traditionnel d'entraînement des LLM utilise une approche appelée « prédiction du jeton suivant », et de cette manière, un modèle prédit uniquement le jeton futur suivant dans une séquence donnée.
Dans un processus automatisé, le jeton prédit est ajouté à l'entrée, et le processus est répété encore et encore sur l'ensemble du texte fourni afin que le modèle apprenne les schémas communs et développe la capacité de produire une sortie composée d'un texte logique et cohérent.
Cette technique présente certains inconvénients, car en ne traitant que le jeton suivant, le modèle se concentre trop sur les schémas locaux du texte et ignore les prédictions qui ne peuvent être faites que par le raisonnement.
Un autre problème de cette technique est qu'elle nécessite d'alimenter le modèle avec d'énormes quantités de données pour atteindre le flux normal de production langagière que les humains peuvent réaliser avec très peu de texte.
La prédiction multi-jetons permet une vitesse 3 fois supérieure

Dans la nouvelle approche multi-jetons proposée par Meta, le modèle linéaire à longue portée (LLM) est entraîné à prédire simultanément plusieurs jetons à partir de différentes positions. Les chercheurs ont utilisé une architecture de prédiction simple pour la prédiction multi-jetons, ne nécessitant pas de ressources supplémentaires telles que le temps de traitement et la mémoire.
Les chercheurs ont utilisé la même architecture Transformer que celle déjà utilisée par la plupart des LLM, mais ils ont apporté quelques modifications pour prendre en charge la prédiction de plusieurs jetons en augmentant le nombre de têtes de sortie de une à plusieurs et en en allouant une à chaque jeton.
Ainsi, pour tirer des conclusions et faire des prédictions, le modèle utilise la même stratégie de prédiction de base, mais en exploitant plusieurs points de vue, il accélère le processus. L'étude indique :
« Bien que gratuite et simple, la prédiction multi-jetons est une modification efficace pour entraîner des modèles de transformateurs plustronet plus rapides. »
Source : Meta.
Les chercheurs ont constaté au cours de l'étude que la technique donnait des résultats médiocres lorsqu'elle était utilisée sur des modèles de petite taille, mais que les résultats devenaient supérieurs à la moyenne lorsqu'ils appliquaient le même processus à des modèles plus grands, et que les résultats continuaient de s'améliorer avec la taille du modèle. Comme l'indique l'étude,
« La méthode est de plus en plus utile pour les modèles de grande taille et conserve tout son intérêt lors de l'entraînement sur plusieurs époques. Les gains sont particulièrement marqués sur les benchmarks génératifs comme le codage, où nos modèles surpassent systématiquement les référencestronde plusieurs points de pourcentage. »
Source : Meta.
Les chercheurs ont également indiqué que la technique de prédiction multi-jetons permettait également au modèle de produire des résultats logiques trois fois plus rapidement, ce qui est utile sans frais supplémentaires ou à très faibles coûts.
Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Aamir Sheikh
Aamir est un journaliste spécialisé dans les technologies, fort de près de six ans d'expérience dans les secteurs des cryptomonnaies et des technologies. Diplômé de l'université MAJ avec un MBA en finance et marketing, il travaille actuellement pour Cryptopolitan, où il couvre l'actualité des marchés des cryptomonnaies et propose des prévisions de prix.
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















