NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Multi-Token-Vorhersage verdreifacht die Geschwindigkeit von KI-Modellen, so Meta

VonAamir SheikhAamir Sheikh
Lesezeit: 2 Minuten
Multi-Token-Vorhersage
  • Eine Forschungsstudie von Metaforschern zeigt, dass Multi-Token-Vorhersagen die Leistung von LLMs steigern können.
  • Das Verfahren beinhaltet die gleichzeitige Verwendung mehrerer Ausgabeköpfe zur Durchführung von Vorhersagen.
  • Es entstehen keine zusätzlichen Kosten in Bezug auf Speicherplatz oder Zeit, da der Prozess dieselbe grundlegende Inferenzarchitektur verwendet.

Forscher bei Meta sagen, dass das Trainieren von Sprachmodellen zur Vorhersage mehrerer Token gleichzeitig zu einer besseren Stichprobeneffizienz führt.

Große Sprachmodelle wie Llama und ChatGPT werden üblicherweise für die Vorhersage des nächsten Tokens trainiert, aber mit diesem neuen Ansatz kann eine bessere Leistung erzielt werden.

Was ist die Single-Token-Vorhersagetechnik?

Die Multi-Token-Vorhersagetechnik bietet in manchen Szenarien einen deutlichen Vorteil und ist dreimal so schnell wie generative Verfahren. Dennoch ist sie keine Universallösung für jeden Modelltyp. Die Technik hat noch erhebliches Verbesserungspotenzial und kann sich für einige LLM-Anwendungen zu einem robusten Werkzeug entwickeln.

Zum besseren Verständnis kann man sagen, dass der traditionelle Prozess für das LLM-Training einen Ansatz namens „Next-Token-Vorhersage“ verwendet, und auf diese Weise sagt ein Modell nur das nächste zukünftige Token in einer gegebenen Sequenz voraus.

In einem automatisierten Prozess wird das vorhergesagte Token der Eingabe hinzugefügt, und dieser Vorgang wird immer wieder für den gesamten bereitgestellten Text wiederholt, sodass das Modell die gemeinsamen Muster lernt und die Fähigkeit entwickelt, Ausgaben zu erzeugen, die aus logischem und konsistentem Text bestehen.

Diese Technik hat jedoch auch Nachteile, da sich das Modell durch die Verarbeitung nur des nächsten Tokens zu sehr auf die lokalen Muster im Text konzentriert und die Vorhersagen ignoriert, die nur durch logisches Denken getroffen werden können.

Ein weiteres Problem dieser Technik besteht darin, dass riesige Datenmengen in das Modell eingespeist werden müssen, um den normalen Sprachfluss zu erreichen, den Menschen mit sehr wenig Text erzeugen können.

Multi-Token-Vorhersage ermöglicht 3-fache Geschwindigkeit

Quelle: Meta.

Im neuen Multi-Token-Ansatz von Metawird das LLM im Trainingsprozess angewiesen, gleichzeitig mehrere Token von verschiedenen Positionen vorherzusagen. Die Forscher verwendeten eine einfache Vorhersagearchitektur für die Multi-Token-Vorhersage, die keine zusätzlichen Ressourcen wie Zeit und Speicherplatz benötigt.

Die Forscher verwendeten die gleiche Transformer-Architektur, die bereits von den meisten LLMs verwendet wird, nahmen jedoch einige Änderungen vor, um die Vorhersage mehrerer Token zu ermöglichen, indem sie die Anzahl der Ausgabeköpfe von einem auf mehrere erhöhten und jedem Token einen zuordneten.

Auf diese Weise nutzt das Modell für Schlussfolgerungen und Prognosen dieselbe grundlegende Strategie für die nächste Vorhersage, kann den Prozess jedoch durch den Einsatz mehrerer Köpfe beschleunigen. Die Studie besagt:

„Die Multi-Token-Vorhersage ist zwar kostenlos und einfach, aber eine effektive Modifikation, umtronund schnellere Transformer-Modelle zu trainieren.“

Quelle: Meta.

Die Forscher stellten im Rahmen der Studie fest, dass die Methode bei kleineren Modellen unterdurchschnittliche Ergebnisse lieferte, bei größeren Modellen jedoch überdurchschnittliche Ergebnisse erzielte und sich mit zunehmender Modellgröße weiter verbesserte. Wie die Studie ausführt,

„Die Methode erweist sich zunehmend als nützlich für größere Modellgrößen und behält ihre Attraktivität auch beim Training über mehrere Epochen. Besonders deutlich werden die Vorteile bei generativen Benchmarks wie dem Programmieren, wo unsere ModelletronVergleichsmodelle durchweg um mehrere Prozentpunkte übertreffen.“

Quelle: Meta.

Die Forscher gaben außerdem an, dass die Multi-Token-Vorhersagetechnik das Modell dreimal schneller zu logischen Ergebnissen macht, was nützlich ist, ohne oder mit nur sehr geringen zusätzlichen Kosten.

Wenn Sie das hier lesen, sind Sie schon einen Schritt voraus. Bleiben Sie mit unserem Newsletter auf dem Laufenden.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Aamir Sheikh

Aamir Sheikh

Aamir ist Technologiejournalist mit fast sechs Jahren Erfahrung in der Krypto- und Technologiebranche. Er absolvierte die MAJ University mit einem MBA in Finanzen und Marketing. Derzeit arbeitet er für Cryptopolitan, wo er über die neuesten Entwicklungen auf den Kryptowährungsmärkten und Preisprognosen berichtet.

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS