Mistral hat die Veröffentlichung eines neuen Audio-KI-Modells namens Voxtral angekündigt. Das französische KI-Unternehmen erklärte, das Modell richte sich an Unternehmen und gelte als erste Familie großer Sprachmodelle (LLMs) mit Fokus auf Audio-KI.
Laut dem französischen KI-Unternehmen ist Voxtral darauf ausgelegt, in realen Anwendungen praktische Sprachintelligenz bereitzustellen. Das KI-Audiomodell übertrifft Whisper large-v3, eines der führenden Open-Source-Audiotranskriptionsmodelle.
Voxtral basiert auf Mistral Small 3.1
Voxtral basiert auf dem großen Sprachmodell (LLM) Mistral Small 3.1. Das Audio-KI-Modell versteht mehrere Sprachen, darunter Englisch, Französisch, Spanisch, Portugiesisch, Italienisch, Deutsch, Niederländisch, Hindi und weitere.
Das Audiomodell kann bis zu 30 Minuten Audio transkribieren. Darüber hinaus versteht Voxtral bis zu 40 Minuten Audio, was die Kommunikation und das Stellen relevanter Fragen erleichtert. Nutzer können außerdem Textzusammenfassungen der Audiodatei erstellen lassen oder Analysen und detaillierte Einblicke erhalten. Zusätzlich lassen sich weitere Aktionen ausführen, beispielsweise Funktionen über einen API-Aufruf.
Mistral bietet die „Spracherkennungsmodelle“ von Voxtral in zwei Varianten an: Voxtral Small und Voxtral Mini. Beide Modelle können mit sprachbasierten Anweisungen oder einer Kombination aus Audio- und Textanweisungen interagieren.
Das leistungsstärkere der beiden Modelle, Voxtral Small, verfügt über 24-Bit-Parameter – ideal für den Einsatz in Produktionsumgebungen. Mistral schrieb : „Voxtral Small ist in allen Aufgabenbereichen mit GPT-4o-mini und Gemini 2.5 Flash konkurrenzfähig.“

Voxtral Mini ist eine ressourcenschonendere Option mit 3 Milliarden Parametern und eignet sich dahertronfür lokale und Edge-Einsätze. Die API-Version, Voxtral Mini Transcribe, ist nicht nur kostengünstig, sondern übertrifft auch OpenAI Whisper – und das zu weniger als dem halben Preis.
Sowohl Voxtral Small (24 Byte) als auch Voxtral Mini (3 Byte) stehen bei Hugging Face zum Download und zur lokalen Installation bereit. Entwickler können die Audiomodelle zudem per API-Aufruf in beliebige Anwendungen integrieren. Die Preise beginnen bei 0,001 US-Dollar pro Minute, wodurch die Transkription skalierbar ist. Mistral gab bekannt, dass Voxtral in den nächsten Wochen in der Web- und Mobil-App von Le Chat .
Mistral zählt zu den führenden Unternehmen im Bereich der künstlichen Intelligenz in Europa. Berichten zufolge hat das 2023 gegründete Unternehmen über 1 Milliarde Euro (rund 1,2 Milliarden US-Dollar) von namhaften Firmen wie Andreessen Horowitz, Nvidia, Samsung und Salesforce eingesammelt.
Foto von 