Mistral a annoncé la sortie de Voxtral, un nouveau modèle d'IA audio. L'entreprise française a précisé que ce modèle est destiné aux entreprises et constitue la première famille de grands modèles de langage (LLM) dédiée à l'IA audio.
Selon la société française spécialisée en IA, Voxtral est conçu pour fournir une intelligence vocale pratique dans des applications concrètes. Son modèle audio d'IA surpasse Whisper large-v3, l'un des meilleurs modèles de transcription audio open source.
Voxtral est propulsé par Mistral Small 3.1
Voxtral est alimenté par le modèle de langage étendu (LLM) Mistral Small 3.1. Le modèle d'IA audio peut comprendre plusieurs langues, comme l'anglais, le français, l'espagnol, le portugais, l'italien, l'allemand, le néerlandais, l'hindi et bien d'autres.
Le modèle audio est capable de transcrire jusqu'à 30 minutes d'audio. De plus, Voxtral peut comprendre jusqu'à 40 minutes d'audio, ce qui facilite les échanges entre utilisateurs et leur permet de poser des questions pertinentes. Les utilisateurs peuvent également lui demander de générer des résumés textuels des fichiers audio ou de fournir des analyses et des informations détaillées. Ils peuvent aussi exécuter d'autres actions, comme lancer des fonctions via un appel d'API.
Mistral propose les modèles de compréhension vocale de Voxtral en deux versions : Voxtral Small et Voxtral Mini. Ces deux modèles peuvent interagir avec des invites vocales ou une combinaison d’invites audio et textuelles.
Le plus puissant des deux modèles, Voxtral Small, dispose de 24 milliards de paramètres, ce qui est idéal pour les déploiements à grande échelle. Mistral a écrit que « Voxtral Small est compétitif avec GPT-4o-mini et Gemini 2.5 Flash pour toutes les tâches ».

Voxtral Mini, avec ses 3 milliards de paramètres, est une solution plus légère,tronpour les déploiements locaux et en périphérie. Son API, Voxtral Mini Transcribe, est non seulement économique, mais aussi plus performante que Whisper d'OpenAI, pour moins de la moitié du prix.
Les logiciels Voxtral Small (24 octets) et Voxtral Mini (3 octets) sont disponibles au téléchargement et à l'hébergement local chez Hugging Face. Les développeurs peuvent également intégrer ces modèles audio à n'importe quelle application via un simple appel API. Le prix de départ est de 0,001 $ par minute, ce qui rend la transcription évolutive. Mistral a annoncé que Voxtral sera disponible sur Le Chat, via l'application web ou mobile, d'ici quelques semaines.
Mistral est l'une des principales entreprises d'intelligence artificielle en Europe. Selon certaines sources, la société, fondée en 2023, a levé plus d'un milliard d'euros (environ 1,2 milliard de dollars) auprès de sociétés renommées telles qu'Andreessen Horowitz, Nvidia, Samsung et Salesforce.
Photo de 