A Mistral anunciou o lançamento de um novo modelo de IA para áudio chamado Voxtral. A empresa francesa de IA afirmou que o modelo é voltado para empresas e é considerado a primeira família de grandes modelos de linguagem (LLMs) focada em IA para áudio.
Segundo a empresa francesa de IA, a Voxtral foi projetada para fornecer inteligência de fala prática em aplicações do mundo real. O modelo de áudio de IA supera o Whisper large-v3, que é um dos principais modelos de transcrição de áudio de código aberto.
O Voxtral é alimentado pelo Mistral Small 3.1
O Voxtral utiliza o modelo de linguagem abrangente (LLM) Mistral Small 3.1. Este modelo de IA de áudio consegue compreender diversos idiomas, como inglês, francês, espanhol, português, italiano, alemão, holandês, hindi e muitos outros.
O modelo de áudio é capaz de transcrever até 30 minutos de áudio. Além disso, o Voxtral consegue compreender até 40 minutos de áudio, o que facilita a conversa entre os usuários e permite que façam perguntas relevantes. Os usuários também podem solicitar a geração de resumos em texto do arquivo de áudio ou a obtenção de análises e informações detalhadas. Podem ainda executar outras ações, como acionar funções por meio de uma chamada de API.
A Mistral oferece os "modelos de compreensão de fala" da Voxtral em duas versões: Voxtral Small e Voxtral Mini. Ambos os modelos são capazes de interagir com comandos de voz ou com uma combinação de comandos de áudio e texto.
O mais potente dos dois modelos, o Voxtral Small, apresenta 24 bilhões de parâmetros — ideal para implantações em escala de produção. Mistral escreveu que "o Voxtral Small é competitivo com o GPT-4o-mini e o Gemini 2.5 Flash em todas as tarefas".

O Voxtral Mini é uma opção mais leve com 3 bilhões de parâmetros, tornando-o uma escolhatronpara implantações locais e de borda. Sua versão de API, Voxtral Mini Transcribe, não só é econômica, como também supera o Whisper da OpenAI — por menos da metade do preço.
Tanto o Voxtral Small (24B) quanto o Voxtral Mini (3B) estão disponíveis para download e hospedagem local no site da Hugging Face. Os desenvolvedores também podem integrar os modelos de áudio em qualquer aplicativo por meio de uma única chamada de API. O preço inicial é de US$ 0,001 por minuto, tornando a transcrição escalável. Mistral afirmou que o Voxtral estará disponível no Le Chat, tanto no aplicativo web quanto no aplicativo móvel, nas próximas semanas.
A Mistral é uma das principais empresas de inteligência artificial da Europa. Segundo informações, a empresa, fundada em 2023, captou mais de € 1 bilhão (cerca de US$ 1,2 bilhão) de empresas renomadas como Andreessen Horowitz, Nvidia, Samsung e Salesforce.
Foto de 