Компания Mistral объявила о выпуске новой модели искусственного интеллекта для обработки аудиоданных под названием Voxtral. Французская компания, занимающаяся разработкой ИИ, заявила, что модель ориентирована на бизнес и считается первым семейством больших языковых моделей (LLM), сфокусированных на искусственном интеллекте для обработки аудиоданных.
По данным французской компании, занимающейся разработкой искусственного интеллекта, Voxtral предназначен для предоставления практического интеллекта в области распознавания речи в реальных условиях. Модель обработки аудиоданных на основе ИИ превосходит Whisper large-v3, одну из лучших моделей транскрипции аудио с открытым исходным кодом.
Voxtral работает на платформе Mistral Small 3.1
Voxtral работает на основе большой языковой модели (LLM) Mistral Small 3.1. Аудиомодель искусственного интеллекта способна понимать множество языков, таких как английский, французский, испанский, португальский, итальянский, немецкий, голландский, хинди и другие.
Аудиомодель способна расшифровывать аудиозаписи продолжительностью до 30 минут. Более того, Voxtral может понимать аудиозаписи продолжительностью до 40 минут, что облегчает пользователям общение и позволяет задавать актуальные вопросы. Пользователи также могут попросить систему сгенерировать текстовые резюме аудиофайла или предоставить анализ и подробную информацию. Кроме того, они могут выполнять другие действия, например, запускать функции через API-вызов.
Компания Mistral предлагает модели распознавания речи Voxtral в двух вариантах: Voxtral Small и Voxtral Mini. Обе модели способны взаимодействовать с голосовыми подсказками или комбинацией аудио- и текстовых подсказок.
Более мощная из двух моделей, Voxtral Small, имеет 24-битные параметры — идеально подходящие для развертывания в промышленных масштабах. Компания Mistral написала , что «Voxtral Small конкурентоспособен с GPT-4o-mini и Gemini 2.5 Flash по всем параметрам».

Voxtral Mini — это облегченный вариант с 3 миллиардами параметров, что делает егоtronвыбором для локального и периферийного развертывания. Его API-версия, Voxtral Mini Transcribe, не только экономична, но и превосходит Whisper от OpenAI — при этом стоит менее половины цены.
Voxtral Small (24B) и Voxtral Mini (3B) доступны для скачивания и локального размещения на Hugging Face. Разработчики также могут интегрировать аудиомодели в любое приложение с помощью одного вызова API. Цена начинается от 0,001 доллара за минуту, что делает транскрипцию масштабируемой. Компания Mistral заявила, что Voxtral будет доступен в Le Chat в течение следующих нескольких недель.
Mistral — одна из ведущих компаний в Европе, занимающихся искусственным интеллектом. Согласно сообщениям, компания, основанная в 2023 году, привлекла более 1 миллиарда евро (около 1,2 миллиарда долларов) от таких известных фирм, как Andreessen Horowitz, Nvidia, Samsung и Salesforce.
Фото 