Компания OpenAI выпускает голосовые модели, которые способны рассуждать, переводить и расшифровывать текст в режиме реального времени

- Компания OpenAI запустила три модели распознавания голоса в реальном времени в своем API.
- Голосовые модели поддерживают более 70 языков ввода, а также GPT-Realtime-Whisper для транскрипции в реальном времени.
- Сервисы Translate и Whisper оплачиваются поминутно, а GPT-Realtime-2 — по токенам.
В среду компания OpenAI выпустила новое поколение голосовых моделей в своем API, предоставив разработчикам инструменты для создания приложений, способных обрабатывать голосовые запросы, переводить речь на более чем 70 языков и расшифровывать ее в режиме реального времени.
Три модели получили названия GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Они выводят голосовые интерфейсы ИИ за рамки простого обмена вопросами и ответами, открывая возможности для ИИ-агента, способного слушать, думать и действовать в процессе разговора.
GPT-Realtime-2 обеспечивает более точное логическое мышление при голосовом вводе
GPT-Realtime-2 — это флагманская модель. OpenAI заявляет, что она предлагает алгоритмы рассуждений класса GPT-5, что является значительным шагом вперед по сравнению с ее предшественницей, GPT-Realtime-1.5.
Модель показала на 15,2% более высокие результаты в Big Bench Audio, бенчмарке для оценки интеллектуальных аудиосистем, и на 13,8% более высокие результаты в Audio MultiChallenge, тестирующем следование инструкциям в многоходовом разговорном диалоге.
Практические улучшения ориентированы на разработчиков, создающих голосовых агентов для использования в производственных условиях. Теперь модель поддерживает контекстное окно размером 128 КБ, что в четыре раза больше, чем предыдущий лимит в 32 КБ, и предлагает пять уровней регулируемых усилий по рассуждению — от «минимальных» до «очень высоких»
Она может одновременно вызывать несколько инструментов, восстанавливаться после ошибок с помощью голосовых подтверждений и генерировать короткие промежуточные фразы, такие как «позвольте мне это проверить», во время обработки запроса.
GPT-Realtime-Translate обеспечивает перевод речи в реальном времени. Он принимает более 70 входных языков и выдает результат на 13, разработанный для того, чтобы в режиме реального времени соответствовать говорящему.
GPT-Realtime-Whisper обеспечивает потоковое преобразование речи в текст (STT), расшифровывая слова по мере их произнесения, а не ожидая завершения высказывания.
Zillow и Deutsche Telekom тестируют модели в серийном производстве
Несколько компаний получили ранний доступ. Zillow разрабатывает голосового помощника, способного обрабатывать сложные запросы по недвижимости, выполнять вызовы инструментов для поиска объявлений и соответствовать требованиям законодательства о справедливом жилищном обеспечении.
Компания сообщила об улучшении показателя успешности звонков на 26 пунктов в своем самом сложном состязательном тесте после оперативной оптимизации с помощью GPT-Realtime-2, достигнув 95% по сравнению с 69% ранее.
Компания Deutsche Telekom тестирует функцию перевода в реальном времени для службы поддержки клиентов, позволяющую абонентам говорить на предпочитаемом ими языке, в то время как модель обрабатывает перевод с обеих сторон.
Компания Priceline разрабатывает голосового помощника для путешественников, который мог бы управлять поиском авиабилетов, изменением бронирования отелей и переводом на месте за один сеанс.
Эти модели ориентированы на компании, стремящиеся расширить возможности обслуживания клиентов, но также отмечены потенциальные области применения в образовании, СМИ, организации мероприятий и на платформах для создателей контента.
Компания OpenAI заявила, что в новые модели встроен механизм модерации контента с триггерами, которые могут останавливать обсуждения, нарушающие правила размещения вредоносного контента. Компания представила эти меры защиты как способ противодействия спаму, мошенничеству и другим формам злоупотреблений.
Что касается ценообразования, модели Translate и Whisper взимают плату за минуту. GPT-Realtime-2 взимает плату за потребление токенов. Все три модели доступны через API Realtime от OpenAI, доступ к которому осуществляется через методы подключения WebRTC, WebSocket и SIP.
Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.
Часто задаваемые вопросы
Что такое GPT-Realtime-2?
GPT-Realtime-2 — это новая голосовая модель OpenAI с логическим мышлением класса GPT-5, разработанная для реальных разговоров, где ИИ необходимо обрабатывать сложные запросы, вызывать инструменты и восстанавливаться после прерываний.
Сколько языков поддерживает GPT-Realtime-Translate?
GPT-Realtime-Translate принимает речь на более чем 70 языках и может переводить на 13 языков в режиме реального времени.
Какова цена новых голосовых моделей?
Плата за использование GPT-Realtime-Translate и GPT-Realtime-Whisper взимается поминутно, а за использование GPT-Realtime-2 — за счет потребления токенов.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















