OpenAI distribuye modelos de voz que razonan, traducen y transcriben en tiempo real

- OpenAI ha lanzado tres modelos de voz en tiempo real en su API.
- Los modelos de voz admiten más de 70 idiomas de entrada y GPT-Realtime-Whisper para transcripción en tiempo real.
- Translate y Whisper facturan por minuto, mientras que GPT-Realtime-2 factura por token.
OpenAI lanzó el miércoles una nueva generación de modelos de voz en su API, proporcionando a los desarrolladores herramientas para crear aplicaciones capaces de interpretar solicitudes habladas, traducir a más de 70 idiomas y transcribir el habla en tiempo real.
Los tres modelos se denominan GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Estos modelos llevan las interfaces de voz con IA más allá de los simples intercambios de preguntas y respuestas, a un terreno donde un agente de IA puede escuchar, pensar y actuar en medio de una conversación.
GPT-Realtime-2 aporta un razonamiento más preciso a la voz
GPT-Realtime-2 es el producto estrella. OpenAI afirma que ofrece un razonamiento de la clase GPT-5, un avance significativo con respecto a su predecesor, GPT-Realtime-1.5.
El modelo obtuvo una puntuación un 15,2 % superior en Big Bench Audio, una prueba de referencia para la inteligencia auditiva, y un 13,8 % superior en Audio MultiChallenge, que evalúa la capacidad de seguir instrucciones en diálogos hablados de varios turnos.
Las mejoras prácticas están dirigidas a desarrolladores que crean agentes de voz para producción. El modelo ahora admite una ventana de contexto de 128 KB, cuadruplicando el límite anterior de 32 KB, y ofrece cinco niveles de esfuerzo de razonamiento ajustable, desde "mínimo" hasta "extremadamente alto"
Puede llamar a varias herramientas simultáneamente, recuperarse de errores con confirmaciones habladas y producir frases cortas de transición como "déjame comprobarlo" mientras procesa una solicitud.
GPT-Realtime-Translate gestiona la traducción de voz en directo. Acepta más de 70 idiomas de entrada y genera la salida en 13, y está diseñado para seguir el ritmo del hablante en tiempo real.
GPT-Realtime-Whisper proporciona conversión de voz a texto (STT) en tiempo real, transcribiendo las palabras a medida que se pronuncian en lugar de esperar a que se complete la frase.
Zillow y Deutsche Telekom prueban los modelos en producción
Varias empresas obtuvieron acceso anticipado. Zillow está desarrollando un asistente de voz capaz de procesar consultas inmobiliarias complejas, gestionar llamadas a herramientas para buscar anuncios y cumplir con las regulaciones de Vivienda Justa.
La compañía informó de una mejora de 26 puntos en la tasa de éxito de las llamadas en su prueba de referencia adversaria más difícil tras la optimización inmediata con GPT-Realtime-2, alcanzando el 95% en comparación con el 69% anterior.
Deutsche Telekom está probando la traducción en tiempo real para la atención al cliente, lo que permite a quienes llaman hablar en su idioma preferido mientras el sistema se encarga de la conversión en ambos extremos.
Priceline está estudiando la posibilidad de desarrollar un asistente de viajes basado en la voz que pueda gestionar búsquedas de vuelos, cambios de hotel y traducciones in situ en una sola sesión.
Estos modelos están dirigidos a empresas que buscan ampliar sus capacidades de atención al cliente, pero también señalan posibles aplicaciones en los sectores de educación, medios de comunicación, eventos y plataformas para creadores de contenido.
OpenAI afirmó haber integrado la moderación de contenido en sus nuevos modelos, con mecanismos que permiten detener las conversaciones que infrinjan las directrices sobre contenido dañino. La compañía explicó que estas medidas de seguridad protegen contra el spam, el fraude y otras formas de abuso.
En cuanto a precios, los modelos Translate y Whisper facturan por minuto. GPT-Realtime-2 factura por consumo de tokens. Los tres están disponibles a través de la API Realtime de OpenAI, accesible mediante conexiones WebRTC, WebSocket y SIP.
No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.
Preguntas frecuentes
¿Qué es GPT-Realtime-2?
GPT-Realtime-2 es el nuevo modelo de voz de OpenAI con razonamiento de clase GPT-5, diseñado para conversaciones en vivo donde la IA necesita manejar solicitudes complejas, utilizar herramientas de llamada y recuperarse de interrupciones.
¿Cuántos idiomas admite GPT-Realtime-Translate?
GPT-Realtime-Translate acepta voz en más de 70 idiomas de entrada y puede traducir a 13 idiomas de salida en tiempo real.
¿Qué precio tienen los nuevos modelos de voz?
GPT-Realtime-Translate y GPT-Realtime-Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.
Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















