ÚLTIMAS NOTICIAS

vivir Bitcoin se dispara a 67.000 dólares mientras el acuerdo de paz entre Trump e Irán impulsa los mercados a un máximo histórico

Actualizaciones en vivo del 15 de junio de 2026
Un enfoque "al revés": 10X Research critica el nuevo ETF de volatilidad de BTC de BlackRock

Hace 12 minutos Noticias
Binance fusiona criptomonedas, acciones tradicionales y DeFi en una sola cuenta, evolucionando hacia la superaplicación TriFi

Hace 16 minutos Reflexiones del sector
Inveniam completa el acuerdo de adquisición de MANTRA en infraestructura RWA y expansión de datos del mercado privado de IA

Hace 56 minutos Noticias

SELECCIONADO PARA TI

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

OpenAI distribuye modelos de voz que razonan, traducen y transcriben en tiempo real

Por

Randa Moisés

Lectura de 2 minutos. 7 de mayo de 2026.

OpenAI distribuye modelos de voz que razonan, traducen y transcriben en tiempo real.

OpenAI ha lanzado tres modelos de voz en tiempo real en su API.
Los modelos de voz admiten más de 70 idiomas de entrada y GPT-Realtime-Whisper para transcripción en tiempo real.
Translate y Whisper facturan por minuto, mientras que GPT-Realtime-2 factura por token.

OpenAI lanzó el miércoles una nueva generación de modelos de voz en su API, proporcionando a los desarrolladores herramientas para crear aplicaciones capaces de interpretar solicitudes habladas, traducir a más de 70 idiomas y transcribir el habla en tiempo real.

Los tres modelos se denominan GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Estos modelos llevan las interfaces de voz con IA más allá de los simples intercambios de preguntas y respuestas, a un terreno donde un agente de IA puede escuchar, pensar y actuar en medio de una conversación.

GPT-Realtime-2 aporta un razonamiento más preciso a la voz

GPT-Realtime-2 es el producto estrella. OpenAI afirma que ofrece un razonamiento de la clase GPT-5, un avance significativo con respecto a su predecesor, GPT-Realtime-1.5.

El modelo obtuvo una puntuación un 15,2 % superior en Big Bench Audio, una prueba de referencia para la inteligencia auditiva, y un 13,8 % superior en Audio MultiChallenge, que evalúa la capacidad de seguir instrucciones en diálogos hablados de varios turnos.

Las mejoras prácticas están dirigidas a desarrolladores que crean agentes de voz para producción. El modelo ahora admite una ventana de contexto de 128 KB, cuadruplicando el límite anterior de 32 KB, y ofrece cinco niveles de esfuerzo de razonamiento ajustable, desde "mínimo" hasta "extremadamente alto"

Puede llamar a varias herramientas simultáneamente, recuperarse de errores con confirmaciones habladas y producir frases cortas de transición como "déjame comprobarlo" mientras procesa una solicitud.

GPT-Realtime-Translate gestiona la traducción de voz en directo. Acepta más de 70 idiomas de entrada y genera la salida en 13, y está diseñado para seguir el ritmo del hablante en tiempo real.

GPT-Realtime-Whisper proporciona conversión de voz a texto (STT) en tiempo real, transcribiendo las palabras a medida que se pronuncian en lugar de esperar a que se complete la frase.

Zillow y Deutsche Telekom prueban los modelos en producción

Varias empresas obtuvieron acceso anticipado. Zillow está desarrollando un asistente de voz capaz de procesar consultas inmobiliarias complejas, gestionar llamadas a herramientas para buscar anuncios y cumplir con las regulaciones de Vivienda Justa.

La compañía informó de una mejora de 26 puntos en la tasa de éxito de las llamadas en su prueba de referencia adversaria más difícil tras la optimización inmediata con GPT-Realtime-2, alcanzando el 95% en comparación con el 69% anterior.

Deutsche Telekom está probando la traducción en tiempo real para la atención al cliente, lo que permite a quienes llaman hablar en su idioma preferido mientras el sistema se encarga de la conversión en ambos extremos.

Priceline está estudiando la posibilidad de desarrollar un asistente de viajes basado en la voz que pueda gestionar búsquedas de vuelos, cambios de hotel y traducciones in situ en una sola sesión.

Estos modelos están dirigidos a empresas que buscan ampliar sus capacidades de atención al cliente, pero también señalan posibles aplicaciones en los sectores de educación, medios de comunicación, eventos y plataformas para creadores de contenido.

OpenAI afirmó haber integrado la moderación de contenido en sus nuevos modelos, con mecanismos que permiten detener las conversaciones que infrinjan las directrices sobre contenido dañino. La compañía explicó que estas medidas de seguridad protegen contra el spam, el fraude y otras formas de abuso.

En cuanto a precios, los modelos Translate y Whisper facturan por minuto. GPT-Realtime-2 factura por consumo de tokens. Los tres están disponibles a través de la API Realtime de OpenAI, accesible mediante conexiones WebRTC, WebSocket y SIP.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Preguntas frecuentes

¿Qué es GPT-Realtime-2?

GPT-Realtime-2 es el nuevo modelo de voz de OpenAI con razonamiento de clase GPT-5, diseñado para conversaciones en vivo donde la IA necesita manejar solicitudes complejas, utilizar herramientas de llamada y recuperarse de interrupciones.

¿Cuántos idiomas admite GPT-Realtime-Translate?

GPT-Realtime-Translate acepta voz en más de 70 idiomas de entrada y puede traducir a 13 idiomas de salida en tiempo real.

¿Qué precio tienen los nuevos modelos de voz?

GPT-Realtime-Translate y GPT-Realtime-Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Randa Moisés

Randa Moses es editora y reportera en Cryptopolitan donde cubre temas de tecnología, IA, robótica, criptomonedas, estafas y hackeos. Trabaja en el sector de las criptomonedas desde 2017 y ha ocupado cargos en Forward Protocol, AmaZix y Cryptosomniac. Randa es ingeniera eléctrica ytronpor la Universidad de Bradford.

ÍNDICE

1. GPT-Realtime-2 aporta un razonamiento más preciso a la voz

2. Zillow y Deutsche Telekom prueban los modelos en producción

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)