ÚLTIMAS NOTÍCIAS

ao vivo Bitcoin dispara para US$ 67.000 com o acordo de paz entre Trump e Irã impulsionando os mercados a um alto patamar

Atualizações ao vivo de 15 de junho de 2026
Fazendo tudo ao contrário: a 10X Research critica o novo ETF de volatilidade de BTC da BlackRock

Notícias de 12 minutos atrás
Binance une criptomoedas, ações tradicionais e DeFi em uma única conta, evoluindo para o superaplicativo TriFi

16 minutos atrás - Opiniões do setor
Inveniam conclui acordo de aquisição MANTRA em infraestrutura RWA, expansão de dados de mercado privado de IA

Notícias de 56 minutos atrás

SELECIONADO PARA VOCÊ

Xiaohongshu almeja avaliação de US$ 70 bilhões em IPO em Hong Kong

4 horas atrás Tecnologia
A estreia da IA robótica da Alibaba sinaliza a tentativa da China de dominar o mundo físico

12 horas atrás Tecnologia
A SpaceX de Musk ultrapassa a Amazon com um acordo de US$ 60 bilhões para adquirir a Anysphere, fabricante do Cursor

16 horas atrás Tecnologia

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A OpenAI lança modelos de voz que raciocinam, traduzem e transcrevem ao vivo

Por

Randa Moses

Tempo de leitura: 2 minutos - 7 de maio de 2026

A OpenAI disponibiliza modelos de voz que raciocinam, traduzem e transcrevem em tempo real.

A OpenAI lançou três modelos de voz em tempo real em sua API.
Os modelos de voz suportam mais de 70 idiomas de entrada e GPT-Realtime-Whisper para transcrição ao vivo.
O Translate e o Whisper cobram por minuto, enquanto o GPT-Realtime-2 cobra por token.

A OpenAI lançou na quarta-feira uma nova geração de modelos de voz em sua API, fornecendo aos desenvolvedores ferramentas para criar aplicativos capazes de analisar solicitações faladas, traduzir entre mais de 70 idiomas e transcrever a fala em tempo real.

Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz com IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir durante a conversa.

O GPT-Realtime-2 traz um raciocínio mais preciso para a voz

O GPT-Realtime-2 é o carro-chefe. A OpenAI afirma que ele oferece raciocínio equivalente ao do GPT-5, um avanço significativo em relação ao seu antecessor, o GPT-Realtime-1.5.

O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um teste de referência para inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções em diálogos falados com múltiplas interações.

As melhorias práticas são direcionadas a desenvolvedores que criam agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128 mil caracteres, quatro vezes maior que o limite anterior de 32 mil, e oferece cinco níveis de esforço de raciocínio ajustável, de "mínimo" a "extremamente alto"

Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações de voz e produzir frases curtas de transição, como "deixe-me verificar isso", durante o processamento de uma solicitação.

O GPT-Realtime-Translate realiza a tradução de fala em tempo real. Ele aceita mais de 70 idiomas de entrada e produz traduções em 13, projetado para acompanhar o ritmo do falante em tempo real.

O GPT-Realtime-Whisper oferece conversão de fala em texto (STT) em tempo real, transcrevendo as palavras à medida que são faladas, em vez de esperar que a frase seja concluída.

Zillow e Deutsche Telekom testam os modelos em produção

Diversas empresas tiveram acesso antecipado. A Zillow está desenvolvendo um assistente de voz capaz de processar consultas complexas sobre imóveis, gerenciar chamadas de ferramentas para busca de anúncios e estar em conformidade com as regulamentações de Habitação Justa.

A empresa reportou uma melhoria de 26 pontos percentuais na taxa de sucesso das chamadas em seu benchmark adversário mais difícil, após otimização imediata com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.

A Deutsche Telekom está testando a tradução em tempo real para o suporte ao cliente, permitindo que os usuários falem em seu idioma preferido enquanto o sistema cuida da conversão em ambas as partes.

A Priceline está explorando um assistente de viagens baseado em voz que poderá gerenciar buscas de voos, alterações de hotéis e traduções no local em uma única sessão.

Os modelos são direcionados a empresas que buscam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas para criadores de conteúdo.

A OpenAI afirmou ter incorporado moderação de conteúdo aos novos modelos, com gatilhos que podem interromper conversas detectadas como violando as diretrizes de conteúdo prejudicial. A empresa apresentou as medidas de segurança como proteção contra spam, fraude e outras formas de abuso.

Em relação aos preços, os modelos Translate e Whisper são cobrados por minuto. O GPT-Realtime-2 é cobrado por consumo de tokens. Os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e SIP.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Perguntas frequentes

O que é GPT-Realtime-2?

O GPT-Realtime-2 é o novo modelo de voz da OpenAI com raciocínio do nível do GPT-5, projetado para conversas ao vivo em que a IA precisa lidar com solicitações complexas, usar ferramentas de chamada e se recuperar de interrupções.

Quantos idiomas o GPT-Realtime-Translate suporta?

O GPT-Realtime-Translate aceita fala em mais de 70 idiomas de entrada e pode traduzir para 13 idiomas de saída em tempo real.

Qual é o preço dos novos modelos de voz?

Os serviços GPT-Realtime-Translate e GPT-Realtime-Whisper são cobrados por minuto, enquanto o GPT-Realtime-2 é cobrado pelo consumo de tokens.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Randa Moses

Randa Moses é editora e repórter da Cryptopolitan onde cobre tecnologia, IA, robótica, criptomoedas, golpes e ataques cibernéticos. Ela trabalha no universo das criptomoedas desde 2017, tendo atuado na Forward Protocol, AmaZix e Cryptosomniac. Randa é formada em Engenharia Elétrica etronpela Universidade de Bradford.

ÍNDICE

1. O GPT-Realtime-2 traz um raciocínio mais preciso para a voz

2. Zillow e Deutsche Telekom testam os modelos em produção

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)