ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A OpenAI lança modelos de voz que raciocinam, traduzem e transcrevem ao vivo

PorRanda MosesRanda Moses
2 minutos de leitura ·
A OpenAI disponibiliza modelos de voz que raciocinam, traduzem e transcrevem em tempo real.
  • A OpenAI lançou três modelos de voz em tempo real em sua API.
  • Os modelos de voz suportam mais de 70 idiomas de entrada e GPT-Realtime-Whisper para transcrição ao vivo.
  • O Translate e o Whisper cobram por minuto, enquanto o GPT-Realtime-2 cobra por token.

A OpenAI lançou na quarta-feira uma nova geração de modelos de voz em sua API, fornecendo aos desenvolvedores ferramentas para criar aplicativos capazes de analisar solicitações faladas, traduzir entre mais de 70 idiomas e transcrever a fala em tempo real.

Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz com IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir durante a conversa.

O GPT-Realtime-2 traz um raciocínio mais preciso para a voz

O GPT-Realtime-2 é o carro-chefe. A OpenAI afirma que ele oferece raciocínio equivalente ao do GPT-5, um avanço significativo em relação ao seu antecessor, o GPT-Realtime-1.5.

O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um teste de referência para inteligência de áudio, e 13,8% superior no Audio MultiChallenge, que testa o seguimento de instruções em diálogos falados com múltiplas interações.

As melhorias práticas são direcionadas a desenvolvedores que criam agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128 mil caracteres, quatro vezes maior que o limite anterior de 32 mil, e oferece cinco níveis de esforço de raciocínio ajustável, de "mínimo" a "extremamente alto"

Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações de voz e produzir frases curtas de transição, como "deixe-me verificar isso", durante o processamento de uma solicitação.

O GPT-Realtime-Translate realiza a tradução de fala em tempo real. Ele aceita mais de 70 idiomas de entrada e produz traduções em 13, projetado para acompanhar o ritmo do falante em tempo real.

O GPT-Realtime-Whisper oferece conversão de fala em texto (STT) em tempo real, transcrevendo as palavras à medida que são faladas, em vez de esperar que a frase seja concluída.

Zillow e Deutsche Telekom testam os modelos em produção

Diversas empresas tiveram acesso antecipado. A Zillow está desenvolvendo um assistente de voz capaz de processar consultas complexas sobre imóveis, gerenciar chamadas de ferramentas para busca de anúncios e estar em conformidade com as regulamentações de Habitação Justa.

A empresa reportou uma melhoria de 26 pontos percentuais na taxa de sucesso das chamadas em seu benchmark adversário mais difícil, após otimização imediata com o GPT-Realtime-2, atingindo 95% em comparação com os 69% anteriores.

A Deutsche Telekom está testando a tradução em tempo real para o suporte ao cliente, permitindo que os usuários falem em seu idioma preferido enquanto o sistema cuida da conversão em ambas as partes.

A Priceline está explorando um assistente de viagens baseado em voz que poderá gerenciar buscas de voos, alterações de hotéis e traduções no local em uma única sessão.

Os modelos são direcionados a empresas que buscam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas para criadores de conteúdo.

A OpenAI afirmou ter incorporado moderação de conteúdo aos novos modelos, com gatilhos que podem interromper conversas detectadas como violando as diretrizes de conteúdo prejudicial. A empresa apresentou as medidas de segurança como proteção contra spam, fraude e outras formas de abuso.

Em relação aos preços, os modelos Translate e Whisper são cobrados por minuto. O GPT-Realtime-2 é cobrado por consumo de tokens. Os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e SIP.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Perguntas frequentes

O que é GPT-Realtime-2?

O GPT-Realtime-2 é o novo modelo de voz da OpenAI com raciocínio do nível do GPT-5, projetado para conversas ao vivo em que a IA precisa lidar com solicitações complexas, usar ferramentas de chamada e se recuperar de interrupções.

Quantos idiomas o GPT-Realtime-Translate suporta?

O GPT-Realtime-Translate aceita fala em mais de 70 idiomas de entrada e pode traduzir para 13 idiomas de saída em tempo real.

Qual é o preço dos novos modelos de voz?

Os serviços GPT-Realtime-Translate e GPT-Realtime-Whisper são cobrados por minuto, enquanto o GPT-Realtime-2 é cobrado pelo consumo de tokens.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO