DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

OpenAI fournit des modèles vocaux capables de raisonner, de traduire et de transcrire en direct

ParRanda MosesRanda Moses
2 minutes de lecture il y
OpenAI propose des modèles vocaux capables de raisonner, de traduire et de transcrire en direct.
  • OpenAI a lancé trois modèles vocaux en temps réel dans son API.
  • Les modèles vocaux prennent en charge plus de 70 langues d'entrée et GPT-Realtime-Whisper pour la transcription en direct.
  • Translate et Whisper facturent à la minute, tandis que GPT-Realtime-2 facture par jeton.

OpenAI a publié mercredi une nouvelle génération de modèles vocaux dans son API, offrant aux développeurs des outils pour créer des applications capables de raisonner à partir de requêtes vocales, de traduire dans plus de 70 langues et de transcrire la parole en temps réel.

Ces trois modèles, nommés GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper, font évoluer les interfaces vocales d'IA au-delà des simples échanges de questions-réponses vers un domaine où un agent d'IA peut écouter, réfléchir et agir en pleine conversation.

GPT-Realtime-2 apporte un raisonnement plus précis à la voix

GPT-Realtime-2 est le modèle phare. OpenAI affirme qu'il offre un raisonnement de classe GPT-5, ce qui représente une amélioration significative par rapport à son prédécesseur, GPT-Realtime-1.5.

Le modèle a obtenu un score supérieur de 15,2 % sur Big Bench Audio, un test de référence pour l'intelligence audio, et de 13,8 % sur Audio MultiChallenge, qui teste le suivi des instructions dans un dialogue parlé à plusieurs tours.

Ces améliorations pratiques s'adressent aux développeurs qui créent des agents vocaux de production. Le modèle prend désormais en charge une fenêtre de contexte de 128 Ko, soit quatre fois plus que la limite précédente de 32 Ko, et propose cinq niveaux d'effort de raisonnement ajustables, allant de « minimal » à « très élevé »

Il peut appeler plusieurs outils simultanément, se remettre des erreurs grâce à des accusés de réception vocaux et produire de courtes phrases de transition comme « laissez-moi vérifier cela » lors du traitement d'une requête.

GPT-Realtime-Translate assure la traduction vocale en temps réel. Il accepte plus de 70 langues d'entrée et en traduit 13, conçues pour suivre le rythme de l'orateur en temps réel.

GPT-Realtime-Whisper fournit un service de transcription vocale en continu (STT), transcrivant les mots au fur et à mesure qu'ils sont prononcés plutôt que d'attendre la fin de l'énoncé.

Zillow et Deutsche Telekom testent les modèles en production

Plusieurs entreprises ont bénéficié d'un accès anticipé. Zillow développe un assistant vocal capable de traiter des requêtes immobilières complexes, de gérer les appels d'outils pour la recherche d'annonces et de se conformer à la réglementation sur le logement équitable.

L'entreprise a annoncé une amélioration de 26 points du taux de réussite des appels sur son banc d'essai adverse le plus difficile après une optimisation rapide avec GPT-Realtime-2, atteignant 95 % contre 69 % auparavant.

Deutsche Telekom teste la traduction en temps réel pour son service client, permettant aux appelants de parler dans leur langue préférée tandis que le modèle gère la conversion des deux côtés.

Priceline étudie la possibilité de développer un assistant de voyage vocal capable de gérer les recherches de vols, les changements d'hôtel et la traduction sur place en une seule session.

Ces modèles ciblent les entreprises qui cherchent à développer leurs capacités en matière de service client, mais des applications potentielles sont également envisagées dans les secteurs de l'éducation, des médias, de l'événementiel et des plateformes de création.

OpenAI a indiqué avoir intégré la modération de contenu à ses nouveaux modèles, avec des mécanismes permettant d'interrompre les conversations jugées contraires aux règles relatives aux contenus préjudiciables. L'entreprise a présenté ces garde-fous comme une protection contre le spam, la fraude et autres formes d'abus.

Concernant la tarification, les modèles Translate et Whisper facturent à la minute. GPT-Realtime-2 facture en fonction de la consommation de jetons. Ces trois modèles sont disponibles via l'API Realtime d'OpenAI, accessible par les protocoles WebRTC, WebSocket et SIP.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

FAQ

Qu'est-ce que GPT-Realtime-2 ?

GPT-Realtime-2 est le nouveau modèle vocal d'OpenAI doté d'un raisonnement de classe GPT-5, conçu pour les conversations en direct où l'IA doit gérer des requêtes complexes, appeler des outils et se remettre d'interruptions.

Combien de langues GPT-Realtime-Translate prend-il en charge ?

GPT-Realtime-Translate accepte la parole dans plus de 70 langues d'entrée et peut traduire en temps réel dans 13 langues de sortie.

Quel est le prix des nouveaux modèles vocaux ?

GPT-Realtime-Translate et GPT-Realtime-Whisper sont facturés à la minute, tandis que GPT-Realtime-2 est facturé en fonction de la consommation de jetons.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES