DERNIÈRES NOUVELLES

en direct Bitcoin atteint 67 000 dollars, propulsant les marchés vers des sommets historiques suite à l'accord de paix entre Trump et l'Iran

Mises à jour en direct du 15 juin 2026
Une approche erronée : 10X Research critique le nouvel ETF BTC de volatilité de BlackRock

Actualités d'il y a 12 minutes
Binance fusionne crypto, actions traditionnelles et DeFi sur un seul compte, donnant naissance à la super application TriFi

Il y a 16 minutes : Réflexions du secteur
Inveniam finalise l'acquisition de MANTRA dans l'infrastructure RWA et l'expansion des données du marché privé de l'IA

Actualités d'il y a 56 minutes

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

OpenAI fournit des modèles vocaux capables de raisonner, de traduire et de transcrire en direct

Par

Randa Moses

2 minutes de lecture - 7 mai 2026

OpenAI propose des modèles vocaux capables de raisonner, de traduire et de transcrire en direct.

OpenAI a lancé trois modèles vocaux en temps réel dans son API.
Les modèles vocaux prennent en charge plus de 70 langues d'entrée et GPT-Realtime-Whisper pour la transcription en direct.
Translate et Whisper facturent à la minute, tandis que GPT-Realtime-2 facture par jeton.

OpenAI a publié mercredi une nouvelle génération de modèles vocaux dans son API, offrant aux développeurs des outils pour créer des applications capables de raisonner à partir de requêtes vocales, de traduire dans plus de 70 langues et de transcrire la parole en temps réel.

Ces trois modèles, nommés GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper, font évoluer les interfaces vocales d'IA au-delà des simples échanges de questions-réponses vers un domaine où un agent d'IA peut écouter, réfléchir et agir en pleine conversation.

GPT-Realtime-2 apporte un raisonnement plus précis à la voix

GPT-Realtime-2 est le modèle phare. OpenAI affirme qu'il offre un raisonnement de classe GPT-5, ce qui représente une amélioration significative par rapport à son prédécesseur, GPT-Realtime-1.5.

Le modèle a obtenu un score supérieur de 15,2 % sur Big Bench Audio, un test de référence pour l'intelligence audio, et de 13,8 % sur Audio MultiChallenge, qui teste le suivi des instructions dans un dialogue parlé à plusieurs tours.

Ces améliorations pratiques s'adressent aux développeurs qui créent des agents vocaux de production. Le modèle prend désormais en charge une fenêtre de contexte de 128 Ko, soit quatre fois plus que la limite précédente de 32 Ko, et propose cinq niveaux d'effort de raisonnement ajustables, allant de « minimal » à « très élevé »

Il peut appeler plusieurs outils simultanément, se remettre des erreurs grâce à des accusés de réception vocaux et produire de courtes phrases de transition comme « laissez-moi vérifier cela » lors du traitement d'une requête.

GPT-Realtime-Translate assure la traduction vocale en temps réel. Il accepte plus de 70 langues d'entrée et en traduit 13, conçues pour suivre le rythme de l'orateur en temps réel.

GPT-Realtime-Whisper fournit un service de transcription vocale en continu (STT), transcrivant les mots au fur et à mesure qu'ils sont prononcés plutôt que d'attendre la fin de l'énoncé.

Zillow et Deutsche Telekom testent les modèles en production

Plusieurs entreprises ont bénéficié d'un accès anticipé. Zillow développe un assistant vocal capable de traiter des requêtes immobilières complexes, de gérer les appels d'outils pour la recherche d'annonces et de se conformer à la réglementation sur le logement équitable.

L'entreprise a annoncé une amélioration de 26 points du taux de réussite des appels sur son banc d'essai adverse le plus difficile après une optimisation rapide avec GPT-Realtime-2, atteignant 95 % contre 69 % auparavant.

Deutsche Telekom teste la traduction en temps réel pour son service client, permettant aux appelants de parler dans leur langue préférée tandis que le modèle gère la conversion des deux côtés.

Priceline étudie la possibilité de développer un assistant de voyage vocal capable de gérer les recherches de vols, les changements d'hôtel et la traduction sur place en une seule session.

Ces modèles ciblent les entreprises qui cherchent à développer leurs capacités en matière de service client, mais des applications potentielles sont également envisagées dans les secteurs de l'éducation, des médias, de l'événementiel et des plateformes de création.

OpenAI a indiqué avoir intégré la modération de contenu à ses nouveaux modèles, avec des mécanismes permettant d'interrompre les conversations jugées contraires aux règles relatives aux contenus préjudiciables. L'entreprise a présenté ces garde-fous comme une protection contre le spam, la fraude et autres formes d'abus.

Concernant la tarification, les modèles Translate et Whisper facturent à la minute. GPT-Realtime-2 facture en fonction de la consommation de jetons. Ces trois modèles sont disponibles via l'API Realtime d'OpenAI, accessible par les protocoles WebRTC, WebSocket et SIP.

Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les !

FAQ

Qu'est-ce que GPT-Realtime-2 ?

GPT-Realtime-2 est le nouveau modèle vocal d'OpenAI doté d'un raisonnement de classe GPT-5, conçu pour les conversations en direct où l'IA doit gérer des requêtes complexes, appeler des outils et se remettre d'interruptions.

Combien de langues GPT-Realtime-Translate prend-il en charge ?

GPT-Realtime-Translate accepte la parole dans plus de 70 langues d'entrée et peut traduire en temps réel dans 13 langues de sortie.

Quel est le prix des nouveaux modèles vocaux ?

GPT-Realtime-Translate et GPT-Realtime-Whisper sont facturés à la minute, tandis que GPT-Realtime-2 est facturé en fonction de la consommation de jetons.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Randa Moses

Randa Moses est rédactrice et journaliste chez Cryptopolitan où elle couvre les technologies, l'intelligence artificielle, la robotique, les cryptomonnaies, les arnaques et le piratage informatique. Elle travaille dans le secteur des cryptomonnaies depuis 2017 et a notamment travaillé chez Forward Protocol, AmaZix et Cryptosomniac. Randa est diplômée en génie électrique ettronde l'Université de Bradford.

TABLE DES MATIÈRES

1. GPT-Realtime-2 apporte un raisonnement plus précis à la voix

2. Zillow et Deutsche Telekom testent les modèles en production

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, John Palmer, technicien

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, John Palmer, technicien

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)