ULTIME NOTIZIE

vivere Bitcoin sale a 67.000 dollari grazie all'accordo di pace tra Trump e l'Iran, che spinge i mercati ai massimi storici

Aggiornamenti in diretta del 15 giugno 2026
Un errore di valutazione: 10X Research critica il nuovo ETF sulla volatilità di BTC di BlackRock

12 minuti fa Notizie
Binance unisce criptovalute, azioni tradizionali e DeFi in un unico conto, evolvendosi in una super app TriFi

16 minuti fa Riflessioni del settore
Inveniam completa l'accordo di acquisizione di MANTRA nell'infrastruttura RWA e nell'espansione dei dati del mercato privato AI

56 minuti fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

OpenAI distribuisce modelli vocali in grado di ragionare, tradurre e trascrivere in tempo reale

Randa Moses

Tempo di lettura: 2 minuti. 7 maggio 2026.

OpenAI offre modelli vocali in grado di ragionare, tradurre e trascrivere in tempo reale.

OpenAI ha lanciato tre modelli vocali in tempo reale nella sua API.
I modelli vocali supportano oltre 70 lingue di input e GPT-Realtime-Whisper per la trascrizione in tempo reale.
Translate e Whisper fatturano al minuto, mentre GPT-Realtime-2 fattura a token.

Mercoledì OpenAI ha rilasciato una nuova generazione di modelli vocali nella sua API, fornendo agli sviluppatori strumenti per creare app in grado di ragionare sulle richieste vocali, tradurre in oltre 70 lingue e trascrivere il parlato in tempo reale.

I tre modelli si chiamano GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Essi portano le interfacce vocali basate sull'IA oltre i semplici scambi di domande e risposte, in un territorio in cui un agente IA può ascoltare, pensare e agire durante una conversazione.

GPT-Realtime-2 offre un ragionamento più preciso per la voce

GPT-Realtime-2 è il modello di punta. OpenAI afferma che offre capacità di ragionamento di livello GPT-5, un notevole passo avanti rispetto al suo predecessore, GPT-Realtime-1.5.

Il modello ha ottenuto un punteggio superiore del 15,2% su Big Bench Audio, un benchmark per l'intelligenza audio, e del 13,8% su Audio MultiChallenge, che testa la capacità di seguire le istruzioni in dialoghi parlati a più turni.

Gli aggiornamenti pratici sono rivolti agli sviluppatori che creano agenti vocali per la produzione. Il modello ora supporta una finestra di contesto di 128.000 caratteri, quadruplicata rispetto al precedente limite di 32.000 caratteri, e offre cinque livelli di sforzo di ragionamento regolabili, da "minimo" ad "altissimo"

Può richiamare più strumenti contemporaneamente, recuperare dagli errori con conferme vocali e produrre brevi frasi di collegamento come "fammi controllare" durante l'elaborazione di una richiesta.

GPT-Realtime-Translate gestisce la traduzione vocale in tempo reale. Accetta più di 70 lingue di input e produce output in 13, progettato per tenere il passo con chi parla in tempo reale.

GPT-Realtime-Whisper offre la conversione in testo del parlato (STT) in streaming, trascrivendo le parole man mano che vengono pronunciate anziché attendere il completamento dell'enunciato.

Zillow e Deutsche Telekom testano i modelli in produzione

Diverse aziende hanno ottenuto l'accesso anticipato. Zillow sta sviluppando un assistente vocale in grado di elaborare complesse richieste immobiliari, gestire le chiamate agli strumenti per la ricerca di annunci e rispettare le normative in materia di parità di accesso agli alloggi.

L'azienda ha riportato un miglioramento di 26 punti percentuali nel tasso di successo delle chiamate sul suo benchmark più difficile, in seguito a una rapida ottimizzazione con GPT-Realtime-2, raggiungendo il 95% rispetto al 69% precedente.

Deutsche Telekom sta testando la traduzione in tempo reale per l'assistenza clienti, consentendo agli utenti di parlare nella propria lingua preferita mentre il modello gestisce la traduzione automatica da entrambe le parti.

Priceline sta valutando la possibilità di sviluppare un assistente di viaggio a comando vocale in grado di gestire, in un'unica sessione, la ricerca di voli, le modifiche alle prenotazioni alberghiere e le traduzioni in loco.

I modelli si rivolgono ad aziende che desiderano ampliare le proprie capacità di assistenza clienti, ma hanno anche evidenziato potenziali applicazioni in settori quali istruzione, media, eventi e piattaforme per creatori di contenuti.

OpenAI ha dichiarato di aver integrato la moderazione dei contenuti nei nuovi modelli, con meccanismi di interruzione delle conversazioni che violano le linee guida sui contenuti dannosi. L'azienda ha presentato questi meccanismi come una protezione contro spam, frodi e altre forme di abuso.

Per quanto riguarda i prezzi, i modelli Translate e Whisper fatturano al minuto. GPT-Realtime-2 fattura in base al consumo di token. Tutti e tre sono disponibili tramite l'API Realtime di OpenAI, accessibile tramite connessioni WebRTC, WebSocket e SIP.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Domande frequenti

Che cos'è GPT-Realtime-2?

GPT-Realtime-2 è il nuovo modello vocale di OpenAI con capacità di ragionamento di livello GPT-5, progettato per conversazioni in tempo reale in cui l'IA deve gestire richieste complesse, chiamare strumenti e riprendersi dalle interruzioni.

Quante lingue supporta GPT-Realtime-Translate?

GPT-Realtime-Translate accetta il parlato in oltre 70 lingue di input e può tradurre in 13 lingue di output in tempo reale.

Come vengono prezzati i nuovi modelli vocali?

GPT-Realtime-Translate e GPT-Realtime-Whisper vengono fatturati al minuto, mentre GPT-Realtime-2 viene fatturato in base al consumo di token.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Randa Moses

Randa Moses è redattrice e reporter presso Cryptopolitan dove si occupa di tecnologia, intelligenza artificiale, robotica, criptovalute, truffe e attacchi hacker. Lavora nel settore delle criptovalute dal 2017 e ha ricoperto ruoli presso Forward Protocol, AmaZix e Cryptosomniac. Randa ha conseguito una laurea in Ingegneria Elettrica edtronpresso l'Università di Bradford.

INDICE

1. GPT-Realtime-2 offre un ragionamento più preciso per la voce

2. Zillow e Deutsche Telekom testano i modelli in produzione

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

CORSO INTENSIVO DI CRIPTOVALUTE

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)