ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

OpenAI distribuisce modelli vocali in grado di ragionare, tradurre e trascrivere in tempo reale

DiRanda MosesRanda Moses
2 minuti di lettura
OpenAI offre modelli vocali in grado di ragionare, tradurre e trascrivere in tempo reale.
  • OpenAI ha lanciato tre modelli vocali in tempo reale nella sua API.
  • I modelli vocali supportano oltre 70 lingue di input e GPT-Realtime-Whisper per la trascrizione in tempo reale.
  • Translate e Whisper fatturano al minuto, mentre GPT-Realtime-2 fattura a token.

Mercoledì OpenAI ha rilasciato una nuova generazione di modelli vocali nella sua API, fornendo agli sviluppatori strumenti per creare app in grado di ragionare sulle richieste vocali, tradurre in oltre 70 lingue e trascrivere il parlato in tempo reale.

I tre modelli si chiamano GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Essi portano le interfacce vocali basate sull'IA oltre i semplici scambi di domande e risposte, in un territorio in cui un agente IA può ascoltare, pensare e agire durante una conversazione.

GPT-Realtime-2 offre un ragionamento più preciso per la voce

GPT-Realtime-2 è il modello di punta. OpenAI afferma che offre capacità di ragionamento di livello GPT-5, un notevole passo avanti rispetto al suo predecessore, GPT-Realtime-1.5.

Il modello ha ottenuto un punteggio superiore del 15,2% su Big Bench Audio, un benchmark per l'intelligenza audio, e del 13,8% su Audio MultiChallenge, che testa la capacità di seguire le istruzioni in dialoghi parlati a più turni.

Gli aggiornamenti pratici sono rivolti agli sviluppatori che creano agenti vocali per la produzione. Il modello ora supporta una finestra di contesto di 128.000 caratteri, quadruplicata rispetto al precedente limite di 32.000 caratteri, e offre cinque livelli di sforzo di ragionamento regolabili, da "minimo" ad "altissimo"

Può richiamare più strumenti contemporaneamente, recuperare dagli errori con conferme vocali e produrre brevi frasi di collegamento come "fammi controllare" durante l'elaborazione di una richiesta.

GPT-Realtime-Translate gestisce la traduzione vocale in tempo reale. Accetta più di 70 lingue di input e produce output in 13, progettato per tenere il passo con chi parla in tempo reale.

GPT-Realtime-Whisper offre la conversione in testo del parlato (STT) in streaming, trascrivendo le parole man mano che vengono pronunciate anziché attendere il completamento dell'enunciato.

Zillow e Deutsche Telekom testano i modelli in produzione

Diverse aziende hanno ottenuto l'accesso anticipato. Zillow sta sviluppando un assistente vocale in grado di elaborare complesse richieste immobiliari, gestire le chiamate agli strumenti per la ricerca di annunci e rispettare le normative in materia di parità di accesso agli alloggi.

L'azienda ha riportato un miglioramento di 26 punti percentuali nel tasso di successo delle chiamate sul suo benchmark più difficile, in seguito a una rapida ottimizzazione con GPT-Realtime-2, raggiungendo il 95% rispetto al 69% precedente.

Deutsche Telekom sta testando la traduzione in tempo reale per l'assistenza clienti, consentendo agli utenti di parlare nella propria lingua preferita mentre il modello gestisce la traduzione automatica da entrambe le parti.

Priceline sta valutando la possibilità di sviluppare un assistente di viaggio a comando vocale in grado di gestire, in un'unica sessione, la ricerca di voli, le modifiche alle prenotazioni alberghiere e le traduzioni in loco.

I modelli si rivolgono ad aziende che desiderano ampliare le proprie capacità di assistenza clienti, ma hanno anche evidenziato potenziali applicazioni in settori quali istruzione, media, eventi e piattaforme per creatori di contenuti.

OpenAI ha dichiarato di aver integrato la moderazione dei contenuti nei nuovi modelli, con meccanismi di interruzione delle conversazioni che violano le linee guida sui contenuti dannosi. L'azienda ha presentato questi meccanismi come una protezione contro spam, frodi e altre forme di abuso.

Per quanto riguarda i prezzi, i modelli Translate e Whisper fatturano al minuto. GPT-Realtime-2 fattura in base al consumo di token. Tutti e tre sono disponibili tramite l'API Realtime di OpenAI, accessibile tramite connessioni WebRTC, WebSocket e SIP.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Domande frequenti

Che cos'è GPT-Realtime-2?

GPT-Realtime-2 è il nuovo modello vocale di OpenAI con capacità di ragionamento di livello GPT-5, progettato per conversazioni in tempo reale in cui l'IA deve gestire richieste complesse, chiamare strumenti e riprendersi dalle interruzioni.

Quante lingue supporta GPT-Realtime-Translate?

GPT-Realtime-Translate accetta il parlato in oltre 70 lingue di input e può tradurre in 13 lingue di output in tempo reale.

Come vengono prezzati i nuovi modelli vocali?

GPT-Realtime-Translate e GPT-Realtime-Whisper vengono fatturati al minuto, mentre GPT-Realtime-2 viene fatturato in base al consumo di token.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO