NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

OpenAI liefert Sprachmodelle, die logisch denken, übersetzen und live transkribieren können

VonRanda MosesRanda Moses
2 Minuten gelesen,
OpenAI liefert Sprachmodelle, die live logisch denken, übersetzen und transkribieren.
  • OpenAI hat drei Echtzeit-Sprachmodelle in seine API integriert.
  • Die Sprachmodelle unterstützen über 70 Eingabesprachen und GPT-Realtime-Whisper für die Live-Transkription.
  • Translate und Whisper rechnen minutengenau ab, während GPT-Realtime-2 tokenbasiert abrechnet.

OpenAI hat am Mittwoch eine neue Generation von Sprachmodellen in seiner API veröffentlicht und bietet Entwicklern damit Werkzeuge, um Anwendungen zu erstellen, die gesprochene Anfragen analysieren, in über 70 Sprachen übersetzen und Sprache in Echtzeit transkribieren können.

Die drei Modelle tragen die Namen GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Sie erweitern die Möglichkeiten von KI-Sprachschnittstellen über einfache Frage-Antwort-Interaktionen hinaus und ermöglichen es einem KI-Agenten, während des Gesprächs zuzuhören, mitzudenken und zu handeln.

GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung

GPT-Realtime-2 ist das Flaggschiff. Laut OpenAI bietet es logisches Denken auf dem Niveau von GPT-5, eine deutliche Verbesserung gegenüber seinem Vorgänger GPT-Realtime-1.5.

Das Modell erzielte bei Big Bench Audio, einem Benchmark für Audio-Intelligenz, ein um 15,2 % höheres Ergebnis und bei Audio MultiChallenge, einem Test für das Befolgen von Anweisungen in mehrteiligen gesprochenen Dialogen, ein um 13,8 % höheres Ergebnis.

Die praktischen Verbesserungen richten sich an Entwickler, die produktive Sprachagenten erstellen. Das Modell unterstützt nun ein Kontextfenster von 128.000, das Vierfache des vorherigen Limits von 32.000, und bietet fünf Stufen des anpassbaren Schlussfolgerungsaufwands von „minimal“ bis „extrem hoch“

Es kann mehrere Tools gleichzeitig aufrufen, Fehler mit gesprochenen Bestätigungen beheben und während der Bearbeitung einer Anfrage kurze Überleitungsphrasen wie „Ich prüfe das kurz“ ausgeben.

GPT-Realtime-Translate ermöglicht die Live-Sprachübersetzung. Es akzeptiert über 70 Eingabesprachen und gibt 13 Sprachen aus, die so konzipiert sind, dass sie in Echtzeit mit dem Sprecher Schritt halten.

GPT-Realtime-Whisper bietet Streaming Speech-to-Text (STT) und transkribiert Wörter, während sie gesprochen werden, anstatt auf eine vollständige Äußerung zu warten.

Zillow und Deutsche Telekom testen die Modelle in der Produktion

Mehrere Unternehmen erhielten frühzeitigen Zugang. Zillow entwickelt einen Sprachassistenten, der komplexe Immobilienanfragen verarbeiten, Suchfunktionen für Immobilienangebote bereitstellen und die Richtlinien für faires Wohnen einhalten kann.

Das Unternehmen meldete eine Verbesserung der Erfolgsquote bei Anrufen um 26 Punkte nach einer schnellen Optimierung mit GPT-Realtime-2, wodurch 95 % im Vergleich zu zuvor 69 % erreicht wurden.

Die Deutsche Telekom testet Echtzeitübersetzung für den Kundensupport. Anrufer können in ihrer bevorzugten Sprache sprechen, während das System die Konvertierung auf beiden Seiten übernimmt.

Priceline prüft die Möglichkeit eines sprachgesteuerten Reiseassistenten, der Flugsuche, Hoteländerungen und Übersetzungen vor Ort in einer einzigen Sitzung durchführen könnte.

Die Modelle richten sich an Unternehmen, die ihre Kundenservicekapazitäten erweitern möchten, weisen aber auch auf mögliche Anwendungsbereiche in den Bereichen Bildung, Medien, Veranstaltungen und Kreativplattformen hin.

OpenAI gab an, die neuen Modelle um eine Inhaltsmoderation erweitert zu haben, die durch Auslöser Konversationen stoppen kann, die gegen die Richtlinien für schädliche Inhalte verstoßen. Das Unternehmen bezeichnete diese Schutzmechanismen als Schutz vor Spam, Betrug und anderen Formen des Missbrauchs.

Die Modelle Translate und Whisper rechnen minutengenau ab, GPT-Realtime-2 hingegen nach Token-Verbrauch. Alle drei Modelle sind über die OpenAI Realtime API verfügbar und können über WebRTC, WebSocket und SIP genutzt werden.

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

Häufig gestellte Fragen

Was ist GPT-Realtime-2?

GPT-Realtime-2 ist das neue Sprachmodell von OpenAI mit GPT-5-Klasse-Logik, das für Live-Konversationen entwickelt wurde, bei denen die KI komplexe Anfragen bearbeiten, Tools aufrufen und sich von Unterbrechungen erholen muss.

Wie viele Sprachen unterstützt GPT-Realtime-Translate?

GPT-Realtime-Translate akzeptiert Sprache in über 70 Eingabesprachen und kann in Echtzeit in 13 Ausgabesprachen übersetzen.

Wie sind die Preise für die neuen Sprachmodelle?

GPT-Realtime-Translate und GPT-Realtime-Whisper werden minutengenau abgerechnet, während GPT-Realtime-2 nach Token-Verbrauch abgerechnet wird.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS