NEUESTE NACHRICHTEN

live Bitcoin steigt auf 67.000 US-Dollar, da das Friedensabkommen zwischen Trump und dem Iran die Märkte in einen Höchststand treibt

Live-Updates vom 15. Juni 2026
„Umgekehrt gedacht“: 10X Research kritisiert BlackRocks neuen Volatilitäts-ETF für Bitcoin

Nachrichten vor 12 Minuten
Binance vereint Kryptowährungen, traditionelle Aktien und DeFi auf einem einzigen Konto und entwickelt sich so zur TriFi-Super-App weiter

Brancheneindrücke ( vor 16 Minuten)
Inveniam schließt MANTRA-Übernahmevertrag in der RWA-Infrastruktur und der Erweiterung privater KI-Marktdaten ab

Nachrichten vor 56 Minuten

FÜR SIE AUSGEWÄHLT

Xiaohongshu peilt bei Börsengang in Hongkong eine Bewertung von 70 Milliarden US-Dollar an

Vor 4 Stunden Technik
Alibabas Debüt mit Roboter-KI signalisiert Chinas Bestreben, die physische Welt zu beherrschen

Vor 12 Stunden Technik
Musks SpaceX überholt Amazon mit 60-Milliarden-Dollar-Deal für den Cursor-Hersteller Anysphere

Vor 16 Stunden · Technik

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

OpenAI liefert Sprachmodelle, die logisch denken, übersetzen und live transkribieren können

Von

Randa Moses

Lesezeit: 2 Minuten, 7. Mai 2026

OpenAI liefert Sprachmodelle, die live logisch denken, übersetzen und transkribieren.

OpenAI hat drei Echtzeit-Sprachmodelle in seine API integriert.
Die Sprachmodelle unterstützen über 70 Eingabesprachen und GPT-Realtime-Whisper für die Live-Transkription.
Translate und Whisper rechnen minutengenau ab, während GPT-Realtime-2 tokenbasiert abrechnet.

OpenAI hat am Mittwoch eine neue Generation von Sprachmodellen in seiner API veröffentlicht und bietet Entwicklern damit Werkzeuge, um Anwendungen zu erstellen, die gesprochene Anfragen analysieren, in über 70 Sprachen übersetzen und Sprache in Echtzeit transkribieren können.

Die drei Modelle tragen die Namen GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Sie erweitern die Möglichkeiten von KI-Sprachschnittstellen über einfache Frage-Antwort-Interaktionen hinaus und ermöglichen es einem KI-Agenten, während des Gesprächs zuzuhören, mitzudenken und zu handeln.

GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung

GPT-Realtime-2 ist das Flaggschiff. Laut OpenAI bietet es logisches Denken auf dem Niveau von GPT-5, eine deutliche Verbesserung gegenüber seinem Vorgänger GPT-Realtime-1.5.

Das Modell erzielte bei Big Bench Audio, einem Benchmark für Audio-Intelligenz, ein um 15,2 % höheres Ergebnis und bei Audio MultiChallenge, einem Test für das Befolgen von Anweisungen in mehrteiligen gesprochenen Dialogen, ein um 13,8 % höheres Ergebnis.

Die praktischen Verbesserungen richten sich an Entwickler, die produktive Sprachagenten erstellen. Das Modell unterstützt nun ein Kontextfenster von 128.000, das Vierfache des vorherigen Limits von 32.000, und bietet fünf Stufen des anpassbaren Schlussfolgerungsaufwands von „minimal“ bis „extrem hoch“

Es kann mehrere Tools gleichzeitig aufrufen, Fehler mit gesprochenen Bestätigungen beheben und während der Bearbeitung einer Anfrage kurze Überleitungsphrasen wie „Ich prüfe das kurz“ ausgeben.

GPT-Realtime-Translate ermöglicht die Live-Sprachübersetzung. Es akzeptiert über 70 Eingabesprachen und gibt 13 Sprachen aus, die so konzipiert sind, dass sie in Echtzeit mit dem Sprecher Schritt halten.

GPT-Realtime-Whisper bietet Streaming Speech-to-Text (STT) und transkribiert Wörter, während sie gesprochen werden, anstatt auf eine vollständige Äußerung zu warten.

Zillow und Deutsche Telekom testen die Modelle in der Produktion

Mehrere Unternehmen erhielten frühzeitigen Zugang. Zillow entwickelt einen Sprachassistenten, der komplexe Immobilienanfragen verarbeiten, Suchfunktionen für Immobilienangebote bereitstellen und die Richtlinien für faires Wohnen einhalten kann.

Das Unternehmen meldete eine Verbesserung der Erfolgsquote bei Anrufen um 26 Punkte nach einer schnellen Optimierung mit GPT-Realtime-2, wodurch 95 % im Vergleich zu zuvor 69 % erreicht wurden.

Die Deutsche Telekom testet Echtzeitübersetzung für den Kundensupport. Anrufer können in ihrer bevorzugten Sprache sprechen, während das System die Konvertierung auf beiden Seiten übernimmt.

Priceline prüft die Möglichkeit eines sprachgesteuerten Reiseassistenten, der Flugsuche, Hoteländerungen und Übersetzungen vor Ort in einer einzigen Sitzung durchführen könnte.

Die Modelle richten sich an Unternehmen, die ihre Kundenservicekapazitäten erweitern möchten, weisen aber auch auf mögliche Anwendungsbereiche in den Bereichen Bildung, Medien, Veranstaltungen und Kreativplattformen hin.

OpenAI gab an, die neuen Modelle um eine Inhaltsmoderation erweitert zu haben, die durch Auslöser Konversationen stoppen kann, die gegen die Richtlinien für schädliche Inhalte verstoßen. Das Unternehmen bezeichnete diese Schutzmechanismen als Schutz vor Spam, Betrug und anderen Formen des Missbrauchs.

Die Modelle Translate und Whisper rechnen minutengenau ab, GPT-Realtime-2 hingegen nach Token-Verbrauch. Alle drei Modelle sind über die OpenAI Realtime API verfügbar und können über WebRTC, WebSocket und SIP genutzt werden.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Häufig gestellte Fragen

Was ist GPT-Realtime-2?

GPT-Realtime-2 ist das neue Sprachmodell von OpenAI mit GPT-5-Klasse-Logik, das für Live-Konversationen entwickelt wurde, bei denen die KI komplexe Anfragen bearbeiten, Tools aufrufen und sich von Unterbrechungen erholen muss.

Wie viele Sprachen unterstützt GPT-Realtime-Translate?

GPT-Realtime-Translate akzeptiert Sprache in über 70 Eingabesprachen und kann in Echtzeit in 13 Ausgabesprachen übersetzen.

Wie sind die Preise für die neuen Sprachmodelle?

GPT-Realtime-Translate und GPT-Realtime-Whisper werden minutengenau abgerechnet, während GPT-Realtime-2 nach Token-Verbrauch abgerechnet wird.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Randa Moses

Randa Moses ist Redakteurin und Reporterin bei Cryptopolitan und berichtet über Technologie, KI, Robotik, Kryptowährungen, Betrug und Hackerangriffe. Sie ist seit 2017 in der Krypto-Branche tätig und arbeitete zuvor bei Forward Protocol, AmaZix und Cryptosomniac. Randa hat einen Abschluss in Elektrotechnik undtronvon der Universität Bradford.

INHALTSVERZEICHNIS

1. GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung

2. Zillow und Deutsche Telekom testen die Modelle in der Produktion

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

OpenAI liefert Sprachmodelle, die logisch denken, übersetzen und live transkribieren können

GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung

Zillow und Deutsche Telekom testen die Modelle in der Produktion

Häufig gestellte Fragen

Was ist GPT-Realtime-2?

Wie viele Sprachen unterstützt GPT-Realtime-Translate?

Wie sind die Preise für die neuen Sprachmodelle?

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

OpenAI liefert Sprachmodelle, die logisch denken, übersetzen und live transkribieren können

GPT-Realtime-2 ermöglicht präzisere logische Schlussfolgerungen in der Sprachverarbeitung

Zillow und Deutsche Telekom testen die Modelle in der Produktion

Häufig gestellte Fragen

Was ist GPT-Realtime-2?

Wie viele Sprachen unterstützt GPT-Realtime-Translate?

Wie sind die Preise für die neuen Sprachmodelle?

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.