最新ニュース
あなたへのおすすめ
週刊
トップの座を維持する

最高の仮想通貨情報をあなたの受信トレイに直接お届けします。.

OpenAIは、推論、翻訳、リアルタイム文字起こしを行う音声モデルを出荷している。

によるランダ・モーゼスランダ・モーゼス
2分で読めます
OpenAIは、推論、翻訳、文字起こしをリアルタイムで行う音声モデルを出荷している。.
  • OpenAIは、API上で3つのリアルタイム音声モデルを公開した。.
  • 音声モデルは70以上の入力言語に対応しており、リアルタイム文字起こしにはGPT-Realtime-Whisperが使用されています。.
  • TranslateとWhisperは分単位で課金されるのに対し、GPT-Realtime-2はトークン単位で課金される。.

OpenAIは水曜日、APIに新世代の音声モデルをリリースした。これにより、開発者は音声によるリクエストを推論したり、70以上の言語間で翻訳したり、音声をリアルタイムで書き起こしたりできるアプリを構築するためのツールを利用できるようになる。.

これらの3つのモデルは、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperと名付けられています。これらは、AI音声インターフェースを単純な質疑応答のやり取りの域を超え、AIエージェントが会話の途中で聞き取り、考え、行動できる領域へと進化させます。.

GPT-Realtime-2は音声認識に、より鋭い推論能力をもたらす

GPT-Realtime-2は主力製品です。OpenAIによると、GPT-Realtime-1.5から大幅に進化し、GPT-5クラスの推論能力を備えているとのことです。.

のベンチマークであるBig Bench Audioで15.2%高いスコアを記録し、 音声インテリジェンス複数ターンの音声対話における指示理解能力をテストするAudio MultiChallengeでも13.8%高いスコアを記録した。

今回の実用的なアップグレードは、実運用環境で音声エージェントを開発する開発者を対象としています。モデルは、以前の32Kの制限から4倍となる128Kのコンテキストウィンドウをサポートし、「最小限」から「非常に高い」までの5段階の推論負荷調整機能を提供します。

複数のツールを同時に呼び出したり、音声による確認応答でエラーから回復したり、リクエスト処理中に「ちょっと確認させてください」といった短いつなぎのフレーズを生成したりすることができる。.

GPT-Realtime-Translateは、リアルタイムの音声翻訳に対応しています。70以上の入力言語を受け付け、13の言語で出力します。話者の話す速度にリアルタイムで追従するように設計されています。.

GPT-Realtime-Whisperは、ストリーミング音声認識(STT)機能を提供し、発話が完了するのを待つのではなく、話された単語をその場で文字起こしします。.

Zillowとドイツテレコムが量産モデルのテストを実施

複数の企業が早期アクセス権を獲得した。Zillowは、複雑な不動産関連の問い合わせに対応し、物件検索のためのツール呼び出しを処理し、公正住宅法規制を遵守できる音声アシスタントを開発している。.

同社は、GPT-Realtime-2を用いた迅速な最適化により、最も難易度の高い敵対的ベンチマークにおける通話成功率が26ポイント向上し、以前の69%から95%に達したと報告した。.

ドイツテレコムは 、顧客サポート向けにリアルタイム翻訳システムを試験運用している。これにより、発信者は希望する言語で話すことができ、システム側で双方向の翻訳処理を自動で行うことが可能になる。

プライスラインは、フライト検索、ホテル変更、現地での翻訳などを1回のセッションで管理できる音声ベースの旅行アシスタントの開発を検討している。.

これらのモデルは、顧客サービス能力の拡大を目指す企業を対象としているが、教育、メディア、イベント、クリエイタープラットフォームなど、幅広い分野への応用可能性も指摘している。.

OpenAIは 新しいモデルにコンテンツモデレーション機能を組み込み、有害コンテンツガイドラインに違反していると検出された会話を停止させるトリガーを設けたと発表した。同社はこのガードレールを、スパム、詐欺、その他の不正行為に対する保護策として位置づけている。

料金体系についてですが、TranslateとWhisperモデルは分単位で課金されます。GPT-Realtime-2はトークン消費量に応じて課金されます。これら3つのモデルはすべて、WebRTC、WebSocket、SIP接続方式でアクセスできるOpenAIのRealtime APIを通じて利用可能です。.

仮想通貨ニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。 無料です

よくある質問

GPT-Realtime-2とは何ですか?

GPT-Realtime-2は、OpenAIが開発した新しい音声モデルで、GPT-5クラスの推論能力を備えています。複雑な要求への対応、ツールの呼び出し、中断からの復旧など、AIがリアルタイムの会話を処理する必要がある場面向けに設計されています。.

GPT-Realtime-Translateはいくつの言語をサポートしていますか?

GPT-Realtime-Translateは、70以上の入力言語の音声を受け付け、13の出力言語にリアルタイムで翻訳できます。.

新しい音声認識モデルの価格設定はどうなっていますか?

GPT-Realtime-TranslateとGPT-Realtime-Whisperは分単位で課金されますが、GPT-Realtime-2はトークン消費量に応じて課金されます。.

この記事を共有する

免責事項: 本情報は投資助言ではありません。Cryptopolitan.com Cryptopolitan、 本ページの情報に基づいて行われた投資について一切責任を負いません。投資判断を行う前に、ごtrondentdentdentdentdentdentdentdent で調査を行うか、資格のある専門家にご相談されることを

もっと…ニュース
ディープ クリプト
速習コース