OpenAI 提供的语音模型能够实时进行推理、翻译和转录。

- OpenAI 在其 API 中推出了三个实时语音模型。.
- 语音模型支持 70 多种输入语言,并支持 GPT-Realtime-Whisper 进行实时转录。.
- Translate 和 Whisper 按分钟计费,而 GPT-Realtime-2 按代币计费。.
OpenAI 于周三在其 API 中发布了新一代语音模型,为开发者提供了构建应用程序的工具,这些应用程序可以对口语请求进行推理,翻译 70 多种语言,并实时转录语音。.
这三个模型分别命名为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们将人工智能语音界面从简单的问答交流提升到了一个全新的领域,在这个领域中,人工智能代理可以在对话过程中聆听、思考和行动。.
GPT-Realtime-2 为语音识别带来更敏锐的推理能力
GPT-Realtime-2 是旗舰产品。OpenAI 表示,它提供了与 GPT-5 相当的推理能力,相比其前代产品 GPT-Realtime-1.5 有了显著提升。.
基准测试 Big Bench Audio 上的得分提高了 15.2%, 音频智能在测试多轮口语对话中指令遵循能力的 Audio MultiChallenge 测试中得分提高了 13.8%。
此次实用性升级主要面向构建生产级语音代理的开发者。该模型现在支持 128K 的上下文窗口,是之前 32K 限制的四倍,并提供五个可调节的推理强度等级,从“最低”到“极高”。
它可以同时调用多个工具,通过语音确认从错误中恢复,并在处理请求时生成“让我检查一下”之类的简短过渡短语。.
GPT-Realtime-Translate 可进行实时语音翻译。它接受 70 多种输入语言,并以 13 种语言输出,旨在与说话者的语速保持实时同步。.
GPT-Realtime-Whisper 提供流式语音转文本 (STT) 功能,在说话的同时转录单词,而不是等待完整说话。.
Zillow 和德国电信正在测试量产模型。
多家公司获得了早期使用权限。Zillow 正在开发一款语音助手,它可以处理复杂的房地产查询,处理用于搜索房源的工具调用,并遵守公平住房法规。.
该公司报告称,在使用 GPT-Realtime-2 进行快速优化后,其最难的对抗性基准测试的呼叫成功率提高了 26 个百分点,达到 95%,而此前为 69%。.
德国电信 正在测试客户支持的实时翻译功能,允许来电者使用他们喜欢的语言进行交流,而系统会自动处理双方的语言转换。
Priceline 正在探索一种基于语音的旅行助手,该助手可以在一次会话中管理航班搜索、酒店更改和现场翻译。.
这些模型的目标客户是希望扩大客户服务能力的公司,但也指出了其在教育、媒体、活动和创作平台等领域的潜在应用。.
OpenAI 表示, 他们在新模型中内置了内容审核功能,一旦检测到违反有害内容准则的对话,就会触发相应的拦截机制。该公司将这些防护措施定义为防止垃圾邮件、欺诈和其他形式的滥用行为。
在定价方面,Translate 和 Whisper 模型按分钟计费,而 GPT-Realtime-2 按令牌消耗量计费。这三款模型均可通过 OpenAI 的实时 API 使用,并支持 WebRTC、WebSocket 和 SIP 连接方式。.
不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费。
常见问题解答
什么是 GPT-Realtime-2?
GPT-Realtime-2 是 OpenAI 的新型语音模型,具有 GPT-5 级别的推理能力,专为实时对话而设计,人工智能需要处理复杂的请求、调用工具以及从中断中恢复。.
GPT-Realtime-Translate 支持多少种语言?
GPT-Realtime-Translate 可接受 70 多种输入语言的语音,并能实时翻译成 13 种输出语言。.
新款语音模型的定价如何?
GPT-Realtime-Translate 和 GPT-Realtime-Whisper 按分钟计费,而 GPT-Realtime-2 按代币消耗计费。.
免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















