OpenAI于3月24日宣布,将推出一系列更新,使ChatGPT的AI语音助手更加人性化、响应更迅速,并减少用户在句子中间被打断的情况。这些更新使ChatGPT成为Sesame和Alexa等竞争对手更强劲的对手。.
OpenAI发布了其AI语音功能“高级语音模式”的更新,该功能支持ChatGPT中的实时对话,旨在使AI助手更加人性化,并减少对用户的干扰。此次更新主要有两个方面:一是打造更具互动性的AI助手,二是减少用户被打断的情况。
OpenAI 的后训练研究员 Manuka Stratta 在周一发布于公司官方社交媒体频道的一段演示视频中宣布了这些变化。在演示视频中,Manuka 展示了新模型如何让用户有时间思考和发言而不会被打断。.
OpenAI改进AI语音助手,实现更自然的对话
OpenAI 发布公告,推出更新版 ChatGPT 语音模式。该模式中断更少,允许自然停顿,所有用户均可使用。付费用户还可获得更佳的语音模型,该模型被描述为更具吸引力、更直接、更简洁。
- 蒂博尔·布拉霍 (@btibor91) 2025 年 3 月 24 日
ChatGPT 推出了全新的高级语音模式,免费用户和付费用户(包括 Plus、Teams、Edu、Business 和 Pro 套餐用户)均可使用。这项更新后的功能支持在 ChatGPT 内进行实时对话,增强了 AI 助手的灵活性,并最大限度地减少了用户交互过程中的中断。.
此次更新正值人工智能语音助手领域竞争日益激烈之际。OpenAI面临着来自新晋企业的压力,例如Sesame——一家由Andreessen Horowitz投资的初创公司,其自然流畅的人工智能语音Maya和Miles迅速走红——以及亚马逊,后者正准备对Alexa进行大规模的语言模型升级。.
“因为它对你的干扰较少,你将有更多的时间整理思绪,而不会感觉自己必须时刻填补所有的空白和沉默。”
-麦卢卡层
OpenAI 发言人表示,面向付费用户的全新 AI 语音助手“回答更加直接、引人入胜、简洁明了、具体且富有创意”。.
OpenAI 还宣布推出用于matic 语音识别 (ASR) 和文本转语音 (TTS) 的新模型,标志着人工智能驱动的语音技术又向前迈进了一步。这些新模型承诺兼具准确性和经济性,使其成为企业部署人工智能语音代理的理想选择。.
全新的自动语音识别(ASR)模型——gpt-4o-transcribe 和 gpt-4o-mini-transcribe——相比 OpenAI 此前最先进的转录模型 Whisper 有了显著的提升。这些模型不仅降低了词错误率,还能更好地处理各种语言、口音和背景噪音。新的文本转语音(TTS)模型能够生成高度逼真、语调自然、富有表现力的声音。这些模型可以利用自然语言提示来塑造声音的音调、情感和表达方式。.
ChatGPT AI语音助手让用户感到更加孤独
OpenAI与麻省理工学院媒体实验室合作开展的一项新研究表明,大多数ChatGPT用户将这款人工智能助手用于实际用途。该研究分析了近4000万次ChatGPT交互,并将用户分为不同组别:一些用户仅使用文本,而另一些用户则尝试与人工智能角色进行语音交互——其中一个角色被设计得更富情感,而另一个则保持中立。
数据显示,那些重度依赖高级语音模式的用户与ChatGPT建立了更tron的情感联系,有些人甚至将其视为“朋友”。语音功能的效果因人而异,短暂的互动可以改善用户的情绪,而长时间的日常使用有时则会产生相反的效果。
研究结果表明,私人谈话与较高的孤独感相关,但与较低的情感依赖性相关。相比之下,非私人谈话则呈现出不同的模式,随着谈话次数的增加,情感依赖性水平也随之升高。.
参与该项目的OpenAI安全研究员Jason Phang表示,OpenAI所做的很多工作都还处于初步阶段,但该公司试图开启关于衡量这些影响以及对用户长期影响的讨论。伦敦国王学院人工智能与社会学教授Kate Devlin表示,人们在使用ChatGPT时可能并非出于情感因素,但他们无法将自身作为人类的行为与技术互动割裂开来。.

