纵览网丨ChatGPT 的高级语音模式获得重大更新 听起来更自然
创始人
2025-06-09 15:21:02

OpenAI 去年推出了GPT-4o,同时带来了高级语音模式。该功能使用原生多模态模型(例如 GPT-4o),最快可在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在典型对话中的响应时间相似。它还可以生成更自然的音频,捕捉非语言线索(例如说话速度),并表达情感。

今年年初,OpenAI 发布了高级语音模式的小幅更新,减少了打断并改善了口音。今天,OpenAI 再次对高级语音模式进行了重大升级,使其听起来更加自然、更贴近人类。现在,语音回复的语调更加细腻,节奏更加自然(包括停顿和强调),并且能够更准确地表达某些情绪,例如同情和讽刺。

本次更新还引入了翻译功能。ChatGPT 用户现在可以使用高级语音模式进行语言间翻译。只需命令 ChatGPT 开始翻译,它就会在整个对话过程中持续翻译,直到收到停止指令。此功能有效地取代了对专用语音翻译应用的需求。

目前,更新后的高级语音模式仅适用于 ChatGPT 付费用户。OpenAI 还指出,此最新更新存在一些已知的限制,概述如下。

  • 本次更新偶尔可能会导致音频质量略有下降,例如音调和音调出现意外变化,在某些语音选项中尤其明显。OpenAI 期望能够逐步提升音频的一致性。
  • 语音模式下的罕见幻觉仍然存在,有时会产生类似广告、胡言乱语或背景音乐的意外声音。

尽管仍然存在一些小的限制,但持续的改进表明未来人类和人工智能对话之间的界限将变得越来越模糊。

相关内容

热门资讯

原创 真... 如果你这两年一直在关注真我GT系列,大概会有一种很明显的感觉:它已经不再满足于“堆性能做跑分机器”,...
智能体如何学会「想象」?深度解... 长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入...
原创 果... 前几日,美国政府宣布允许英伟达向中国出口H200芯片,消息一出,英伟达的股价在盘后涨了2.34%,连...
中国英伟达们相继上市,但对国产... 来源:市场资讯 (来源:虎嗅APP) 出品|虎嗅科技组 作者|陈伊凡 编辑|苗正卿 头图|视觉中国...
英伟达真正的对手是谁 数智之道 刘劲 段磊 李嘉欣/文 算力是人工智能最重要的基础设施和发展引擎。AI算力的代表企业英伟...