OpenAI 正式推出了三款全新的实时语音模型。这些模型不仅集成了 GPT-5 级别的推理能力,还对同声传译行业造成了巨大冲击:
它能够紧密跟随发言人的节奏进行同声传译,而成本仅为每分钟两毛五分钱。
这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们将端到端的语音推理、同声传译以及流式转写三大功能整合到了同一套 API 中。

实际效果令人惊叹。
OpenAI 员工 Jason Liu 对着麦克风说英语,GPT-Realtime-Translate 模型便立刻实时将其翻译成了日语。整个翻译过程是流式的,无需等待说话人说完一整句话,翻译结果便会随之开始输出。
另一位网友 Claire Vo 结合了 ChatPRD 和 GPT-Realtime-2。她对着麦克风说了一句:“帮我写一份产品需求文档。” 在接下来的十分钟里,她没有碰过一次键盘,仅通过语音对话,AI 就生成了一份完整的 PRD。随后,她又用语音要求修改格式,AI 也实时进行了更新。整个过程完全由对话驱动,无需键盘操作。
网友 Ben Badejo 则将 GPT-Realtime-2 与 OpenClaw 集成在一起,用语音指挥 AI 操控浏览器:“打开 Google,跳转到华尔街日报。” AI 一边执行指令,一边主动汇报进度:“正在打开浏览器……现在跳转中。”
他表示,自己从三月份就开始琢磨如何为自己的龙虾搭建一个语音对讲系统,而现在只需要将 OpenClaw 连接到新的 OpenAI 模型即可。仅仅几分钟,就完成了重大升级。

OpenAI 此次发布的三款模型各有其明确的定位:
- GPT-Realtime-2:具备 GPT-5 级别的推理能力,能够像人一样交流并处理事务。
- GPT-Realtime-Translate:可以将 70 多种语言实时翻译成 13 种语言输出,每分钟成本约 2 毛 5。
- GPT-Realtime-Whisper:专注于低延迟的实时语音转录,实现边说边出文字。
官方表示,语音正逐渐成为人们使用软件最自然的方式之一。这三款模型共同将语音交互从简单的“听话回话”推向了真正“能干活”的交互界面——大模型现在真的能像人类一样,一边和你聊天,一边就把活干了。
三款新模型:能听、能译、能推理
GPT-Realtime-2 是本次发布的重中之重。
这是 OpenAI 首款搭载 GPT-5 级推理能力的语音模型,真正将推理能力融入了端到端的语音交互中。
最直接的升级在于上下文窗口:从 32K 直接提升到了 128K,翻了整整 4 倍。这意味着语音 Agent 能够支撑更长的对话,处理更复杂的任务流程,而不会聊着聊着就忘记之前的对话内容。
推理强度还可以进行 5 档调节:minimal、low、medium、high、xhigh,默认设置为 low。查询天气时用 low 档可以快速响应,而如果抛给它一个复杂的商业分析问题,则可以用 xhigh 档让它慢慢推演。
但最能体现 GPT-5 级推理能力的,是它学会了边说话边干活。
以往的语音助手,你说一句它回一句,脑子里一次只能处理一件事。而 GPT-Realtime-2 现在支持并行工具调用,可以一边说“我正在查您的日程表”,一边在后台同时调用地图、日历和租房软件。
在官方演示中,负责人 Romain Huet 对着手机上的个人助手说:“我马上有个客户会议,能帮我看一下日程吗?” 模型会立刻查看日历,回复说 12 分钟后有一个与 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着,它会更新 CRM,将今天的会议摘要和后续步骤录入系统。
它还学会了“Preambles”,也就是前置语。当后台正在拉取数据时,它会先对你说“让我核实一下”或“稍等片刻”。这个看似废话的设计,极大地缓解了用户等待时的焦虑感。人在思考时也会说“呃,让我想想”,现在 AI 也学会了。
语气也是可控的,可以按需切换为平静、共情或兴奋等模式。
性能表现如何?
在评估音频推理能力的 Big Bench Audio 榜单上,GPT-Realtime-2(high 档)得分高达 96.6%,而上代模型仅为 81.4%,提升了 15.2 个百分点。

在测试多轮对话指令跟随的 Audio MultiChallenge 中,xhigh 档得分达到 48.5%,而上代模型只有 34.7%,又提升了 13.8 个百分点。

定价方面,GPT-Realtime-2 按 token 计费:音频输入 token 为 $32/1M,音频输出 token 为 $64/1M,缓存输入仅需 $0.40。价格与上一代 GPT-Realtime-1.5 持平,但能力实现了大幅跃升。
在企业实测中,Zillow 使用最难的对抗性基准进行测试,通话成功率从 69% 直接跃升至 95%,提升了 26 个百分点。Zillow 的 SVP Josh Weisberg 表示:“GPT-Realtime-2 在复杂语音交互中的智能和工具调用可靠性最为突出,Fair Housing 合规性也显著增强。” 这意味着语音 Agent 不再仅仅是接听电话,而是真正能够处理高价值、高合规要求的业务场景。
再来看看另外两款模型。
GPT-Realtime-Translate,流式同声传译。它真正将同声传译的成本降到了“白菜价”。支持 70 多种语言输入和 13 种语言输出。它并非一句一句翻译的回合制,而是说话人一边说母语,系统一边实时输出翻译,几乎没有停顿。

定价为 $0.034/分钟,折合人民币约 2 毛 5。按此价格计算,连续翻译一小时成本不到 15 元,甚至比一杯奶茶还便宜。

它对口音和方言的包容度也很高。印度 AI 公司 BolnaAI 使用印地语、泰米尔语、泰卢固语等口音浓重的语言进行测试,WER(词错误率)比其他模型低 12.5%,且延迟足以维持自然对话。

GPT-Realtime-Whisper,流式实时转录。它能够实现边说边出文字的低延迟语音转文字功能。定价为 $0.017/分钟,折合人民币约 1 毛钱,一小时连续转写成本不到 6 元。其主要应用场景包括实时字幕、会议速记、客服通话记录和课堂笔记。以后开会,领导刚说完前半句,屏幕上的文字就已经跟上了。
同传更有性价比了
OpenAI 这三款语音模型,对同声传译行业的冲击无疑是最大的。
我们来算一笔账:
人工同声传译,英语语种一天收费 1.2 万到 2.1 万元;非英语语种,如日语、韩语、阿拉伯语,则从 1.8 万元起。通常需要 2 到 3 名译员轮换,折算下来每小时收费数千至上万元。这还不包括设备费用:同传间、耳机、接收器,一套专业设备租用一天也要几千元。
因此,过去能用上同传服务的,基本只有国际峰会、跨国企业董事会、高端医疗会诊和法律仲裁等场景。普通开发者、中小教育机构、出海创业公司基本与此无缘。
但现在,OpenAI 亲自下场,将这项服务做成了 API:
GPT-Realtime-Translate,定价仅为 $0.034/分钟,折合人民币 0.25 元/分钟。按此价格计算,连续翻译 8 小时,总成本不到 120 元,还不到人工同传两分钟的费用,其中的差距大约是 66 倍。
人工智能对传统行业的冲击……又一次变得具体而清晰。

不过,AI 同传与人工同传目前还不是完全的替代关系。更准确地说,OpenAI 所做的,是“让同传这件事不再是特权”。过去只有大型企业、政府机构、高端会议才能用得起的服务,现在任何开发者都可以将其接入自己的产品。一个出海电商客服系统、一个跨国视频会议工具、一个在线教育平台,甚至一个个人 Chrome 插件,都能拥有实时多语言翻译能力。
可以预见,人类同传的价值将会向上迁移。文化语境、创意表达、法律精确性、医疗专业性等,这些机器在短期内还难以替代。但基础的、高频的、标准化的翻译需求,将会被 API 大规模地吞噬。
One More Thing
聊了这么多,这三款新模型该如何接入呢?
最快的方式是打开 OpenAI Playground(地址附在下方),直接在浏览器中测试。三款模型均可用,无需编写任何代码。
对于希望将其集成到自身应用中的开发者,官方提供了Codex prompt模板,可以一键将GPT-Realtime-2接入现有App或启动新项目。
在成本方面,Whisper最为经济,连续转写一小时约需1美元;Translate处于中等价位,每小时约2美元。
Realtime-2则按token计费,实际开销取决于对话量和推理强度,价格与上一代产品持平。
感兴趣的朋友们,快去亲自体验吧~
Playground地址:
https://platform.openai.com/login?next=%2Faudio%2Frealtime
参考链接:
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33627

