每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

OpenAI 正式推出了三款全新的实时语音模型。这些模型不仅集成了 GPT-5 级别的推理能力，还对同声传译行业造成了巨大冲击：

它能够紧密跟随发言人的节奏进行同声传译，而成本仅为每分钟两毛五分钱。

这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们将端到端的语音推理、同声传译以及流式转写三大功能整合到了同一套 API 中。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

实际效果令人惊叹。

OpenAI 员工 Jason Liu 对着麦克风说英语，GPT-Realtime-Translate 模型便立刻实时将其翻译成了日语。整个翻译过程是流式的，无需等待说话人说完一整句话，翻译结果便会随之开始输出。

另一位网友 Claire Vo 结合了 ChatPRD 和 GPT-Realtime-2。她对着麦克风说了一句：“帮我写一份产品需求文档。” 在接下来的十分钟里，她没有碰过一次键盘，仅通过语音对话，AI 就生成了一份完整的 PRD。随后，她又用语音要求修改格式，AI 也实时进行了更新。整个过程完全由对话驱动，无需键盘操作。

网友 Ben Badejo 则将 GPT-Realtime-2 与 OpenClaw 集成在一起，用语音指挥 AI 操控浏览器：“打开 Google，跳转到华尔街日报。” AI 一边执行指令，一边主动汇报进度：“正在打开浏览器……现在跳转中。”

他表示，自己从三月份就开始琢磨如何为自己的龙虾搭建一个语音对讲系统，而现在只需要将 OpenClaw 连接到新的 OpenAI 模型即可。仅仅几分钟，就完成了重大升级。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

OpenAI 此次发布的三款模型各有其明确的定位：

GPT-Realtime-2：具备 GPT-5 级别的推理能力，能够像人一样交流并处理事务。
GPT-Realtime-Translate：可以将 70 多种语言实时翻译成 13 种语言输出，每分钟成本约 2 毛 5。
GPT-Realtime-Whisper：专注于低延迟的实时语音转录，实现边说边出文字。

官方表示，语音正逐渐成为人们使用软件最自然的方式之一。这三款模型共同将语音交互从简单的“听话回话”推向了真正“能干活”的交互界面——大模型现在真的能像人类一样，一边和你聊天，一边就把活干了。

三款新模型：能听、能译、能推理

GPT-Realtime-2 是本次发布的重中之重。

这是 OpenAI 首款搭载 GPT-5 级推理能力的语音模型，真正将推理能力融入了端到端的语音交互中。

最直接的升级在于上下文窗口：从 32K 直接提升到了 128K，翻了整整 4 倍。这意味着语音 Agent 能够支撑更长的对话，处理更复杂的任务流程，而不会聊着聊着就忘记之前的对话内容。

推理强度还可以进行 5 档调节：minimal、low、medium、high、xhigh，默认设置为 low。查询天气时用 low 档可以快速响应，而如果抛给它一个复杂的商业分析问题，则可以用 xhigh 档让它慢慢推演。

但最能体现 GPT-5 级推理能力的，是它学会了边说话边干活。

以往的语音助手，你说一句它回一句，脑子里一次只能处理一件事。而 GPT-Realtime-2 现在支持并行工具调用，可以一边说“我正在查您的日程表”，一边在后台同时调用地图、日历和租房软件。

在官方演示中，负责人 Romain Huet 对着手机上的个人助手说：“我马上有个客户会议，能帮我看一下日程吗？” 模型会立刻查看日历，回复说 12 分钟后有一个与 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着，它会更新 CRM，将今天的会议摘要和后续步骤录入系统。

它还学会了“Preambles”，也就是前置语。当后台正在拉取数据时，它会先对你说“让我核实一下”或“稍等片刻”。这个看似废话的设计，极大地缓解了用户等待时的焦虑感。人在思考时也会说“呃，让我想想”，现在 AI 也学会了。

语气也是可控的，可以按需切换为平静、共情或兴奋等模式。

性能表现如何？

在评估音频推理能力的 Big Bench Audio 榜单上，GPT-Realtime-2（high 档）得分高达 96.6%，而上代模型仅为 81.4%，提升了 15.2 个百分点。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

在测试多轮对话指令跟随的 Audio MultiChallenge 中，xhigh 档得分达到 48.5%，而上代模型只有 34.7%，又提升了 13.8 个百分点。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

定价方面，GPT-Realtime-2 按 token 计费：音频输入 token 为 $32/1M，音频输出 token 为 $64/1M，缓存输入仅需 $0.40。价格与上一代 GPT-Realtime-1.5 持平，但能力实现了大幅跃升。

在企业实测中，Zillow 使用最难的对抗性基准进行测试，通话成功率从 69% 直接跃升至 95%，提升了 26 个百分点。Zillow 的 SVP Josh Weisberg 表示：“GPT-Realtime-2 在复杂语音交互中的智能和工具调用可靠性最为突出，Fair Housing 合规性也显著增强。” 这意味着语音 Agent 不再仅仅是接听电话，而是真正能够处理高价值、高合规要求的业务场景。

再来看看另外两款模型。

GPT-Realtime-Translate，流式同声传译。它真正将同声传译的成本降到了“白菜价”。支持 70 多种语言输入和 13 种语言输出。它并非一句一句翻译的回合制，而是说话人一边说母语，系统一边实时输出翻译，几乎没有停顿。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

定价为 $0.034/分钟，折合人民币约 2 毛 5。按此价格计算，连续翻译一小时成本不到 15 元，甚至比一杯奶茶还便宜。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

它对口音和方言的包容度也很高。印度 AI 公司 BolnaAI 使用印地语、泰米尔语、泰卢固语等口音浓重的语言进行测试，WER（词错误率）比其他模型低 12.5%，且延迟足以维持自然对话。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

GPT-Realtime-Whisper，流式实时转录。它能够实现边说边出文字的低延迟语音转文字功能。定价为 $0.017/分钟，折合人民币约 1 毛钱，一小时连续转写成本不到 6 元。其主要应用场景包括实时字幕、会议速记、客服通话记录和课堂笔记。以后开会，领导刚说完前半句，屏幕上的文字就已经跟上了。

同传更有性价比了

OpenAI 这三款语音模型，对同声传译行业的冲击无疑是最大的。

我们来算一笔账：

人工同声传译，英语语种一天收费 1.2 万到 2.1 万元；非英语语种，如日语、韩语、阿拉伯语，则从 1.8 万元起。通常需要 2 到 3 名译员轮换，折算下来每小时收费数千至上万元。这还不包括设备费用：同传间、耳机、接收器，一套专业设备租用一天也要几千元。

因此，过去能用上同传服务的，基本只有国际峰会、跨国企业董事会、高端医疗会诊和法律仲裁等场景。普通开发者、中小教育机构、出海创业公司基本与此无缘。

但现在，OpenAI 亲自下场，将这项服务做成了 API：

GPT-Realtime-Translate，定价仅为 $0.034/分钟，折合人民币 0.25 元/分钟。按此价格计算，连续翻译 8 小时，总成本不到 120 元，还不到人工同传两分钟的费用，其中的差距大约是 66 倍。

人工智能对传统行业的冲击……又一次变得具体而清晰。

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

不过，AI 同传与人工同传目前还不是完全的替代关系。更准确地说，OpenAI 所做的，是“让同传这件事不再是特权”。过去只有大型企业、政府机构、高端会议才能用得起的服务，现在任何开发者都可以将其接入自己的产品。一个出海电商客服系统、一个跨国视频会议工具、一个在线教育平台，甚至一个个人 Chrome 插件，都能拥有实时多语言翻译能力。

可以预见，人类同传的价值将会向上迁移。文化语境、创意表达、法律精确性、医疗专业性等，这些机器在短期内还难以替代。但基础的、高频的、标准化的翻译需求，将会被 API 大规模地吞噬。

One More Thing

聊了这么多，这三款新模型该如何接入呢？

最快的方式是打开 OpenAI Playground（地址附在下方），直接在浏览器中测试。三款模型均可用，无需编写任何代码。

对于希望将其集成到自身应用中的开发者，官方提供了Codex prompt模板，可以一键将GPT-Realtime-2接入现有App或启动新项目。

在成本方面，Whisper最为经济，连续转写一小时约需1美元；Translate处于中等价位，每小时约2美元。

Realtime-2则按token计费，实际开销取决于对话量和推理强度，价格与上一代产品持平。

感兴趣的朋友们，快去亲自体验吧~

Playground地址：
https://platform.openai.com/login?next=%2Faudio%2Frealtime

参考链接：
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33627

每分钟2毛5！OpenAI三款实时语音模型上线，GPT-5级推理+同声传译，彻底颠覆语音交互

三款新模型：能听、能译、能推理

同传更有性价比了

One More Thing

相关推荐

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

美学驱动AI创作革命：Elser.AI如何重塑短剧产业生态

AI营销新趋势：快手商业AI如何打通全链路，破解行业协同难题

Claude企业版发布即遭开源项目“贴脸开大”！托管智能体服务被Mul tica秒跟，网友反应笑不活

华为天才少年创业：全球首个虚实融合实时交互视频模型X1，让童年幻想“滚球兽”走进现实