每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

OpenAI 正式推出了三款全新的实时语音模型。这些模型不仅集成了 GPT-5 级别的推理能力,还对同声传译行业造成了巨大冲击:

它能够紧密跟随发言人的节奏进行同声传译,而成本仅为每分钟两毛五分钱

这三款模型分别是 GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper。它们将端到端的语音推理、同声传译以及流式转写三大功能整合到了同一套 API 中。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

实际效果令人惊叹。

OpenAI 员工 Jason Liu 对着麦克风说英语,GPT-Realtime-Translate 模型便立刻实时将其翻译成了日语。整个翻译过程是流式的,无需等待说话人说完一整句话,翻译结果便会随之开始输出。

另一位网友 Claire Vo 结合了 ChatPRD 和 GPT-Realtime-2。她对着麦克风说了一句:“帮我写一份产品需求文档。” 在接下来的十分钟里,她没有碰过一次键盘,仅通过语音对话,AI 就生成了一份完整的 PRD。随后,她又用语音要求修改格式,AI 也实时进行了更新。整个过程完全由对话驱动,无需键盘操作。

网友 Ben Badejo 则将 GPT-Realtime-2 与 OpenClaw 集成在一起,用语音指挥 AI 操控浏览器:“打开 Google,跳转到华尔街日报。” AI 一边执行指令,一边主动汇报进度:“正在打开浏览器……现在跳转中。”

他表示,自己从三月份就开始琢磨如何为自己的龙虾搭建一个语音对讲系统,而现在只需要将 OpenClaw 连接到新的 OpenAI 模型即可。仅仅几分钟,就完成了重大升级。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

OpenAI 此次发布的三款模型各有其明确的定位:

  • GPT-Realtime-2:具备 GPT-5 级别的推理能力,能够像人一样交流并处理事务。
  • GPT-Realtime-Translate:可以将 70 多种语言实时翻译成 13 种语言输出,每分钟成本约 2 毛 5。
  • GPT-Realtime-Whisper:专注于低延迟的实时语音转录,实现边说边出文字。

官方表示,语音正逐渐成为人们使用软件最自然的方式之一。这三款模型共同将语音交互从简单的“听话回话”推向了真正“能干活”的交互界面——大模型现在真的能像人类一样,一边和你聊天,一边就把活干了。

三款新模型:能听、能译、能推理

GPT-Realtime-2 是本次发布的重中之重。

这是 OpenAI 首款搭载 GPT-5 级推理能力的语音模型,真正将推理能力融入了端到端的语音交互中。

最直接的升级在于上下文窗口:从 32K 直接提升到了 128K,翻了整整 4 倍。这意味着语音 Agent 能够支撑更长的对话,处理更复杂的任务流程,而不会聊着聊着就忘记之前的对话内容。

推理强度还可以进行 5 档调节:minimal、low、medium、high、xhigh,默认设置为 low。查询天气时用 low 档可以快速响应,而如果抛给它一个复杂的商业分析问题,则可以用 xhigh 档让它慢慢推演。

但最能体现 GPT-5 级推理能力的,是它学会了边说话边干活

以往的语音助手,你说一句它回一句,脑子里一次只能处理一件事。而 GPT-Realtime-2 现在支持并行工具调用,可以一边说“我正在查您的日程表”,一边在后台同时调用地图、日历和租房软件。

在官方演示中,负责人 Romain Huet 对着手机上的个人助手说:“我马上有个客户会议,能帮我看一下日程吗?” 模型会立刻查看日历,回复说 12 分钟后有一个与 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着,它会更新 CRM,将今天的会议摘要和后续步骤录入系统。

它还学会了“Preambles”,也就是前置语。当后台正在拉取数据时,它会先对你说“让我核实一下”或“稍等片刻”。这个看似废话的设计,极大地缓解了用户等待时的焦虑感。人在思考时也会说“呃,让我想想”,现在 AI 也学会了。

语气也是可控的,可以按需切换为平静、共情或兴奋等模式。

性能表现如何?

在评估音频推理能力的 Big Bench Audio 榜单上,GPT-Realtime-2(high 档)得分高达 96.6%,而上代模型仅为 81.4%,提升了 15.2 个百分点。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

在测试多轮对话指令跟随的 Audio MultiChallenge 中,xhigh 档得分达到 48.5%,而上代模型只有 34.7%,又提升了 13.8 个百分点。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

定价方面,GPT-Realtime-2 按 token 计费:音频输入 token 为 $32/1M,音频输出 token 为 $64/1M,缓存输入仅需 $0.40。价格与上一代 GPT-Realtime-1.5 持平,但能力实现了大幅跃升。

在企业实测中,Zillow 使用最难的对抗性基准进行测试,通话成功率从 69% 直接跃升至 95%,提升了 26 个百分点。Zillow 的 SVP Josh Weisberg 表示:“GPT-Realtime-2 在复杂语音交互中的智能和工具调用可靠性最为突出,Fair Housing 合规性也显著增强。” 这意味着语音 Agent 不再仅仅是接听电话,而是真正能够处理高价值、高合规要求的业务场景。

再来看看另外两款模型。

GPT-Realtime-Translate,流式同声传译。它真正将同声传译的成本降到了“白菜价”。支持 70 多种语言输入和 13 种语言输出。它并非一句一句翻译的回合制,而是说话人一边说母语,系统一边实时输出翻译,几乎没有停顿。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

定价为 $0.034/分钟,折合人民币约 2 毛 5。按此价格计算,连续翻译一小时成本不到 15 元,甚至比一杯奶茶还便宜。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

它对口音和方言的包容度也很高。印度 AI 公司 BolnaAI 使用印地语、泰米尔语、泰卢固语等口音浓重的语言进行测试,WER(词错误率)比其他模型低 12.5%,且延迟足以维持自然对话。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

GPT-Realtime-Whisper,流式实时转录。它能够实现边说边出文字的低延迟语音转文字功能。定价为 $0.017/分钟,折合人民币约 1 毛钱,一小时连续转写成本不到 6 元。其主要应用场景包括实时字幕、会议速记、客服通话记录和课堂笔记。以后开会,领导刚说完前半句,屏幕上的文字就已经跟上了。

同传更有性价比了

OpenAI 这三款语音模型,对同声传译行业的冲击无疑是最大的。

我们来算一笔账:

人工同声传译,英语语种一天收费 1.2 万到 2.1 万元;非英语语种,如日语、韩语、阿拉伯语,则从 1.8 万元起。通常需要 2 到 3 名译员轮换,折算下来每小时收费数千至上万元。这还不包括设备费用:同传间、耳机、接收器,一套专业设备租用一天也要几千元。

因此,过去能用上同传服务的,基本只有国际峰会、跨国企业董事会、高端医疗会诊和法律仲裁等场景。普通开发者、中小教育机构、出海创业公司基本与此无缘。

但现在,OpenAI 亲自下场,将这项服务做成了 API:

GPT-Realtime-Translate,定价仅为 $0.034/分钟,折合人民币 0.25 元/分钟。按此价格计算,连续翻译 8 小时,总成本不到 120 元,还不到人工同传两分钟的费用,其中的差距大约是 66 倍

人工智能对传统行业的冲击……又一次变得具体而清晰。

每分钟2毛5!OpenAI三款实时语音模型上线,GPT-5级推理+同声传译,彻底颠覆语音交互

不过,AI 同传与人工同传目前还不是完全的替代关系。更准确地说,OpenAI 所做的,是“让同传这件事不再是特权”。过去只有大型企业、政府机构、高端会议才能用得起的服务,现在任何开发者都可以将其接入自己的产品。一个出海电商客服系统、一个跨国视频会议工具、一个在线教育平台,甚至一个个人 Chrome 插件,都能拥有实时多语言翻译能力。

可以预见,人类同传的价值将会向上迁移。文化语境、创意表达、法律精确性、医疗专业性等,这些机器在短期内还难以替代。但基础的、高频的、标准化的翻译需求,将会被 API 大规模地吞噬。

One More Thing

聊了这么多,这三款新模型该如何接入呢?

最快的方式是打开 OpenAI Playground(地址附在下方),直接在浏览器中测试。三款模型均可用,无需编写任何代码。

对于希望将其集成到自身应用中的开发者,官方提供了Codex prompt模板,可以一键将GPT-Realtime-2接入现有App或启动新项目。

在成本方面,Whisper最为经济,连续转写一小时约需1美元;Translate处于中等价位,每小时约2美元。

Realtime-2则按token计费,实际开销取决于对话量和推理强度,价格与上一代产品持平。

感兴趣的朋友们,快去亲自体验吧~

Playground地址:
https://platform.openai.com/login?next=%2Faudio%2Frealtime

参考链接:
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33627

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替

    MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替 MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。…

    2026年2月13日
    57900
  • 美学驱动AI创作革命:Elser.AI如何重塑短剧产业生态

    在人工智能技术席卷内容创作领域的当下,一个由哲学美学背景团队打造的AI工具——Elser.AI,正悄然改写短剧与漫剧的生产规则。这款工具不仅降低了影视创作的技术门槛,更通过独特的审美架构,实现了从文本到影像的智能化转换,为创作者提供了前所未有的自由度和控制权。 Elser.AI的核心创新在于其将美学系统与AI生成技术深度融合的设计理念。与传统的AI视频生成工…

    2025年11月24日
    48100
  • AI营销新趋势:快手商业AI如何打通全链路,破解行业协同难题

    AI营销新趋势:快手商业AI如何打通全链路,破解行业协同难题 AI进入营销行业,已经是定局。 市场研究数据显示,去年中国AI营销市场规模已达数百亿元,并保持高速增长。这个增速背后,是整个行业链条——从内容生产到投放决策——的集中押注。 但市场大,不等于落地深。 当前绝大多数AI营销工具仍以单点形态存在,各自解决一个局部问题,而不同环节之间,还是要靠广告主自己…

    2026年3月31日
    28200
  • Claude企业版发布即遭开源项目“贴脸开大”!托管智能体服务被Mul tica秒跟,网友反应笑不活

    Claude企业版发布即遭开源项目“贴脸开大” 刚刚,Claude推出“企业版”服务,发布Claude Managed Agents,结果被开源项目迅速跟进。 Claude Managed Agents是一套支持模块化组合的API套件,旨在帮助企业规模化构建和部署云端托管的智能体。它将性能优化的智能体运行框架与生产级基础设施深度整合。 用户只需用自然语言描述…

    2026年4月9日
    53900
  • 华为天才少年创业:全球首个虚实融合实时交互视频模型X1,让童年幻想“滚球兽”走进现实

    还记得童年的那个愿望吗? 随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。 彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。 而现…

    2026年2月9日
    46200