AI交互告别“回合制”:200ms微回合,让模型边听边说边思考
AI的交互方式终于突破了“回合制”的桎梏。
Thinking Machines Lab(以下简称 TML)近日发布了其首个模型,将实时交互能力直接嵌入模型的原生架构中。
联合创始人翁荔亲自出镜演示,展示了这一颠覆性的变化:从传统的“人说完→AI答→人再说→AI再答”,进化为“人和AI可以随时插话,话说完、代码也写完了”。
音频与代码同步输出,任务完成与对话结束几乎同时发生。
在测试数据上,该模型的响应延迟比 GPT-realtime-2.0 快了 4 倍,交互质量评估也领先于 GPT-realtime-2.0;仅在模型智力层面,略逊于 GPT-2.0 的 xhigh 模式。

在过去的几个月里,团队共训练了 12 个版本,并留下了 137 页的详细训练日志。

今天,这家由 OpenAI 前 CTO 创办的实验室,终于交出了首份答卷——TML-Interaction-Small 模型。
这也让外界真正理解了“Thinking Machines”的内在含义:将语音助手、视频理解与 Agent 协作统一整合到同一个框架之中。
提升人机交互带宽:模型边听边说边思考
在实际工作中,许多需求根本无法在一开始就完整清晰地表述。
你可能会在描述中途改变方向,看到结果后补充条件,发现模型误解了某个词,或者只想在关键节点插一句“不是这个意思”。
如果人类之间只能通过邮件沟通,效率将极其低下。
目前,大多数 AI 系统的基本交互节奏,正是这种“邮件式”的回合制。
当用户输入时,模型处于等待状态;当模型生成时,它对新信息的感知又会冻结。除非被强行打断,否则它无法感知你正在做什么、看到了什么、在纠结什么。

这种模式将人与 AI 的协作压缩在一个狭窄的通道中,人的知识、意图和判断,大部分都被这条“邮件式”的窄带宽漏掉了。
同时,回合制 AI 系统无法支持精确的时间估计或同步语音任务。
例如,现有 AI 完全无法回答:“我跑一英里花了多长时间?”、“请纠正我的发音错误”或“我写这个函数花了多长时间?”
为了解决这些问题,TML 让 AI 在任何模态下都能实现实时交互,让接口去适应人,而不是反过来让人去迁就接口。

目前,多数 AI 模型解决交互问题的方法是外挂一层 harness,拼接 VAD(语音活动检测)、turn-detection、TTS 等组件,模拟出实时感。
TML 则提出了新的“Bitter Lesson”:
这些拼接出来的系统,长期来看会被通用能力的扩展所追平甚至超越。
若要让交互能力随着智能一起规模扩展,交互能力就必须内建于模型本身。
那么,“将交互内建于模型”具体是如何实现的呢?
前台及时响应,后台处理重任务
这套交互模型最关键的机制,是将连续的音频、视频、文本都切分成 200ms 的“微回合”,让输入和输出在时间上交错输入同一个模型。

沉默、重叠说话、用户自我修正、视觉变化等,都不再是外部状态,而是模型能够直接学习和响应的上下文。
旧方法:模型等待完整的用户轮次,再生成完整的回应;实时感主要依赖外部组件判断谁该说话。
新方法:每 200ms 处理一次输入,同时生成输出,输入和输出像流一样交错进行。
整体架构采用双模型协同工作。
前台模型持续接收新输入、回应追问、维持上下文;后台模型异步执行长推理、工具调用及 Agent 工作流。
当遇到无法即时计算的任务时,Interaction Model 会将完整的对话上下文打包丢给后台。
后台一边计算,结果一边流式回传,前台再选择合适的时机将结果插入对话中。
训练阶段的核心方法是 encoder-free early fusion。
大多数全模态模型要么训练独立的 encoder(类似 Whisper),要么训练独立的 decoder(类似 TTS)。
TML 的做法是:
音频编码不使用庞大的独立 encoder,而是采用 dMel 加一个轻量 embedding 层;图像被切成 40×40 的 patch,由 hMLP 编码;音频输出则用 flow head 解码。
所有这些组件,与 Transformer 一起从头开始共同训练,在训练阶段就让它们共享一个实时互动的语境。

200ms 的响应速度也带来了巨大的工程压力。
每 200ms 一次请求,意味着大量的小 prefill 和小 decode。传统 LLM 推理库并不擅长这种高频小块工作,开销可能被请求管理、内存分配、元数据计算所吞噬。
TML 又开发了一层 streaming sessions。
客户端仍然按 200ms chunk 发送请求,服务端则将这些 chunk 追加到 GPU 内存中的 persistent sequence 里,避免反复重分配。发布方还表示,相关功能已经发布到 SGLang。
重新认识 Thinking Machines Lab
过去,提到 Thinking Machines Lab 这家公司,最容易被记住的标签是:在产品为 0、收入为 0 的阶段,就获得了高额融资。
Mira Murati 从 OpenAI 离职后创办了 TML,很快完成了约 20 亿美元的种子轮融资,估值达到 120 亿美元。
这个数字非常引人注目,但很长一段时间里,外界并不清楚这家公司究竟要做什么。
后来的线索也显得有些分散。
一方面是人。
到 2026 年,TML 约有 140 人,Meta 是其挖人最多的来源。从 CTO Soumith Chintala,到参与过 Segment Anything 相关工作的 Piotr Dollar,再到多位来自 FAIR、多模态、LLM 训练背景的研究员,都加入了 TML。
另一方面是算力。
2026 年 3 月,TML 与英伟达宣布长期合作,计划通过 Vera Rubin 系统获得至少 1GW 算力,英伟达也参与了 TML 的融资。
2026 年 4 月 22 日,TML 与谷歌签下单个位数十亿美元级别的云计算协议,将获得基于英伟达 GB300 的系统,用于模型训练和部署。
但很长一段时间,他们的产品只有一个训练基础设施 Tinker。

这次发布的交互模型,是 TML 第一次完整展示自己的技术路线:将 AI 的交互范式从产品外壳,推进到模型本体。
之前的种种动作也都变得清晰了:
- 200ms 需要低延迟推理系统;
- 前台交互模型与后台模型需要稳定的训练、调度和工具链;
- 多模态实时输入输出需要更强的训练和部署底座;
- 更大规模的模型要在这种实时设定中运行,更离不开 GB300、Vera Rubin 这类算力。
TML 想要押注的,是下一个时代的人机协作界面。
今年新加入团队的斯坦福博士 Zitong Yang,还设想过将整个大模型预训练数据重写为智能体轨迹。

这次发布的 TML-Interaction-Small 还只是第一步。
据发布方介绍,它是一个 276B 参数、12B 激活参数的 MoE 模型。目前,更大规模的预训练模型还无法胜任实时交互任务。

更大规模的模型,计划在今年晚些时候发布。
参考链接:
[1]https://thinkingmachines.ai/blog/interaction-models/
[2]https://x.com/thinkymachines/status/2053938906689884279
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34273

