从iPhone 4S时代起,人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天,这种局面仍未改变。
为何与机器的对话始终是一问一答,无法像人与人交流那样自然流畅?
当前业界的主流做法,仍然是在传统的基于轮次(turn-based)的大模型外层,套上一个VAD(语音活动检测)外壳,强行将其塞入实时交互的场景中。
就在刚刚,备受瞩目的Thinking Machines Lab发布了其成立以来的首个大模型——TML-Interaction-Small。这是第一个同时具备强大智能、指令遵循能力和交互性的模型。

该模型一经发布便引起轰动,彻底颠覆了传统“一问一答”的人机交互模式,真正实现了语音、内容、代码的同时输出,达成完全自然的交互体验。
“人们在同一时间交谈、倾听、观看、思考和协作,一切都是实时进行的。我们设计了一款能与人类以相同方式协同工作的AI。”
更值得一提的是,OpenAI前应用研究副总裁、Thinking Machines联合创始人翁荔(Lilian Weng)亲自出镜,通过一段连贯的故事演示了该模型的核心能力。
根据Thinking Machines官方的描述:“在Lilian讲故事的过程中,交互模型能够追踪她是在思考、让出话语权、自我纠正,还是邀请回应;整个过程中没有任何专门的对话管理系统在运行。”
她在社交平台上写道:

“过去的几个月里,我们经历了大量的乐趣(和压力),最终产出了12个版本(外加大量子版本)和137页的训练日志。事实证明,要让人类和AI协作得更好,首先得依靠人与人之间的协作。”
Thinking Machines发布了技术博客,详细解读了该模型的技术细节。

- 博客链接:https://thinkingmachines.ai/blog/interaction-models/#introduction
核心创新:将“时间”融入模型架构
从评测数据来看,TML-Interaction-Small在交互质量与智能度的综合指标上,超越了GPT Realtime 2.0、Gemini 3.1 Flash Live等一系列闭源对手;在新提出的时间感知与视觉主动性评测中,其表现与第二名拉开了数量级的差距。

智能与交互的前沿。该模型在交互质量上表现卓越,同时比任何非思考模型都更加智能。它以用户与模型之间的轮次延迟来衡量,实现了最佳的响应速度。
这一交互模型之所以能达到如此水平,根本原因在于其训练范式与传统大模型截然不同。
200ms一拍:时间对齐的微回合
传统LLM的输入输出被“拍平”成一个单线的token序列:人说一句,模型答一句,如此循环往复。模型对真实世界的时间流逝没有任何感知。
Thinking Machines的做法是:将音频、视频、文本三种模态都按照200ms一个chunk切割成连续的“微回合”(micro-turn)。在每个200ms的时间段内,模型同时处理输入并产生输出。这意味着,模型在听你说话的同时,可能已经在生成回应、保持沉默,或插入一句反馈。
200ms这个数值并非随意选择。它接近人类听觉感知与口头反应的最短自然窗口,也是backchannel(如“嗯嗯”、“对对”这类小口癖)能够自然嵌入的时间粒度。
这种设计带来的直接好处是:“沉默”、“重叠”、“打断”这些过去需要脚本特殊处理的场景,全部回归为模型本身的常规输出。需要说话时就生成语音token,不需要说话时就生成“沉默”token,这与模型决定下一个文字token是什么在本质上没有区别。
抛掉编码器,从零训练
第二个关键设计是“encoder-free early fusion”(无编码器的早期融合)。
主流的全模态(omni)多模态模型,通常需要先训练一个类似Whisper的音频编码器、一个类似TTS的解码器,然后再将它们拼接到LLM主干上。这套组合拳的代价是:每个组件都需要单独优化和维护,模态之间的信息很容易在边界处丢失。
Thinking Machines直接抛弃了这种思路:
- 音频采用dMel表示,经过一个轻量级的embedding层进入主干;
- 图像被切成40×40的patch,由hMLP模块完成编码;
- 音频解码端使用一个flow head直接输出mel频谱;
- 所有这些组件,连同transformer主干,全部从零开始联合训练。
这意味着,模型从训练的第一秒起,就在同一个梯度流中学习如何协调音频、视频、文本三种信号。早期融合带来的好处显而易见:声音中的笑意、画面里的表情、文字中的犹豫,可以在同一层被模型捕捉到,而不是在三个独立模块中各自损耗。
双模型协同:实时门面 + 后台大脑
第三层精妙设计是系统级的双模型架构。
交互模型负责“现场”,要求严格的实时响应。而真正需要深度推理、检索、工具调用的任务,则会被打包成完整的上下文,派发给一个异步运行的background model(后台模型)去处理。结果返回后,交互模型再选择一个合适的时机,将信息自然地插入当前对话。
“让用户同时享受thinking模型的智能和non-thinking模型的响应延迟”,这是Thinking Machines给这套架构的定位。
为了将200ms的延迟控制做到极致,他们还进行了一系列硬核工程优化:
- 自研了streaming session推理机制,已将其中一个版本上游合并至SGLang;
- 使用gather+gemv替代标准的grouped gemm来实现MoE kernel,更适合bidirectional serving的张量形状;
- 实现了trainer与sampler的bitwise级对齐,做到batch-invariant训练,端到端开销不到5%。
最后一点尤其值得一提。在大模型训练中,trainer和sampler之间的浮点不一致,长期以来是RL调试中的“玄学黑盒”。Thinking Machines在NVLS通信、Attention Split-KV等关键路径上重写了kernel,将其彻底变成了一个确定性问题。
实验结果
具体数据很有说服力。

在衡量交互质量的FD-bench v1.5上,TML-Interaction-Small获得了77.8分,而第二名Gemini-3.1-flash-live (minimal)只有54.3分;GPT-Realtime-2.0 (minimal)是46.8分。
在衡量端到端响应延迟的FD-bench v1上,TML将简单转换的延迟做到了0.40秒,相比之下,GPT-Realtime-2.0 (minimal)为1.18秒,Gemini-3.1-flash-live (minimal)为0.57秒。它更智能的同时,速度也更快。
加上后台agent后,在FD-bench v3(Audio + Tools)上的Pass@1达到了68.0%,对比GPT-2.0 (minimal)的52.0%、GPT-2.0 (xhigh)的58.0%,依然位居榜首。
在智能度方面,TML-Interaction-Small在Audio MultiChallenge上获得了43.4分,超过了所有instant模型;在BigBench Audio上,启用后台agent后达到了96.5%,与GPT-Realtime-2.0 (xhigh)的96.6%几乎持平。

除了业界通用的基准测试,Thinking Machines 还专门设计了一套全新的评估体系,重点衡量模型的“时间感知”与“视觉主动性”。在这些定制任务上,TML-Interaction-Small 与第二名之间的差距呈现出数量级级别的领先:
- TimeSpeak(按用户指定时间主动开口):64.7 vs 4.3
- CueSpeak(在合适的语义时点主动接话):81.7 vs 2.9
- RepCount-A(视觉计数):35.4 vs 1.3
- Charades(视觉动作时段定位):mIoU 32.4 vs 0
官方在博客中直言:“目前没有任何已有模型能够有意义地完成这些任务。”所有参与评测的对照模型,要么保持沉默,要么输出错误答案,即便是开启了高推理模式的 thinking 版本也未能幸免。

写在最后
2025 年 7 月,Thinking Machines Lab 完成了一笔轰动硅谷的融资:约 20 亿美元的种子轮,估值达到约 120 亿美元。这是有公开记录以来规模最大的种子轮之一,由 a16z 领投,英伟达、Accel、ServiceNow、Cisco、AMD、Jane Street 等机构纷纷跟投。一家成立不到半年、尚未推出任何产品的公司,仅凭创始团队的研究信誉,就获得了独角兽十倍门槛的估值,这本身就是 AI 行业的一个标志性事件。
此后近一年时间里,Thinking Machines 对外动作并不多,主要通过自家研究博客 Connectionism 发布阶段性成果。其中最受关注的一篇是 Horace He 主笔的《Defeating Nondeterminism in LLM Inference》,该文深入剖析了大模型推理中的不确定性问题,也为本次 Interaction Models 中提到的 trainer-sampler bitwise 对齐打下了基础。
而这次 Interaction Models 的发布,是 Thinking Machines 首次拿出真正意义上的“自研旗舰大模型”。在背负 120 亿美元估值一年多之后,他们终于交出了第一份对外答卷。
TML-Interaction-Small 只是一个起点。官方明确表示,更大尺寸的模型将在今年内陆续推出,background agent 的协同方式也“刚刚开始探索”。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34377

