Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

从iPhone 4S时代起，人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天，这种局面仍未改变。

为何与机器的对话始终是一问一答，无法像人与人交流那样自然流畅？

当前业界的主流做法，仍然是在传统的基于轮次（turn-based）的大模型外层，套上一个VAD（语音活动检测）外壳，强行将其塞入实时交互的场景中。

就在刚刚，备受瞩目的Thinking Machines Lab发布了其成立以来的首个大模型——TML-Interaction-Small。这是第一个同时具备强大智能、指令遵循能力和交互性的模型。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

该模型一经发布便引起轰动，彻底颠覆了传统“一问一答”的人机交互模式，真正实现了语音、内容、代码的同时输出，达成完全自然的交互体验。

“人们在同一时间交谈、倾听、观看、思考和协作，一切都是实时进行的。我们设计了一款能与人类以相同方式协同工作的AI。”

更值得一提的是，OpenAI前应用研究副总裁、Thinking Machines联合创始人翁荔（Lilian Weng）亲自出镜，通过一段连贯的故事演示了该模型的核心能力。

根据Thinking Machines官方的描述：“在Lilian讲故事的过程中，交互模型能够追踪她是在思考、让出话语权、自我纠正，还是邀请回应；整个过程中没有任何专门的对话管理系统在运行。”

她在社交平台上写道：

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

“过去的几个月里，我们经历了大量的乐趣（和压力），最终产出了12个版本（外加大量子版本）和137页的训练日志。事实证明，要让人类和AI协作得更好，首先得依靠人与人之间的协作。”

Thinking Machines发布了技术博客，详细解读了该模型的技术细节。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

博客链接：https://thinkingmachines.ai/blog/interaction-models/#introduction

核心创新：将“时间”融入模型架构

从评测数据来看，TML-Interaction-Small在交互质量与智能度的综合指标上，超越了GPT Realtime 2.0、Gemini 3.1 Flash Live等一系列闭源对手；在新提出的时间感知与视觉主动性评测中，其表现与第二名拉开了数量级的差距。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

智能与交互的前沿。该模型在交互质量上表现卓越，同时比任何非思考模型都更加智能。它以用户与模型之间的轮次延迟来衡量，实现了最佳的响应速度。

这一交互模型之所以能达到如此水平，根本原因在于其训练范式与传统大模型截然不同。

200ms一拍：时间对齐的微回合

传统LLM的输入输出被“拍平”成一个单线的token序列：人说一句，模型答一句，如此循环往复。模型对真实世界的时间流逝没有任何感知。

Thinking Machines的做法是：将音频、视频、文本三种模态都按照200ms一个chunk切割成连续的“微回合”（micro-turn）。在每个200ms的时间段内，模型同时处理输入并产生输出。这意味着，模型在听你说话的同时，可能已经在生成回应、保持沉默，或插入一句反馈。

200ms这个数值并非随意选择。它接近人类听觉感知与口头反应的最短自然窗口，也是backchannel（如“嗯嗯”、“对对”这类小口癖）能够自然嵌入的时间粒度。

这种设计带来的直接好处是：“沉默”、“重叠”、“打断”这些过去需要脚本特殊处理的场景，全部回归为模型本身的常规输出。需要说话时就生成语音token，不需要说话时就生成“沉默”token，这与模型决定下一个文字token是什么在本质上没有区别。

抛掉编码器，从零训练

第二个关键设计是“encoder-free early fusion”（无编码器的早期融合）。

主流的全模态（omni）多模态模型，通常需要先训练一个类似Whisper的音频编码器、一个类似TTS的解码器，然后再将它们拼接到LLM主干上。这套组合拳的代价是：每个组件都需要单独优化和维护，模态之间的信息很容易在边界处丢失。

Thinking Machines直接抛弃了这种思路：

音频采用dMel表示，经过一个轻量级的embedding层进入主干；
图像被切成40×40的patch，由hMLP模块完成编码；
音频解码端使用一个flow head直接输出mel频谱；
所有这些组件，连同transformer主干，全部从零开始联合训练。

这意味着，模型从训练的第一秒起，就在同一个梯度流中学习如何协调音频、视频、文本三种信号。早期融合带来的好处显而易见：声音中的笑意、画面里的表情、文字中的犹豫，可以在同一层被模型捕捉到，而不是在三个独立模块中各自损耗。

双模型协同：实时门面 + 后台大脑

第三层精妙设计是系统级的双模型架构。

交互模型负责“现场”，要求严格的实时响应。而真正需要深度推理、检索、工具调用的任务，则会被打包成完整的上下文，派发给一个异步运行的background model（后台模型）去处理。结果返回后，交互模型再选择一个合适的时机，将信息自然地插入当前对话。

“让用户同时享受thinking模型的智能和non-thinking模型的响应延迟”，这是Thinking Machines给这套架构的定位。

为了将200ms的延迟控制做到极致，他们还进行了一系列硬核工程优化：

自研了streaming session推理机制，已将其中一个版本上游合并至SGLang；
使用gather+gemv替代标准的grouped gemm来实现MoE kernel，更适合bidirectional serving的张量形状；
实现了trainer与sampler的bitwise级对齐，做到batch-invariant训练，端到端开销不到5%。

最后一点尤其值得一提。在大模型训练中，trainer和sampler之间的浮点不一致，长期以来是RL调试中的“玄学黑盒”。Thinking Machines在NVLS通信、Attention Split-KV等关键路径上重写了kernel，将其彻底变成了一个确定性问题。

实验结果

具体数据很有说服力。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

在衡量交互质量的FD-bench v1.5上，TML-Interaction-Small获得了77.8分，而第二名Gemini-3.1-flash-live (minimal)只有54.3分；GPT-Realtime-2.0 (minimal)是46.8分。

在衡量端到端响应延迟的FD-bench v1上，TML将简单转换的延迟做到了0.40秒，相比之下，GPT-Realtime-2.0 (minimal)为1.18秒，Gemini-3.1-flash-live (minimal)为0.57秒。它更智能的同时，速度也更快。

加上后台agent后，在FD-bench v3（Audio + Tools）上的Pass@1达到了68.0%，对比GPT-2.0 (minimal)的52.0%、GPT-2.0 (xhigh)的58.0%，依然位居榜首。

在智能度方面，TML-Interaction-Small在Audio MultiChallenge上获得了43.4分，超过了所有instant模型；在BigBench Audio上，启用后台agent后达到了96.5%，与GPT-Realtime-2.0 (xhigh)的96.6%几乎持平。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

除了业界通用的基准测试，Thinking Machines 还专门设计了一套全新的评估体系，重点衡量模型的“时间感知”与“视觉主动性”。在这些定制任务上，TML-Interaction-Small 与第二名之间的差距呈现出数量级级别的领先：

TimeSpeak（按用户指定时间主动开口）：64.7 vs 4.3
CueSpeak（在合适的语义时点主动接话）：81.7 vs 2.9
RepCount-A（视觉计数）：35.4 vs 1.3
Charades（视觉动作时段定位）：mIoU 32.4 vs 0

官方在博客中直言：“目前没有任何已有模型能够有意义地完成这些任务。”所有参与评测的对照模型，要么保持沉默，要么输出错误答案，即便是开启了高推理模式的 thinking 版本也未能幸免。

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

写在最后

2025 年 7 月，Thinking Machines Lab 完成了一笔轰动硅谷的融资：约 20 亿美元的种子轮，估值达到约 120 亿美元。这是有公开记录以来规模最大的种子轮之一，由 a16z 领投，英伟达、Accel、ServiceNow、Cisco、AMD、Jane Street 等机构纷纷跟投。一家成立不到半年、尚未推出任何产品的公司，仅凭创始团队的研究信誉，就获得了独角兽十倍门槛的估值，这本身就是 AI 行业的一个标志性事件。

此后近一年时间里，Thinking Machines 对外动作并不多，主要通过自家研究博客 Connectionism 发布阶段性成果。其中最受关注的一篇是 Horace He 主笔的《Defeating Nondeterminism in LLM Inference》，该文深入剖析了大模型推理中的不确定性问题，也为本次 Interaction Models 中提到的 trainer-sampler bitwise 对齐打下了基础。

而这次 Interaction Models 的发布，是 Thinking Machines 首次拿出真正意义上的“自研旗舰大模型”。在背负 120 亿美元估值一年多之后，他们终于交出了第一份对外答卷。

TML-Interaction-Small 只是一个起点。官方明确表示，更大尺寸的模型将在今年内陆续推出，background agent 的协同方式也“刚刚开始探索”。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34377

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

相关推荐

硅基生命物理世界首考：GDPS 2025国际具身智能技能大赛深度解析

字节Seed-2.0-pro深度评测：挑战GPT与Gemini，多模态推理新标杆

循环语言模型Ouro：在预训练中构建推理能力的新范式

FGN技术革命：谷歌DeepMind WeatherNext 2如何重塑小时级气象预报新范式

DeepSeek突然上线识图模式，AI圈炸了：这只鲸鱼终于睁眼了！