Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时，其在真实交互场景中的应用却面临两大核心挑战：如何处理无界的连续视频流，以及如何让模型在动态的视频流中自主决定回答的时机。

近期，香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于：将“何时回答”本身转化为模型需要预测的 token，通过一个端到端的训练框架，将离线视频模型直接转化为能够处理实时视频流的智能助手。Streamo 能够处理真实场景下的连续视频流，支持实时的多轮指令交互，实现实时解说、动作理解、事件定位、动态问答等多种任务，推动流式视频助手走向真正的实用化。

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

论文标题：Streaming Video Instruction Tuning
论文主页：https://jiaerxia.github.io/Streamo/
论文链接：https://github.com/maifoundations/Streamo

1. 问题分析

为何当前视频大模型难以成为实时交互助手？尽管以 Qwen2-VL、LLaVA-Video 为代表的模型在视频理解、问答等任务上表现卓越，但一个关键瓶颈在于：这些模型是基于完整视频片段的离线场景设计的，而真实世界的交互需求往往是“边看边说”的实时流式场景。

离线范式假设模型在推理前能获取完整视频，从而进行全局分析后输出答案。然而，流式场景打破了这一前提：视频流本质上是无界的，模型无法预知未来，只能基于当前及历史信息即时判断；同时，实时性要求模型必须在关键事件发生时即刻响应，而非等到视频结束。此外，用户指令可能随时到来，模型需持续监听并选择合适时机触发响应。不同任务对响应粒度的要求也各异，有的需要帧级即时叙述，有的则适合事件结束后总结。

现有方法通常采用拆分决策模块来适配流式场景：先由一个模块判断“是否响应”，再调用离线模型生成内容。这种方案存在明显缺陷：轻量级决策模块难以理解复杂指令和跨时间上下文；而复杂的决策模块又会增加推理延迟，损害实时性。更重要的是，决策与生成的分离，使得模型难以在持续变化的输入中形成连贯、及时的响应。

Streamo 的核心洞察在于：决策与生成不应被割裂，而应统一到同一个端到端框架中，让模型直接学会“何时该说话，以及该说什么”。

2. Streamo：端到端的决策-响应统一架构

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

Streamo 的关键设计是将“何时回答”转化为模型需要预测的 token。具体而言，它将流式视频组织为多轮对话形式：每1秒对应一个对话轮次，视频片段按时间顺序输入。模型在每一轮都需要预测一个响应状态 token，包括：
* <Silence>：表示当前画面与任务无关或信息尚不重要，模型继续处理后续输入。
* <Standby>：表示模型已捕捉到相关线索，但仍需等待更多上下文以形成完整判断。
* <Response>：表示信息已充分，模型应立即生成文本输出。

通过这种方式，Streamo 将“是否响应”与“生成什么内容”统一到了同一个 next-token prediction 过程中。模型在预测下一个 token 时，不仅生成文本，也同时完成了响应时机的判断。这使得决策与生成共享同一语义空间，模型能够联合建模时序线索、任务目标与语言输出，从而更自然地学习在连续视频中“何时立即回应、何时继续等待”。

这一设计无需引入独立的决策头或外部控制器，而是直接将三种状态 token 融入标准的自回归训练框架。这既保持了与现有监督微调范式的兼容性，也使训练和推理流程更加简洁高效，便于直接复用现有基础设施。

3. Streamo-Instruct-465K 数据集

训练流式助手的核心挑战在于：不同任务对应不同的响应节奏。因此，训练数据不仅要提供内容监督，还需给出清晰、一致的时间边界，指导模型何时沉默、等待或回答。

为此，研究者构建了 Streamo-Instruct-465K 数据集。该数据集包含约46.5万条指令样本，来源于135,875段视频，整合了 ActivityNet、YouCook2、QVHighlight 等多个公开数据源，并进行了统一的重新标注。标注采用多阶段自动化流程，结合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候选描述，再经过一致性过滤与后处理，以保障时间边界的准确性和文本的连贯性。

该数据集具有多任务、多粒度的特点。同一段视频可被标注为多种流式任务，包括：
* 实时旁白
* 事件字幕
* 动作字幕
* 事件时序定位
* 时变问答

这些任务覆盖了从连续解说到事件总结、从动作描述到在线定位和动态问答等多种场景。所有任务都被统一到同一时间监督框架下：每一轮标注不仅包含文本输出，还明确了模型当下应处于沉默、等待还是回答状态。这使得模型能够同步学习“说什么”和“何时说”，从而适应不同流式任务的响应需求。

多任务数据标注演示：

（对于同一段视频，标注随任务目标而变化：在实时旁白中需持续输出；在事件字幕中则在事件结束后总结；在时变问答中，答案随视频进展更新。每个时间点都标注了模型应有的响应状态。）

4. 实验结果

在 OVO-Bench 评估中，Streamo-7B (2fps) 以 57.86% 的平均性能超越基线模型 Dispider 达 13.83 个百分点。在三大能力维度上均全面领先：
* 实时感知能力：67.44%（相对提升 +12.89%）
* 回溯追踪能力：49.18%（相对提升 +13.12%）
* 前向响应能力：56.96%（相对提升 +22.24%）

此外，在1fps下训练的 Streamo 模型可直接在2fps下评估，性能提升 4.66%，展现了强大的泛化能力。

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿
Streamo-Instruct 与现有数据对比

Streamo 的性能提升不仅源于训练框架，也高度依赖于高质量的训练数据。与广泛使用的 ET-Instruct-164K 相比，Streamo-Instruct 在 OVO-Bench 上的整体性能提升了 11.79%，在关键的前向主动响应任务上提升了 7.1%，并且避免了混合离线数据（如 LLaVA-Video）可能导致的“在线能力退化”问题。

实验揭示了一个重要现象：直接混合离线数据可能会削弱模型的在线能力。例如，ET-Instruct 与 LLaVA-Video 结合后，实时感知能力虽略有提升，但前向响应表现反而下降。这表明离线监督范式与流式学习目标存在冲突。相比之下，Streamo-Instruct 通过专门设计的流式标注与统一的时间监督，有效规避了这一问题。

5. 结论

实现真正的实时多模态助手（例如直播理解、智能驾驶提醒、安防巡检、运动教学等），其核心挑战往往不在于“答对”，而在于“在合适的时间点做出合适的输出”。Streamo 不仅解决了当前视频大模型在实时交互中的关键瓶颈，还提供了一条可复用的技术路线，能够将静态感知模型转换为动态交互智能体。同时，该项目构建并提供了一个具有统一时间标注的大规模流视频指令数据集，以推动流视频理解领域的发展。

6. 演示

该演示展示了流视频模型在连续视频输入下的实时理解与响应能力。模型能够根据画面进展，动态决定何时保持沉默、何时等待、何时回答，在保证响应时效性的同时，也提升了输出的准确性与连贯性。具体而言：
* 对于尚无明确答案的问题，模型会选择等待更多信息后再进行作答。
* 对于答案可能随时间变化的问题，模型能够持续更新其输出。
* 模型还支持基于历史视频内容的回溯式问答。

作者介绍

本文第一作者为香港浸会大学计算机系博士生夏佳尔，其主要研究方向为多模态大模型，涵盖多模态推理、流视频理解与交互等。他以第一作者身份在 CVPR、ICCV、AAAI 等顶级会议上发表了多篇论文。导师为香港浸会大学计算机系助理教授周锴阳。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/26447

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

1. 问题分析

2. Streamo：端到端的决策-响应统一架构

3. Streamo-Instruct-465K 数据集

4. 实验结果

5. 结论

6. 演示

作者介绍

相关推荐

Python开发者的内部工具构建指南：7大神器打造高效企业应用

Karpathy构建LLM Wiki爆火：Agent时代只需分享想法，AI自动搭建个人知识库

Agentic RAG实战指南：六种模式解析与生产级应用

MIA记忆智能体：让AI告别“失忆式工作”，实现经验到能力的持续进化

Vibe Coding革新AI Infra：文本驱动设计文档破解复杂系统开发难题