端到端训练
-
Streamo:让视频大模型学会“何时说话”,实时流式交互不再卡顿
当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时,其在真实交互场景中的应用却面临两大核心挑战:如何处理无界的连续视频流,以及如何让模型在动态的视频流中自主决定回答的时机。 近期,香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于:将“何时回答”本身转化为模型需要预测的 token,通过一个端到端的训练框架,将离…
当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时,其在真实交互场景中的应用却面临两大核心挑战:如何处理无界的连续视频流,以及如何让模型在动态的视频流中自主决定回答的时机。 近期,香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于:将“何时回答”本身转化为模型需要预测的 token,通过一个端到端的训练框架,将离…