端到端训练

大模型工程

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时，其在真实交互场景中的应用却面临两大核心挑战：如何处理无界的连续视频流，以及如何让模型在动态的视频流中自主决定回答的时机。近期，香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于：将“何时回答”本身转化为模型需要预测的 token，通过一个端到端的训练框架，将离…

4小时前
22000