RoboOmni：全模态端到端操作大模型开启机器人主动服务新时代

2025年11月11日下午4:20 • AI产业动态 • 阅读 3

复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni，标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态，实现了动作生成与语音交互的协同控制，并开源了140K条语音-视觉-文字“情境指令”真机操作数据集，为具身智能领域提供了重要的技术突破和数据资源。

在传统机器人交互中，系统通常依赖于精确、显式的指令，如“拿起苹果”或“移动到桌子旁”。这种模式存在两大核心局限：首先，机器人无法理解人类日常交流中常见的隐含意图。例如，当用户说“这果汁好酸啊”时，其真实意图可能是希望更换饮料，而非单纯描述口感。其次，现有方法严重依赖文本输入，即便使用语音指令，也需要通过自动语音识别（ASR）技术转换为文字，导致语调、情感、说话人身份等副语言信息以及环境声音（如门铃、雷声）的语义完全丢失。这意味着机器人更像一个需要“精确编程”的迟钝执行者，而非能够“察言观色”的智能伙伴。

RoboOmni提出的“跨模态情境指令”新范式，旨在彻底改变这一现状。它要求机器人能够像人类一样，主动融合语音对话、环境声音和视觉观察，从多模态上下文中推断用户的真实意图。这一转变的核心价值在于：从被动到主动——机器人不再等待明确的“关窗”指令，而是在听到雷声、看到阳台门开着时，主动询问：“需要我关窗吗？”；从单模态到全模态——同时理解语音中的情感倾向（如不满的语气）、说话人身份（是妈妈的需求还是女儿的需求）、环境声音（门铃、警报、厨房噪音）以及视觉观察（画面中的物体状态和人物关系）的语义。这不再是简单的指令执行，而是让机器人具备了真正的情境理解能力，使其能够从一句嘀咕、一段对话和周围环境中读懂潜台词，让服务变得自然、主动且精准。

RoboOmni的架构设计采用了Perceiver-Thinker-Talker-Executor的端到端统一模型结构，通过在共享表征空间内统一视觉、文本、听觉与动作模态，实现动作生成与语音输出的协同控制。与需要将语音转文字的“拼接”系统不同，RoboOmni在一套统一的模型中，直接融合语音、环境声音和视觉信号来推断意图，并能通过语音交互进行确认，输出动作token执行操作。其核心组件包括：统一感知（Perceiver）作为“眼睛”和“耳朵”，将摄像头看到的画面、麦克风听到的语音和环境声音统一编码到同一个语义空间；中央思考（Thinker）基于强大的Qwen2.5-Omni模型构建，在统一词表空间中进行推理，生成包含文本回复和机器人动作token的序列；自然回应（Talker）让机器人能够直接进行语音交流，生成自然、流畅的语音波形；精准执行（Executor）负责将Thinker生成的动作token解码为机器人可以执行的精确命令，采用FAST + 动作编码技术控制7自由度机械臂完成复杂操作。

这一架构设计实现了三大关键突破：全模态统一建模从根源上避免了ASR转写的信息损失，能更好地保留语调、情感和环境语义，从而实现真正的“情境理解”；闭环具身智能将“全模态”的概念从感知和认知真正拓展到了行动层面，在一个模型内完成了“感知-推断-确认-执行”全流程；双向自然交互支持语音回应与动作执行的双通道输出，机器人不仅能听会说，还能在对话中确认意图并执行任务，实现了自然的人机协作。

为了支持这一创新范式，研究团队构建了OmniAction——首个大规模具身情境指令数据集。主动式机器人必须从音频和视觉观察中推断隐含意图，但现有数据集缺乏包含视觉-音频模态组合以及意图推理所需的推断指令。OmniAction包含141,162条多模态样本，覆盖112种技能与748种物体，并精细覆盖5,096种独特音色（包括老年/中年/儿童和男性/女性的不同身份组合）以及2,482种环境音效与640种生活背景噪音，构建出从厨房翻炒到客厅对话的真实多样化场景。这一数据集的开放不仅为RoboOmni的训练提供了坚实基础，也为整个具身智能社区提供了宝贵的研究资源。

从技术影响来看，RoboOmni代表了具身智能领域的重要进展。它通过端到端的多模态统一架构，解决了传统VLA模型在意图理解和信息保留方面的局限，为机器人从“被动执行人类指令”迈向“主动提供服务”提供了可行的技术路径。未来，随着模型优化和数据集的进一步扩展，RoboOmni有望在家庭服务、医疗辅助、工业协作等场景中实现更广泛的应用，推动人机交互向更加自然、智能的方向发展。

— 图片补充 —