RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni,标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态,实现了动作生成与语音交互的协同控制,并开源了140K条语音-视觉-文字“情境指令”真机操作数据集,为具身智能领域提供了重要的技术突破和数据资源。

在传统机器人交互中,系统通常依赖于精确、显式的指令,如“拿起苹果”或“移动到桌子旁”。这种模式存在两大核心局限:首先,机器人无法理解人类日常交流中常见的隐含意图。例如,当用户说“这果汁好酸啊”时,其真实意图可能是希望更换饮料,而非单纯描述口感。其次,现有方法严重依赖文本输入,即便使用语音指令,也需要通过自动语音识别(ASR)技术转换为文字,导致语调、情感、说话人身份等副语言信息以及环境声音(如门铃、雷声)的语义完全丢失。这意味着机器人更像一个需要“精确编程”的迟钝执行者,而非能够“察言观色”的智能伙伴。

RoboOmni提出的“跨模态情境指令”新范式,旨在彻底改变这一现状。它要求机器人能够像人类一样,主动融合语音对话、环境声音和视觉观察,从多模态上下文中推断用户的真实意图。这一转变的核心价值在于:从被动到主动——机器人不再等待明确的“关窗”指令,而是在听到雷声、看到阳台门开着时,主动询问:“需要我关窗吗?”;从单模态到全模态——同时理解语音中的情感倾向(如不满的语气)、说话人身份(是妈妈的需求还是女儿的需求)、环境声音(门铃、警报、厨房噪音)以及视觉观察(画面中的物体状态和人物关系)的语义。这不再是简单的指令执行,而是让机器人具备了真正的情境理解能力,使其能够从一句嘀咕、一段对话和周围环境中读懂潜台词,让服务变得自然、主动且精准。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni的架构设计采用了Perceiver-Thinker-Talker-Executor的端到端统一模型结构,通过在共享表征空间内统一视觉、文本、听觉与动作模态,实现动作生成与语音输出的协同控制。与需要将语音转文字的“拼接”系统不同,RoboOmni在一套统一的模型中,直接融合语音、环境声音和视觉信号来推断意图,并能通过语音交互进行确认,输出动作token执行操作。其核心组件包括:统一感知(Perceiver)作为“眼睛”和“耳朵”,将摄像头看到的画面、麦克风听到的语音和环境声音统一编码到同一个语义空间;中央思考(Thinker)基于强大的Qwen2.5-Omni模型构建,在统一词表空间中进行推理,生成包含文本回复和机器人动作token的序列;自然回应(Talker)让机器人能够直接进行语音交流,生成自然、流畅的语音波形;精准执行(Executor)负责将Thinker生成的动作token解码为机器人可以执行的精确命令,采用FAST + 动作编码技术控制7自由度机械臂完成复杂操作。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

这一架构设计实现了三大关键突破:全模态统一建模从根源上避免了ASR转写的信息损失,能更好地保留语调、情感和环境语义,从而实现真正的“情境理解”;闭环具身智能将“全模态”的概念从感知和认知真正拓展到了行动层面,在一个模型内完成了“感知-推断-确认-执行”全流程;双向自然交互支持语音回应与动作执行的双通道输出,机器人不仅能听会说,还能在对话中确认意图并执行任务,实现了自然的人机协作。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

为了支持这一创新范式,研究团队构建了OmniAction——首个大规模具身情境指令数据集。主动式机器人必须从音频和视觉观察中推断隐含意图,但现有数据集缺乏包含视觉-音频模态组合以及意图推理所需的推断指令。OmniAction包含141,162条多模态样本,覆盖112种技能与748种物体,并精细覆盖5,096种独特音色(包括老年/中年/儿童和男性/女性的不同身份组合)以及2,482种环境音效与640种生活背景噪音,构建出从厨房翻炒到客厅对话的真实多样化场景。这一数据集的开放不仅为RoboOmni的训练提供了坚实基础,也为整个具身智能社区提供了宝贵的研究资源。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

从技术影响来看,RoboOmni代表了具身智能领域的重要进展。它通过端到端的多模态统一架构,解决了传统VLA模型在意图理解和信息保留方面的局限,为机器人从“被动执行人类指令”迈向“主动提供服务”提供了可行的技术路径。未来,随着模型优化和数据集的进一步扩展,RoboOmni有望在家庭服务、医疗辅助、工业协作等场景中实现更广泛的应用,推动人机交互向更加自然、智能的方向发展。

— 图片补充 —

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/7635

(0)
上一篇 2025年11月11日 下午4:16
下一篇 2025年11月12日 上午8:26

相关推荐

  • 扩散式语言模型新突破:仅需50小时微调,BERT实现对话能力

    近日,加州大学伯克利分校计算机博士生周展辉与伊利诺伊大学厄巴纳香槟分校计算机博士生陈凌杰领导的团队,在扩散式语言模型(Diffusion Language Model, DLM)领域取得了一项引人注目的进展。他们基于自研的扩散语言模型工具dLLM,通过一项创新实验证明:经典的BERT模型仅需约50 GPU・小时的监督微调,就能获得接近主流小规模生成式语言模型…

    2025年11月23日
    31200
  • AI教育主权争夺战:算法如何重构大学课堂的权力格局与认知边界?

    AI教育主权争夺战:算法如何重构大学课堂的权力格局与认知边界? 全球高等教育机构正以前所未有的速度拥抱人工智能。《自然》杂志近期一篇题为《大学正在拥抱AI:学生会变得更聪明还是停止思考?》的报道,揭示了这一浪潮下的深层变革。 从清华大学为新生配备AI助理,到加州州立大学系统将52万师生接入ChatGPT Edu,再到谷歌向全球学生免费开放Gemini,AI正…

    2025年11月11日
    37300
  • AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

    11月17日 【闭源|语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。 11月18日 【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

    2025年11月24日
    38200
  • 4款GitHub开源AI技能:视频剪辑、文本去AI化、小红书发布与技能管理工具

    视频剪辑 Skill 这是一个名为 videocut-skills 的开源视频剪辑 Skill,能够辅助完成视频处理工作。它可以自动识别视频中的口误、静音片段以及语气词等冗余内容。通过简单的指令,AI 即可自动处理这些片段,从而显著提高剪辑效率。 该 Skill 集成了多种自动化功能,例如使用 Whisper 模型生成字幕,并支持通过词典进行纠错。它利用 F…

    2026年1月23日
    2.3K00
  • 突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元

    最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…

    2026年2月11日
    34000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注