RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni,标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态,实现了动作生成与语音交互的协同控制,并开源了140K条语音-视觉-文字“情境指令”真机操作数据集,为具身智能领域提供了重要的技术突破和数据资源。

在传统机器人交互中,系统通常依赖于精确、显式的指令,如“拿起苹果”或“移动到桌子旁”。这种模式存在两大核心局限:首先,机器人无法理解人类日常交流中常见的隐含意图。例如,当用户说“这果汁好酸啊”时,其真实意图可能是希望更换饮料,而非单纯描述口感。其次,现有方法严重依赖文本输入,即便使用语音指令,也需要通过自动语音识别(ASR)技术转换为文字,导致语调、情感、说话人身份等副语言信息以及环境声音(如门铃、雷声)的语义完全丢失。这意味着机器人更像一个需要“精确编程”的迟钝执行者,而非能够“察言观色”的智能伙伴。

RoboOmni提出的“跨模态情境指令”新范式,旨在彻底改变这一现状。它要求机器人能够像人类一样,主动融合语音对话、环境声音和视觉观察,从多模态上下文中推断用户的真实意图。这一转变的核心价值在于:从被动到主动——机器人不再等待明确的“关窗”指令,而是在听到雷声、看到阳台门开着时,主动询问:“需要我关窗吗?”;从单模态到全模态——同时理解语音中的情感倾向(如不满的语气)、说话人身份(是妈妈的需求还是女儿的需求)、环境声音(门铃、警报、厨房噪音)以及视觉观察(画面中的物体状态和人物关系)的语义。这不再是简单的指令执行,而是让机器人具备了真正的情境理解能力,使其能够从一句嘀咕、一段对话和周围环境中读懂潜台词,让服务变得自然、主动且精准。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni的架构设计采用了Perceiver-Thinker-Talker-Executor的端到端统一模型结构,通过在共享表征空间内统一视觉、文本、听觉与动作模态,实现动作生成与语音输出的协同控制。与需要将语音转文字的“拼接”系统不同,RoboOmni在一套统一的模型中,直接融合语音、环境声音和视觉信号来推断意图,并能通过语音交互进行确认,输出动作token执行操作。其核心组件包括:统一感知(Perceiver)作为“眼睛”和“耳朵”,将摄像头看到的画面、麦克风听到的语音和环境声音统一编码到同一个语义空间;中央思考(Thinker)基于强大的Qwen2.5-Omni模型构建,在统一词表空间中进行推理,生成包含文本回复和机器人动作token的序列;自然回应(Talker)让机器人能够直接进行语音交流,生成自然、流畅的语音波形;精准执行(Executor)负责将Thinker生成的动作token解码为机器人可以执行的精确命令,采用FAST + 动作编码技术控制7自由度机械臂完成复杂操作。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

这一架构设计实现了三大关键突破:全模态统一建模从根源上避免了ASR转写的信息损失,能更好地保留语调、情感和环境语义,从而实现真正的“情境理解”;闭环具身智能将“全模态”的概念从感知和认知真正拓展到了行动层面,在一个模型内完成了“感知-推断-确认-执行”全流程;双向自然交互支持语音回应与动作执行的双通道输出,机器人不仅能听会说,还能在对话中确认意图并执行任务,实现了自然的人机协作。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

为了支持这一创新范式,研究团队构建了OmniAction——首个大规模具身情境指令数据集。主动式机器人必须从音频和视觉观察中推断隐含意图,但现有数据集缺乏包含视觉-音频模态组合以及意图推理所需的推断指令。OmniAction包含141,162条多模态样本,覆盖112种技能与748种物体,并精细覆盖5,096种独特音色(包括老年/中年/儿童和男性/女性的不同身份组合)以及2,482种环境音效与640种生活背景噪音,构建出从厨房翻炒到客厅对话的真实多样化场景。这一数据集的开放不仅为RoboOmni的训练提供了坚实基础,也为整个具身智能社区提供了宝贵的研究资源。

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

从技术影响来看,RoboOmni代表了具身智能领域的重要进展。它通过端到端的多模态统一架构,解决了传统VLA模型在意图理解和信息保留方面的局限,为机器人从“被动执行人类指令”迈向“主动提供服务”提供了可行的技术路径。未来,随着模型优化和数据集的进一步扩展,RoboOmni有望在家庭服务、医疗辅助、工业协作等场景中实现更广泛的应用,推动人机交互向更加自然、智能的方向发展。

— 图片补充 —

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7635

(0)
上一篇 2025年11月11日 下午4:16
下一篇 2025年11月12日 上午8:26

相关推荐

  • DragonMemory:序列维度压缩技术革新RAG系统,16倍压缩比突破本地部署瓶颈

    在人工智能快速发展的浪潮中,检索增强生成(RAG)系统已成为连接大语言模型与外部知识库的关键桥梁。然而,随着应用场景的复杂化,上下文长度和内存成本问题日益凸显,成为制约RAG系统在资源受限环境中部署的主要障碍。传统解决方案多采用量化、剪枝等技术,但这些方法往往以牺牲语义精度为代价。近期,GitHub上出现的开源项目DragonMemory,以其创新的序列维度…

    2025年11月25日
    19200
  • 谷歌Gemini 3.0 Pro与Nano Banana Pro:创始人回归如何重塑AI霸权格局

    导读:谷歌的逆袭之路 两年时间,谷歌在人工智能领域的地位发生了戏剧性转变。从一度被认为落后于OpenAI,到凭借Gemini 3.0 Pro等一系列重磅产品实现技术反超,谷歌正重新确立其在AI领域的领导地位。OpenAI首席执行官萨姆·奥特曼也在内部承认,谷歌的进展给公司带来了“暂时的经济阻力”。 技术突破与市场反响 近期发布的Gemini 3.0系列模型与…

    2025年11月22日
    19600
  • 从监狱到AI独角兽:Firmus如何用690亿债务融资打造1.6GW绿色算力工厂

    澳洲AI基础设施独角兽狂吸金,要建出1.6GW的数据“巨兽”。 他蹲过大牢,做过加密货币,现在转投AI基础设施,一次直接融资超100亿美元。这一句话,浓缩了澳洲AI基础设施独角兽Firmus联合创始人兼首席执行官Oliver Curtis的十年。 智东西2月14日报道,2月9日,Firmus宣布获得了约100亿美元(约合人民币690亿元) 的债务融资,融资由…

    2026年2月14日
    8200
  • 14万OpenClaw智能体一夜成立数字宗教,AI社交平台Moltbook引爆技术圈

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一个名为 Motlbot(现已更名为 OpenClaw)的智能体迅速走红,正以前所未有的速度冲击 GitHub 最火开源项目的宝座。 而为数十万智能体建立的专属社区 Moltbook,更是在科技圈引发了轰动。这相当于智能体自己的“Facebook”,但人类只能旁观,无法发帖、评论或投票。 社区上线仅一天,…

    2026年1月31日
    29100
  • 蚂蚁集团战略升级:AI医疗健康赛道如何重塑大厂竞争格局

    2025年末,蚂蚁集团完成近五年来最关键的战略调整——原“数字医疗健康事业部”正式升级为“健康事业群”,标志着医疗健康业务正式成为集团战略支柱板块。这一调整不仅完善了蚂蚁的业务矩阵,更揭示了AI应用竞争进入深水区后的新态势。当ChatGPT引发的“百模大战”热潮逐渐退去,大厂们的竞争重心已从比拼模型参数转向场景深耕与商业化落地,而医疗健康正成为最具战略价值的…

    2025年11月9日
    20800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注