阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

2026年,众多机器人登上春晚舞台,它们能为大家表演包饺子吗?这或许是许多人好奇的问题。

但根据近期的彩排报道,这种可能性并不大。机器人更可能被设计为托着托盘呈上饺子。

业内人士深知,如果不依赖预设编程或遥控操作,让机器人自主包饺子远比移动、导航复杂得多。这涉及到“饺子皮”这类堪称机器人“图灵测试”的柔性物体操作,没有一个足够聪明的“大脑”是难以完成的。这也解释了为何在过去一年,越来越多的研究力量与资金正涌向“大脑”的研发。

阿里达摩院近期的工作——RynnBrain——也瞄准了这一方向。但与一些专注于表演叠衣服或制作早餐的研究不同,他们关注的问题更为底层:如果机器人在做家务时被打断,临时去门口接收快递,它还能否回来继续刷碗?如果机器人被要求完成一项需要借助多种工具的任务,它制定的计划是否会包含手头根本没有的工具?

在关于机器人的宏大叙事中,这些问题或许不那么起眼,甚至连相关的基准测试(benchmark)都尚属缺失,但它们却是机器人走出实验室、迈向实际应用必须跨越的门槛。在构建RynnBrain时,达摩院具身智能团队选择从底层出发,将时空记忆和物理空间推理能力直接训练进模型中,并取得了显著成效,在16项具身智能基准测试上达到了领先水平(SOTA)。

面对“三个面包、两个盘子”的约束条件,模型能够进行空间与长程规划,推导出合理的分配方案,体现了其在受限物理条件下的规划与推理能力。

在对杂乱桌面进行分拣规划的过程中,机器人能够在任务被打断后,准确记住已完成的步骤并继续执行,展示了多任务交错下的记忆与规划能力。

达摩院还一口气开源了RynnBrain全系列共计7个模型,其中包括RynnBrain-30B-A3B。这是业界首个采用混合专家(MoE)架构的具身基础模型,其仅需激活3B参数进行推理,性能便全面超越了当前规模最大的具身基础模型Palican-VL-72B。使用该模型,可以让机器人在保持强大感知与规划能力的同时,拥有更快速的动作响应和更流畅的行为模式。目前,包括模型权重、评测基准及完整的训练与推理代码在内的全套资源均已向社区开放。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题
* GitHub链接: https://github.com/alibaba-damo-academy/RynnBrain
* HuggingFace链接: https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
* 项目主页:https://alibaba-damo-academy.github.io/RynnBrain.github.io/

将大模型塞进机器人?事情远非那么简单

关于具身大脑,业界流传着一个有趣的调侃——“把DeepSeek等大模型放进宇树(机器人)不就行了”。然而,实践过的人都知道这完全行不通。

本质上,在二维世界数据上训练出的模型,在进入物理世界时面临的是一个截然不同的环境。

仍以机器人包饺子任务为例。在原有的二维世界里,顶尖的视觉语言模型(VLM)早已能够理解包饺子的完整流程,模型的任务本质上是对静态画面做出解读,无需与环境进行交互。而在真实的年夜饭厨房——那个物品散落、空间逼仄的“高熵战场”——一个仅凭VLM语言与视觉经验行事的机器人往往会显得手足无措:例如,机器人刚擀好饺子皮、放上馅料、正准备捏合,却不小心碰倒了旁边的调料瓶;它想拿抹布擦拭,但眼前没有抹布,也想不起来抹布放在何处,于是任务就此卡住。再比如,它“看到”桌上有馅料,便自信地规划出“用挖馅勺取馅”的动作,却对“挖馅勺没有被拿上桌”这一关键缺失视而不见,最终导致任务失败。

这些场景尖锐地揭示了当前通用大模型的局限:它们虽“见多识广”,但在物理世界中却往往是“纸上谈兵”,缺乏连续的三维空间感,不理解真实的物理交互逻辑,更难以避免因脱离物理约束而产生的“幻觉式”规划。

这正是达摩院推出RynnBrain所要解决的核心问题。他们的思路是通过系统性地引入时空记忆、物理空间推理等能力,将这个原本“飘在云端”的认知大脑,强行“拽回”物理世界。

从RynnEC到RynnBrain:让大模型长出“物理直觉”

让大模型扎根物理世界并非一蹴而就。在RynnBrain之前,达摩院还进行了一项奠基性的研究——RynnEC。

简而言之,RynnEC就像给大模型赋予了“眼睛”。它可以精确回答关于物体(属性、数量、功能、分割等)或空间(以自我为中心的世界感知 + 以世界为中心的尺度感知)的问题。例如,在执行“将平板电脑放到书架上”这个任务时,它会先思考“电脑有多宽,能否放上书架而不掉落?”;而在伸手拿酱油瓶之前,它会先计算自己与酱油瓶之间的距离,判断原地不动是否能够得着。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题
图源:RynnEC论文。链接:https://arxiv.org/pdf/2508.14160

这双“眼睛”所提供的细粒度认知输入,是连接高层规划与底层控制的关键桥梁。而RynnBrain不仅完整继承了这些能力,还扩展出了多样化的时空记忆以及物理空间推理能力。

首先是时空记忆。这一能力的引入,直指当前具身大模型的“视野”痛点。现有的大脑模型往往只能解决当前视野(单张图片)内的定位任务,一旦需要寻找的目标物体或关键点处于视野之外(例如前面提到的“抹布”),模型便无能为力。尽管业界存在一种通用的“暴力解法”,即重新处理所有历史图像来寻找目标,但在达摩院看来,这种方式割裂了时空,忽略了具身场景本质上是一个连续的、整体的三维世界。

因此,RynnBrain选择了一条更符合认知的路径:它利用历史记忆帮助模型构建起一个更加完整的三维认知。这意味着,机器人的决策与理解不再受限于眼前的瞬间场景,而是能够真正基于一个完备的三维世界模型进行全局考量。

在复杂的视频变化与干扰下,模型能够持续追踪并识别被使用过的矿泉水,展示了对动态场景中物体的长期记忆与理解能力。

机器人在主要物体被移动后,仍能保持对其空间位置的记忆,并将物体准确放回原处,体现了稳定的物体记忆与空间记忆能力。

那么,这种“类人”的全局时空回溯是如何实现的?其背后的核心在于涵盖空间、位置、事件、轨迹等多维度信息的“统一表征”。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题
RynnBrain拥有认知、定位、推理、规划等多种能力。

在复杂的具身交互中,机器人面对的信息是高度异构的。传统模型往往难以兼容这些异构信息,而RynnBrain的突破在于,它构建了一套统一的框架,将这些信息全部映射到模型的输出空间里。这意味着,模型在“脑海”中处理的不再是割裂的视觉切片,而是将时间维度、空间坐标与语义理解融为一体,从而在底层逻辑上实现了对物理世界的精准“拿捏”。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题
RynnBrain模型架构图。

接下来看物理空间推理能力。在传统的VLM中,推理主要发生在语言层面,并未被强制与具体的空间位置或物理状态绑定。模型可能会生成看似完美的计划,例如前面提到的“用挖馅勺取馅”,但实际上,它眼前并没有挖馅勺,也不知道这个工具在哪里。这种“语义与空间解耦”的模式,是导致机器人产生“物理幻觉”的根源。于是,指令发出去了,任务却无法完成。

为了消除这种割裂,RynnBrain采用了一种“文本与空间定位交错”的推理策略。简而言之,就是要求模型“边说边指”。在RynnBrain生成推理文本的过程中,每当涉及到具体的物理对象或位置时,它必须同步预测出对应的空间坐标或区域掩码。这种强制性的约束,迫使模型在生成“拿起挖馅勺”这句话的同时,必须在像素级或三维坐标系中精准地标出那个挖馅勺。

通过这种机制,RynnBrain 将抽象的语言逻辑与具象的物理环境强力锁定。这种扎根于物理世界的推理方式,极大地降低了任务执行中的不确定性,让每一个决策 Token 都有据可依。

从 SOTA 刷榜到下游实战:一个「六边形基座」的诞生

说了这么多,RynnBrain 到底表现如何?其实,如果只是拿现有的 Benchmark 去测,RynnBrain 的部分能力是很难测出来的,如时空定位、操作点识别等。目前的开源评测基准,普遍缺少对这些细粒度信息理解能力与时空定位能力的评估。

为了填补这一空白,达摩院推出了一个名叫 RynnBrain Bench 的新基准。这个基准涵盖物体认知、空间认知、物体定位、具身点预测四大维度,共计 20 项具身相关任务。它和现有的其他 benchmark 一起,对模型能力提出了综合考验。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

在这套严苛的「试卷」面前,RynnBrain 首先展现出了全面且扎实的基础模型能力。其 8B 版本不仅在具身认知与定位任务上全面领先于 Gemini Robotics ER 1.5、Mimo-Embodied、RoboBrain 2.0、Pelican-VL、Cosmos-reason 2 等业内最先进的模型,在许多细分能力上甚至实现了 30% 以上的性能飞跃。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

更难得的是,RynnBrain 在泛化性方面并没有明显的损失。我们知道,许多专门为机器人任务训练的「具身大脑」模型,容易过拟合到特定任务上,导致其丧失作为通用大模型原有的强大能力(比如文档理解、文本推理等)。而 RynnBrain 在取得具身任务 SOTA 的同时,继承了基座模型(Qwen3-VL)的通用视觉能力。

此外,其开源的 MOE 版本(RynnBrain-30B-A3B)让机器人在保持最强感知与规划能力的同时拥有更快的响应速度。它仅需 3B 的推理激活参数,就在各项指标上击败了当前规模最大的具身基础模型 Pelican-VL-72B,真正实现了以小博大。

作为一个旨在赋能下游任务的基座,RynnBrain 还在后训练阶段爆发出了巨大的潜力。

实验数据表明,其预训练成果对下游任务有显著的加持作用:在导航任务中,仅作为基座进行微调(RynnBrain-Nav),就能比使用 Qwen3-VL 的模型能力提升 5%,且在不修改架构的情况下,导航成功率比当前的 SOTA 模型 StreamVLN 高出 2%-3%。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

而在操作规划方面,RynnBrain 展现了惊人的数据效率,仅需几百条样本微调,其 RynnBrain-Plan 模型就能具备强大的长周期规划能力,无论是在域内还是域外任务上均全面超越了 Gemini 3 Pro。这种「一点就通」的特质,充分验证了其独创的「文本与定位交错」推理方式比传统模式更适应复杂多变的物理世界,其强泛化能力的保留使其能够更快地迁移到所需场景。

阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题

至此,RynnBrain 不仅具备了系统性的认知架构,更补全了从「理解」到「行动」的关键环节,成为首个支持移动操作的具身基础模型。

与其押注路线,不如先给行业「打地基」

关于机器人「大脑」该怎么做,业内其实一直没有标准答案。达摩院的研究人员在交流中提到,当前的探索大致分成两种思路:一种从动作出发,直接学习如何操作真实世界,这条路发展出了 VLA 模型,但问题也很现实 —— 高质量数据难找,泛化始终受限;另一种则试图利用大模型本就拥有的泛化能力,希望先让模型看懂世界,再谈行动,但如何把这种理解准确对齐到真实、连续的物理空间,依然是绕不开的难点。

在这种背景下,达摩院没有急着选边站,而是选择先把基础能力补齐。RynnEC 负责打好对物理世界的感知与理解,RynnBrain 则在此之上继续往时空记忆、空间推理和长程规划推进。这些基础打好之后,RynnBrain 既可以作为下游模型的「大脑」参与真实操作,也有机会通过后训练直接演进为操作基座。这些能力被开源出来,也是希望社区能在同一套底座上继续探索,而不是各自重复造轮子。

与此同时,达摩院也在并行推进以视觉为主导的 VLA 路线(如 RynnVLA),并通过 RCP 等系统级技术,把模型、数据和真实机器人连成一条完整链路,从「看见」到「决定」再到「动手」。

谈及更远的未来,达摩院透露,他们在思考一种更平台化的方案,试图在碎片化的硬件和算法生态之上,搭起一套更统一的具身智能基础设施。毕竟,要解决具身智能这道世纪难题,需要的不是某一家机构的孤军奋战,而是整个开源社区的共同进化。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21059

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 闲置手机变身AI主机:三大开源项目带你玩转端侧OpenClaw部署

    最近,在电脑或云端部署 OpenClaw 的方案已屡见不鲜,许多厂商甚至宣称能在一分钟内完成部署。此前介绍的 Docker 版本也极为便捷。 今天,我们将介绍几个另辟蹊径的项目,它们专注于在端侧设备上部署 OpenClaw。 25美元手机跑OpenClaw 开发者 Marshall Richards 在 2 月 7 日展示了一项有趣的实验:在一台价值 25 …

    3天前
    700
  • Superpowers:为Claude Code注入资深工程师思维,终结AI编程的“瞎写”时代

    你是否曾在用AI写代码时,经历过这样的崩溃时刻? 满怀期待地向AI提出需求,它确实反应迅速,顷刻间生成大段代码。然而,一旦运行,却是满屏报错,业务逻辑也常常残缺不全。更令人无奈的是,它今天写的代码,可能明天自己都无法理解。 究其根源,当前多数AI编程工具的症结在于“过于顺从”。它们缺乏停顿与思考,只是机械地堆砌代码片段。 有趣的是,今天GitHub Tren…

    2026年1月15日
    8800
  • AI绘图革命:Next AI Draw.io一周斩获4500星,自然语言秒变专业图表

    Next AI Draw.io:一周斩获4500星,用自然语言秒变专业图表 在GitHub上,一个名为 Next AI Draw.io 的开源项目迅速走红,仅一周就获得了超过4500个Star,并登上了开源热榜。 如果你在工作中经常需要绘制流程图、架构图或UML图,又觉得传统的拖拽连线方式效率低下,那么这个项目或许能成为你的效率利器。 开源项目简介 Next…

    2025年12月18日
    21600
  • 开源平替神器:一键部署你的私有SaaS服务栈

    在浏览 GitHub 时,我发现了一个非常实用的开源项目 Deploy Your Own SaaS。 该项目汇集了大量可自行部署的开源软件,覆盖笔记工具、云盘、在线会议、记账工具等多个领域。其中绝大多数项目都支持 Docker 容器化部署,能够帮助用户快速上线服务。 这个 GitHub 项目已获得超过 6000 个 Star。本文将从中挑选几个有趣的开源替代…

    2025年11月27日
    8700
  • 面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代

    你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…

    2026年2月4日
    1100