具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

近期,具身智能领域竞争激烈,堪称“神仙打架”。

先是 Generalist AI 发布了 GEN-1,凭借极高的数据效率和闭环控制能力刷新了多项操作纪录,引发行业震动。

两周后,具身赛道的另一位重量级玩家 Physical Intelligence 也推出了新模型 π 0.7,主打“组合与泛化”,对 VLA 架构进行了进一步升级。

尽管两者的技术哲学截然不同,但它们都在试图解决同一个核心痛点:数据。

在语言模型的发展史上,GPT-2 之所以成为关键里程碑,是因为它让语言模型摆脱了对少量高质量标注数据的依赖,迈入了持续 Scaling 的时代。

但在具身智能领域,这个问题尚未被真正攻克:机器人该如何将这些杂乱无章的真实世界数据“消化”掉?

正是在这一背景下,银河通用联合清华、北大、英伟达等众多机构,共同发布了跨本体“隐式世界-动作基础模型”LDA-1B,目光直指具身智能 Scaling Law 的终极命题:如何让模型有效利用互联网规模的异构数据

简单来说,LDA-1B 是一个在隐空间中统一世界模型与 VLA 的基础模型。通过全面整合异构数据,它处理了超过 3 万小时的各类具身数据。其最核心的突破在于:无论是虚拟与现实的数据(虚实共融)、人类操作与机器采集的记录(人机混合)、优质示范与低质量的“脏数据”(质量参差),甚至是有无动作标签的素材,它都能实现统一且高效的利用。

换句话说:一个模型,开始能够“充分利用全部数据,并让所有数据各尽其用”。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

LDA-1B 核心架构总览:通过统一的隐空间动力学,实现对 3 万小时海量异构数据的通用摄取。

在 RoboCasa-GR1 基准测试中,LDA-1B 以 55.4% 的成功率超越了 GR00T-N1.6(47.6%)和 π 0.5,并在真实世界的灵巧操作与长程任务中展现出显著优势。

值得一提的是,该研究论文已被机器人领域顶级会议 RSS 接收(今年仅有 210 篇录用),目前模型代码已正式开源。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

  • 论文标题:LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
  • 论文地址:https://arxiv.org/abs/2602.12215
  • 项目链接:https://pku-epic.github.io/LDA/
  • 代码地址:https://github.com/jiangranlv/LDA-1B

喂什么,怎么喂?

要理解 LDA-1B 的突破,首先要看它“吃”下了什么。

长期以来,真实机器人数据规模有限,人类视频缺乏动作标注,而仿真数据又面临真实性约束,导致不同类型的数据彼此割裂。

这次银河通用的突破,离不开其构建的完整数据基础设施——银河星数(AstraData)。基于这一体系,他们搭建了一个“五层数据金字塔”:囊括了互联网数据(底层)、人类行为数据(次底层)、多本体合成仿真数据(中间层)、真实遥操数据(高层)以及真机自主运行数据(顶层)。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

为了支撑这个 1.6B 参数的基础模型,研究团队基于这套体系构建了极具规模的通用具身交互数据集 EI-30K。

但在把数据喂给模型之前,有两个棘手的问题必须解决。

第一个问题是格式与动作对齐。

机器人数据和人类数据来自不同设备,执行器更是五花八门(夹爪、灵巧手、吸盘)。团队不仅将其全部转换成标准的 LeRobot 格式,更首次系统性地提出了“统一末端执行器动作空间”的跨本体解决方案。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

对于机器人,这被定义为 6-DoF 末端执行器位姿加上夹爪宽度或灵巧手关节;对于人类,则是 6-DoF 手腕位姿和完整的 MANO 手部参数。

这使得模型不再需要去死记硬背“某台机器人的关节怎么动”,而是将所有动作统一映射到“手如何与物体发生作用”的物理本质上,为跨本体泛化扫清了障碍。

第二个问题是,数据质量良莠不齐,怎么用?

传统做法是只用专家数据,把低质量的直接丢弃。LDA-1B 的选择不一样,它采用按质分配,让每一类数据做它最适合的事:

  • 高质量带动作数据:全面参与策略学习和动力学训练,享有最高权限。
  • 次优/嘈杂动作数据:不参与策略学习,专门用于动力学和视觉预测训练。动作做错了没关系,杯子掉在地上、重力导致的碰撞等物理规律是真实可靠的。它通过动力学分支从这些低质量数据中汲取有效信息,实验显示,加入 30% 的低质量轨迹后,模型任务成功率反而提升了 10%。
  • 无动作纯视频:主要是人类第一视角视频。它们全被投入到视觉预测任务中,让模型在没有动作标签的情况下,纯靠“看”来吸收关于物理世界如何自然演化的视觉先验。

这带来的变化非常大:低质量数据不再是废料、无标注视频也能直接参与训练。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

正是这种最科学的数据分工,让具身智能的数据规模得以直接放大,也真正在逻辑上为通用机器人走向零售拣选、工业搬运和家庭服务等大规模商业部署铺平了道路。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

VLA 和世界模型,能不能不二选一?

有了海量数据,接下来就是用什么模型来消化它们。

过去几年,主流答案是前文 π 0.7 所代表的 VLA:看图、听指令、输出动作,链路干净,响应也快。但它本质上是在做海量数据的模式匹配,缺乏真正的物理常识。一旦遇到重心偏移、摩擦力突变等没见过的物理边界情况,就极易翻车。

另一条路是世界模型。它不急着输出动作,而是先在脑子里预测未来:如果我这么做,世界会怎么变?但在“如何表征这个世界”上,大多世界模型主要侧重像素级视频的生成,虽然视频逼真,但物理动力学并不是学习的重点。

LDA-1B 的思路,是干脆别选了,直接在隐空间里深度融合。

它引入了将 World Model 与 Action Model 统一的 WAM 框架。虽然这一方向如今已是大热点,但早在 2025 年 3 月,银河通用就发表了论文,在全球范围内首次对 WAM 的概念进行了结构化定义,详见机器之心往期报道《机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能》。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

LDA-1B 正是这一前瞻路线的自然延伸,它让模型在统一框架下同时学习四类能力:策略学习、前向动力学、逆向动力学、视觉预测。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

从命名就能看出这一点——Latent Dynamics Action Model:隐空间中建模世界的状态变化,同时直接输出可执行的动作策略。

怎么实现“一个模型,四种能力”?

具体到执行层面,LDA-1B 是如何让一切运转起来的?答案在于三个统一。

第一步:统一任务形式

在 LDA-1B 里,策略学习、前向动力学、逆向动力学与视觉预测全部被改写成同一种形式:预测未来的状态 + 预测未来的动作。

为了在同一个网络里搞定这件事,模型引入了“任务嵌入(Task Embedding)”和“寄存器 Token(Register Token)”机制。

通过激活不同的 Task Embedding,模型可以在四种模式间灵活切换。比如专心做“策略控制”时,就用一个视觉 Register Token 占住未来画面的坑位,全力推演动作;做“视觉预测”时则反过来。

这就意味着,模型不再僵硬地划分为“控制”与“建模”两大模块。通过巧妙的Token切换,所有任务都被转化为同一道“填空题”的不同变体,在同一套网络底层中自由流转。

第二步:统一表征空间

任务统一之后,还面临一个问题:究竟在哪个空间里进行统一?

LDA-1B 的答案是:放弃像素,采用 DINO latent。

传统的像素级模型或依赖 VAE 重构的隐空间,很容易将物体的几何结构、外观和动态变化混为一谈(例如,将算力浪费在预测背景墙纸的光影变化上),导致大规模训练效率极其低下。

DINO 特征的核心优势是:对杂乱背景不敏感,但对物体的语义和空间几何结构极度敏感。这使得模型在推演物理规律时,能够专注于“物体的交互与状态改变”,而非外观本身。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

换句话说:LDA-1B 不是在“看世界”,而是在“理解结构化的世界”。这一步从根本上决定了它为何能够实现 Scale。

第三步:统一模型架构

任务统一与表征统一之后,最后一步是:用什么模型去学习?

LDA-1B 选择了多模态 Diffusion Transformer(MM-DiT)。它同时处理两条数据流:动作序列和未来视觉,通过共享注意力机制让两者相互影响。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

一句话总结就是:动作和视觉是分开的,但“思考过程”是共享的。

这带来了一个关键效果:模型在预测动作时,会参考“未来世界会变成什么样”;在预测世界时,也会考虑“动作会带来什么影响”。

其本质在于:将因果关系写入了注意力结构之中。

三步合在一起——统一任务形式、统一表征空间、统一模型架构——让模型在同一套框架内,同时学会了“怎么动”和“世界会怎么变”。此时,它才真正拥有了一个统一的“大脑”:既能成为敏锐的行动者,又能化身精准的预测家。

理论讲完了,看看实战效果

在实验部分,LDA-1B 从多个维度展现了这种一体化架构带来的降维打击。

得益于这种结构化隐空间所支撑的一体化架构,LDA-1B 在任务成功率和泛化表现上,都以极具说服力的数据,直接超越了包括大参数 GR00T、π 0.5 在内的众多现有模型。

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

具身智能Scaling Law新突破:银河通用LDA-1B统一异构数据,3万小时训练超越GR00T

团队进行了一项消融实验:将 LDA-1B 中的 DINO 隐空间替换回传统的 VAE 像素级重构,其他条件保持不变。结果:成功率从 55.4% 骤降至 20.0%,几乎腰斩。由此可见,DINO 隐空间并非加分项,而是 Scaling Law 在具身智能领域得以生效的前提。

走进工厂与家庭

在真实世界(Galbot 和 Unitree 机器人)中,LDA-1B 所展现出的“灵性”,才是其最具震撼力的地方。

通过演示视频,我们可以清晰地看到该模型如何突破传统具身智能的瓶颈,真正解决商业落地的痛点。

面对此前从未出现在预训练数据集中的 Galbot 机器人,LDA-1B 展现了极强的少样本跨本体泛化能力。这打破了以往机器人换个底座就需要重新训练周期的困境。

LDA-1B 仅需约 1 小时的后训练数据,就能迅速理解新硬件的动力学特性。这种极高的适配效率,是模型能够从实验室走向零售门店、物流仓库等多元环境的基础。

在典型的长程任务中,机器人需要应对严格的步骤依赖:

接到指令后,机器人必须按序完成叠放、转移、摆盘与加料,任意一步抓取或放置失误都会导致后续全乱;当用户改变指令后,它也能理解意图变更并实时调整动作序列,自主纠偏完成新目标。

同时,在高自由度灵巧手方面,面对摩擦力极度复杂的“翻牛排”任务,LDA-1B 凭借对物理常识的深刻理解,实现了极高成功率。这证明它并非单纯的动作模仿,而是真正掌握了接触性任务的物理逻辑。

将一排杯子精确叠成金字塔形,每一层的堆叠都依赖上一层的稳定,对双臂协同与力控提出了极高要求。

传统模型常因单步误差累积导致全盘失败,而 LDA-1B 凭借在隐空间进行的动力学推演,能够预测动作的物理后果并实时纠偏。

结语

回顾这一波具身智能的浪潮,其轨迹与 LLM 的发展惊人地相似。

最早,大家手工编写规则;后来发现“大力出奇迹”,开始用海量数据做行为克隆;而现在,单靠模仿已经触及了物理常识的天花板。银河通用的 LDA-1B 提供了一种颇具启发性的思路:通过一个统一的模型,充分利用所有异构数据,既能“深思熟虑”,又能“说动就动”,终于能够像语言模型一样,从海量异构数据中持续学习世界本身。

目前,银河通用已将 LDA-1B 的核心算法与代码体系全面开源,希望推动行业从封闭优化走向开放共建。更重要的是,这一能力并非孤立存在,它将作为核心的通用数据吞吐与跨本体学习能力,快速汇入银河通用的全人形通用基础模型——“银河星脑(AstraBrain)”中。

在未来的路线图里,团队已明确了几个关键的进化方向:首先是尝试将视觉表示与隐空间动力学进行端到端的联合学习,不再受限于固定特征;其次是引入更丰富的感知模态,并探索如何自动优化不同质量数据在训练中的分工角色。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32554

(0)
上一篇 1小时前
下一篇 1小时前

相关推荐

  • ReSeek框架:赋予搜索智能体动态自我修正能力,突破推理链中的连锁错误瓶颈

    在人工智能技术快速发展的今天,搜索智能体(Search Agent)作为连接大语言模型与实时信息世界的关键桥梁,正面临两大核心挑战:知识的实时性与推理的复杂性。传统的检索增强生成(RAG)技术虽然能够引入外部知识,但其本质上仍是被动的信息检索过程。而搜索智能体的革命性突破在于,它能够通过与实时搜索引擎进行多轮交互,主动分解并执行复杂的多步任务。这种能力在人物…

    2025年11月18日
    28900
  • AI经济危机预警:从技术狂欢到智能替代螺旋的2028推演

    最近,美股持续下跌,其诱因并非石油价格波动,而据称与 Citrin 和 Alap Shah 的一篇文章有关。人工智能的发展日新月异,最初人们幻想它能提升效率、推动经济革命,最终却可能成为经济危机的催化剂。他们站在2028年的时间点上,推演了这一过程,其观点与笔者之前的文章也存在一定的关联性。 珍妮纺纱机、瓦特蒸汽机从未独自创造工业革命。真正点燃那场变革的,是…

    2026年3月12日
    93300
  • 字节豆包Seed 2.0 Mini实测:轻量级AI模型如何实现成本效益与性能平衡?

    字节跳动近期正式发布了Seed 2.0系列,该系列针对大规模生产环境进行了系统性优化,旨在处理真实世界中的复杂任务。通过提供Pro、Lite、Mini及Code/Preview等全系列尺寸,该系列旨在为不同规模与复杂度的应用场景提供专业级支持。 本次评测的Doubao-Seed-2.0-mini是该系列的轻量级版本,面向低时延、高并发与成本敏感场景,强调快速…

    2026年2月25日
    1.8K00
  • 从统计物理到信息论:解码大模型第一性原理的三维理论框架

    2022年底ChatGPT的横空出世,标志着大模型时代的正式开启。短短三年间,从GPT系列到DeepSeek,再到Google Gemini 3的强势推出,大模型以惊人的速度迭代演进。仅在美国,AI领域的年度投资规模已超过许多国家全年GDP,这一数字背后反映的是全球对人工智能技术突破的狂热期待。然而,在技术狂欢的背后,一个根本性问题日益凸显:我们是否真正理解…

    2025年12月11日
    31400
  • 人形机器人半马超越人类,具身智能路线之争白热化

    近日,人形机器人第一次在真正意义上,“超越” 了人类。 2026 北京亦庄人形机器人半程马拉松赛上,荣耀人形机器人 “闪电” 凭借 50 分 26 秒(净用时)的成绩,获得此次比赛冠军,并大幅领先目前人类男子半程马拉松世界的最新纪录是 57 分 20 秒。 与此同时,宇树 H1(2023 年改版)则自主跑完 1.9 公里多弯道赛程,用时 4 分 13 秒,按…

    4天前
    19800