从3000小时到20000小时:真实数据验证Scaling Law
从3000小时到整整20000小时。
真实世界数据中的Scaling Law,直接催生了一个强大的VLA(视觉-语言-动作)基座模型!

这就是蚂蚁灵波最新开源的具身智能基座模型——LingBot-VLA。
为何称其为当前最强?首先看数据。
仅从“20000小时”这个规模来看,LingBot-VLA已经解锁了迄今为止开源领域中最大规模的真实机器人操作数据之一。
其性能同样出色,在权威评测中全面超越了此前公认最强的Physical Intelligence π0.5模型,以及英伟达GR00T N1.6等国际顶尖模型。

再看实际表现。
此前,具身智能领域面临一个棘手问题:一旦环境发生变化,VLA模型的表现便会大打折扣:
更换机器人型号,失败;
更换摄像头视角,失败;
调整桌面高度,失败……
然而,在LingBot-VLA的驱动下,机器人仿佛拥有了“聪明的大脑”,能够灵活应对各种变化。
例如,面对复杂的收纳任务——将桌面物品放入包中并拉上拉链,机器人双手协调,动作流畅连贯:
更复杂的餐具清洁整理任务——使用多种工具完成餐具清洗与归位,机器人依然能够精准操控各类物体。
即便是像透明玻璃杯这样容易让机器人“看不清”的物体,它也能轻松应对:
更重要的是,得益于其强大的泛化能力,同样的任务指令,无论是部署在AgileX、AgibotG1还是Galaxea等不同构型的机器人上,都能顺利完成:
纵观整个研究,除了数据和性能,LingBot-VLA更关键的意义在于,它揭示了一条通用具身智能的发展路径:
从3000小时到20000小时,首次在真实世界场景中,系统性地验证了VLA模型性能会随着数据规模扩大而持续提升的Scaling Law。
并且,这种性能提升在达到20000小时后仍未出现饱和迹象。
正如研究者所总结:
更多真实数据 → 更高任务成功率 → 性能提升尚未饱和。

一个大脑,适配多个身体,这正是实现规模化的关键。

那么,LingBot-VLA究竟是如何实现的?让我们深入探究。
核心:真实世界数据驱动
在探讨LingBot-VLA的构建方法前,有必要先了解当前机器人学习的困境。
以往,包括Physical Intelligence π系列在内的顶尖VLA模型,其预训练数据严重依赖仿真环境。
仿真虽具有成本低、可并行等优势,但与真实物理世界之间存在难以逾越的质感鸿沟。
例如,一个机器人在仿真环境中可以流畅地叠衣服,但在真实世界里可能连衣角都抓不住。
因此,蚂蚁灵波团队做出了明确选择:放弃依赖仿真,全部采用真实世界的机器人操作数据。
自2023年起,他们联合星海图、松灵机器人等合作伙伴,在真实的实验室内,通过遥操作方式,让机器人执行了成千上万次的抓取、放置、组装等动作。
数据规模从最初的3000小时,逐步扩展至20000小时,全部源自物理世界。
这些数据并非来自单一机器人平台。
研究团队动用了9种不同品牌和构型的双臂机器人,包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龙机器人、ARX Lift2以及Bimanual Franka。

这意味着,模型从训练初期就接触了不同机械臂的运动模式、不同摄像头的视觉视角以及不同末端执行器(夹爪)的特性。
这种数据的异构性和丰富性,奠定了LingBot-VLA强大泛化能力的基础。
为了将海量视频数据转化为模型可学习的“教材”,团队设计了一套巧妙的半自动标注流程:
* 人工将多视角视频流按原子动作拆分成片段。
* 利用强大的视觉语言模型,为每一段视频生成精确的自然语言描述,例如“用左手夹爪靠近红色积木”、“将水杯平稳放入微波炉”。
最终,这20000小时、涵盖无数原子动作的多模态数据,构成了训练LingBot-VLA的核心养料。
架构与技术创新
除了海量真实数据,模型架构上的创新也是LingBot-VLA成功的关键。

它采用了一种名为专家混合Transformer的架构,可以类比为为机器人设计了一套“大脑”与“小脑”协同工作的系统:
* 大脑:一个经过预训练的强大多模态视觉语言模型。负责高层语义理解——观察环境(多视角图像),解析任务指令(自然语言),并推理出当前状态与任务目标。
* 小脑:一个专门初始化的动作专家模块。负责接收来自大脑的语义信息,结合机器人当前的自身状态(如关节角度),规划并生成具体、连续、可执行的动作序列。
两者并非独立运作,而是通过共享的自注意力机制进行深度耦合,实现了在模型每一层的信息交互与协同。
在动作生成技术上,LingBot-VLA摒弃了传统的离散预测方法,引入了先进的流匹配模型。
简而言之,它不再预测“下一步关节应该转动多少度”这样一个具体的离散值,而是学习整个动作变化的平滑“流场”。
这使得机器人生成的动作更加流畅、自然,更接近人类演示的连贯性,对于需要精细控制的长序列任务至关重要。
此外,深度感知是另一项关键技术突破。
为了让机器人不仅能“看见”物体,还能感知距离,团队引入了自研的LingBot-Depth深度估计模型提供的深度信息。
该技术通过一种可学习的查询对齐方法,将深度信息有效地蒸馏并注入到VLA模型的视觉理解模块中。
这相当于赋予了机器人对三维空间的直观感知能力,使其在执行“将芯片插入狭小卡槽”、“抓取时避免碰撞杯壁”等需要精确空间关系的任务时,性能得到显著提升。
高效训练基础设施
然而,使用20000小时高维度的视频和动作数据训练模型,对算力需求是巨大的。
蚂蚁灵波团队的解决方案是:对训练基础设施进行系统级优化,并打造了一个高性能开源代码库。
他们在分布式训练策略、算子级别优化和数据处理管道上进行了全方位革新:
* 采用完全分片数据并行策略,极致优化GPU内存占用。
* 针对动作专家模块设计特定的分片组,大幅降低通信开销。
* 利用FlexAttention等技术对稀疏注意力计算进行加速。
优化效果立竿见影。
在8卡GPU的配置下,LingBot-VLA代码库实现了每秒每GPU 261个样本的吞吐量;与社区主流的OpenPI、StarVLA等训练框架相比,训练速度提升了1.5倍至2.8倍。
以往需要一个月完成的实验,现在可能只需一到两周。

这不仅大幅缩短了科研周期、降低了创新成本,更重要的是,它使得基于万小时级别真实数据迭代VLA模型变得切实可行。效率的提升,是解锁数据缩放定律(Scaling Law)的前提。
全面评估:GM-100基准测试
模型的优劣不能仅停留在论文描述。
为此,蚂蚁灵波团队在权威的GM-100基准上进行了全面测试。
该基准由上海交通大学等机构联合研发,旨在为衡量机器人的“大脑”(智能模型)与“身体”(物理执行器)的协同能力,提供一个系统、开放且可复现的评估标准。
它包含100个从易到难的精细操作任务,从简单的“抓取积木”,到复杂的“制作三明治”、“叠放衣服”。
评测在Agibot G1、AgileX和Galaxea R1Pro三种真实机器人平台上进行。
每个模型在每个任务上都进行了多轮测试,总计产生了22500次真实机器人测试录像。所有测试录像均已开源,确保了评测过程的完全透明与可复现性。
在同台竞技中,LingBot-VLA 迎来了三位重量级对手:π0.5、英伟达的 GR00T N1.6,以及 WALL-OSS。所有模型均在相同的数据和超参数设置下进行后训练,以确保公平比较。
综合任务成功率和进度得分两项核心指标,LingBot-VLA(无深度版本)已在三项指标上全面领先 WALL-OSS 与 GR00T N1.6。而融合了深度信息的 LingBot-VLA,则在三项指标上均显著超越了目前公认的强基准——π0.5。
例如,在 AgileX 平台上,LingBot-VLA(含深度)的平均任务成功率达到 18.93%,而 π0.5 为 17.20%;在更具挑战性的 Galaxea R1Pro 平台上,优势同样明显(20.98% vs 14.10%)。

在仿真基准 RoboTwin 2.0 上,其优势依旧明显。在物体位置、背景、灯光高度随机化的复杂场景中,LingBot-VLA 相比 π0.5 取得了近 10 个百分点的绝对成功率提升。

这证明其学到的能力是鲁棒且可泛化的,而非对特定环境的过拟合。
更重要的是,研究团队通过控制预训练数据量(从 3000 小时到 20000 小时)进行的实验清晰表明:随着真实世界数据量的增加,模型在下游各项任务上的性能呈现持续、稳定的提升,且尚未看到饱和迹象。

不造机器人,但要打造通用大脑
蚂蚁灵波的目标与当前机器人行业的核心痛点——场景碎片化与硬件非标化——密切相关。不同的机器人本体在关节构型、传感器配置、驱动方式上千差万别。传统方式是为每个场景、每种硬件定制开发算法,成本高、周期长、难以复制。
LingBot-VLA 提供了一种 通用智能基座 思路:不制造机器人本体,而是致力于打造一个通用大脑。通过在海量异构真实数据上进行预训练,模型学会了跨越不同硬件平台、本质性的操作逻辑和物理理解。这就像一个掌握了“抓握”本质概念的人,无论面对筷子、夹子还是机械爪,都能通过简单适应掌握使用方法。
LingBot-VLA 展示的跨本体泛化能力正是如此。模型在 9 种机器人数据上预训练后,在 3 种未见过的机器人平台上依然表现优异,证明其能力并非绑定于特定硬件。这为实现“一次训练,多端部署”的规模化落地愿景提供了坚实的技术基础。
为降低行业使用门槛,蚂蚁灵波团队不仅开源了模型和代码,还贡献了“交钥匙”式的评估基准和高效后训练方案:
- 可复现的评估:GM-100 基准与全部 22500 次测试录像开源,树立了行业评测新标准。
- 低成本后训练:高效的代码库与数据高效性优势(实验显示,仅用对手 60% 的数据量就能达到更好效果),让企业能以更少的数据和更低的算力成本完成对特定场景的适配。
2024 年,π0 的开源引爆了全球 VLA 研究热潮,但其主要基于仿真数据,在真机落地上存在局限。LingBot-VLA 的价值在于,它首次提供了一个基于万小时级真机数据开源的全栈解决方案,推动行业从实验室演示迈向可规模化落地的新阶段。
如果说 LingBot-VLA 是一个单点突破,那么它映射的是蚂蚁集团在通往 AGI 道路上的技术布局与行业愿景:
- 蚂蚁百灵:作为底层基础大模型,提供通用的语言与逻辑能力基石。
- 蚂蚁灵光:面向应用的通用 AI 助手,探索 AI 的交互与服务边界。
- 蚂蚁灵波:专注攻克具身智能,旨在为物理世界中的智能体赋予大脑。
从基础大模型到多模态,再到如今的具身智能,蚂蚁的 AGI 拼图正在一块块补全。这条路注定漫长且需要生态协作。但当行业领先者开始体系化布局并主动开放技术,或许正如他们所期待的那样——那个属于通用人工智能的未来,会以更开放、更协作的方式,更早地到来。
项目主页:
https://technology.robbyant.com/lingbot-vla
GitHub:
https://github.com/robbyant/lingbot-vla
模型权重:
https://huggingface.co/robbyant/lingbot-vla
https://www.modelscope.cn/collections/Robbyant/LingBot-VLA
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19236
