全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

如今,具身智能领域正经历一场显著的变革。

全球的机器人企业,不约而同地开始“卷真机”了。

前几天,Figure公司进行了一场物流分拣的7×24小时不间断直播;Physical Intelligence也在不断探索让机器人完成各类家务;而马斯克则反复强调,特斯拉的Optimus必须实现“useful work”。

整个行业越来越清晰地认识到一个事实:

机器人时代的竞争,早已不再是比拼谁的Demo更炫酷,谁的机器人更擅长表演。

 

真正的较量在于,谁能扎进物理世界,真正地干出活来。

毕竟,机器人一旦踏入现实环境,挑战的性质就彻底变了。

桌面会反光,地面会脏乱,物体相互遮挡,动作的误差会不断累积。

那些看似简单的擦桌子、抓包裹、放东西,背后考验的是感知、规划、控制和记忆能力的综合实力

各家厂商都在标榜自己是“劳动小能手”。那么,究竟谁最能干?

要公平起见,还得把各家模型拉到真实世界里一决高下。

最新进展是,全球最大规模具身智能真机评测平台——RoboChallenge Table30榜单再次更新。

结果一出,行业格局瞬间清晰,各玩家的实力高低立判。

登顶榜首的,是一家来自清华系的明星具身机器人公司——星动纪元自研的具身模型Era0。它以64.33%的成功率和76.34的综合得分,拿下了全球第一

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

更值得一提的是,它并非靠单项任务刷分。在总计30项任务中,星动纪元Era0有17项任务取得了SOTA级别的表现,创下了榜单纪录。

别看这些任务五花八门,归根结底,它们考核的核心只有一件事:

具身大脑在物理世界持续“干活”的能力

登顶具身智能界“最硬”榜单

RoboChallenge被业界公认为“真机高考”。

它不仅被纳入了ICRA 2026 Competition,也进入了CVPR 2026 Workshop Competition(GigaBrain Challenge Track),获得了国际顶级机器人与计算机视觉会议的官方认可。

登顶RoboChallenge,意味着模型通过了真实世界的考场

这对所有具身智能玩家来说,吸引力巨大。

Physical Intelligence的π0/π0.5、微软的CogACT、OpenVLA等全球顶尖的VLA模型,经常在这个榜单上激烈交锋。

而这一次,竞争同样异常激烈。一组数据足以窥见其战况:

 

参赛的“选手”共有22个;30个任务总共跑了1088次;总episode数量达到了25627次。

这不是跑几个Demo视频,而是真刀真枪地进行连续真机测试。

其中,有两项任务尤其受到行业关注:

  • 制作素食三明治(make vegetarian sandwich)
  • 擦桌子(wipe the table)

因为,它们实在是太难了!

 

先说说制作三明治。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

这个任务看起来像厨房小游戏,实际上考验的是长程任务规划能力。

机器人不仅要清楚先拿什么、后放什么,还得记住自己进行到哪一步了。

面包放错顺序、食材遗漏、动作陷入循环,都会导致整个任务直接失败。

它本质上不是在考机器人会不会抓取,而是在考机器人能否像人一样,理解并执行一个完整的流程。

再看擦桌子。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

整个过程看似日常,但难点在于所有物品都是白色的——用白色纸张擦白色桌子,并将废纸扔进白色垃圾桶。

这背后同时涉及:视觉识别、长程任务规划、接触控制、环境状态记忆。

尤其是在真实世界中,桌面污渍并不是一个标准化的目标。

它可能很小、随机分布、位置变化,甚至会因为反光、阴影、遮挡,导致机器人误判“已经擦干净了”。

在很长一段时间里,这两类任务几乎就是具身模型能力天花板的代名词。

而星动纪元Era0,一举攻克了这两道公认的难题。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

在制作素食三明治任务上,Era0的成功率为20%,是Top8模型中唯一在此任务上取得非零成绩的模型。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

在擦桌子任务上,Era0的成功率为60%,同样是Top8模型中唯一实现非零成绩的模型。

此外,Era0还在两个任务上直接拿下了双满分(成功率100%,过程分也是100):

  • 将开瓶器放入抽屉(put opener in drawer)
  • 拧开水龙头(turn on faucet)

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

这意味着Era0并非偶尔灵光一现,而是真正具备了在不同任务、不同物体、不同交互环境下稳定执行的能力。

我们观察到,榜单设置的30项任务,考察维度非常广泛。

在双臂协同、柔性物体操作、多视角感知、分类任务、长时序任务等多个灵巧操作的核心维度上,Era0均位列第一。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

Era0为什么能赢?

Era0霸榜的背后,真正值得行业关注的,其实不是成绩本身。

而是星动纪元正在押注的一条充满想象力的技术路线。

它没有继续沿用传统的VLA逻辑,也不是单纯堆叠一个World Model。

而是直接将两者进行了深度融合。

这件事,在行业内其实很少有人能真正做成。

原因很简单。过去两年,VLA确实一度成为具身智能的主流方案。

大家希望通过视觉+语言+动作的统一建模,让机器人像大模型一样理解世界。但问题也日益凸显。

首先是缺乏长程规划能力

很多机器人只能完成“下一步”的动作。但现实任务不是单步选择题,更像是一部连续剧。

机器人不仅要知道下一步该做什么,还得清楚自己当前处于哪个阶段,以及后面会发生什么。

其次是幻觉问题

模型可能“以为”自己完成了动作。但在真实的物理世界里,东西根本没拿起来,污渍也没擦掉。

最关键的,还是持续状态理解能力的不足。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

AI生成

如果你想让机器人在物理世界持续“干活”,其大脑至少需要具备三层能力:

第一层:看得准、定位稳。

现实世界没有标准答案,弱光、堆叠、反光都是家常便饭。

很多模型不是不会抓,而是根本看不清。

我们不需要一个“一眼看懂万物”的幻觉,只想要一个次次认对、次次定位准的靠谱执行者。

第二层:想得清、走得通。

这指的是时序记忆与长程规划能力。

多步骤、有先后顺序的任务中,它能不迷路、不循环,按部就班地把整个流程走完。

第三层:控得稳、能落地。

这要求真机动作稳定、泛化迁移能力强、学习迭代速度快。

请注意,使用者可能不需要一招制胜的高手,一个动作稳、误差小、能批量干活的扎实工程师反而更得人心。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

AI生成

而要实现这些,仅靠模仿学习成功的VLA是做不到的。

问题在于它“知其然,而不知其所以然”。

例如,传统VLA缺乏物理因果认知,只会复刻示范动作流程,无法理解动作背后的物理逻辑、空间关系与交互原理,不明白为何要如此操作。

一旦现场环境、物料姿态、作业位置出现细微变化,原有动作就会立刻失效,无法灵活调整。

同时,它不懂行为因果,无法预判操作风险、推演行为结果,既不能自主排查失误,也难以举一反三适配新场景,只能固守既定范式。

单纯依靠模仿学习存在天然上限,根本满足不了大规模落地中灵活作业、自主进化的实际需求。

引入世界模型是最好的解决方案。

因为它本质上是在让机器人提前脑补未来,以便尽早规划下一步动作。

从行业首个原生内嵌世界模型的机器人基础底座PAD,到全球首个具身领域世界模型策略框架VPP,星动纪元始终没有把世界模型当成一个外挂。

视频,是比语言更原生的理解物理世界的方式。

他们认为,这是所有技术路线的第一性原理

转折点出现在2025年1月,星动纪元第一次真正意义上将VLA与世界模型深度融合。

UP-VLA的推出,首次提出语言推理和视觉预测可以同时对决策提供帮助。

这相当于给机器人装上了“边干活边脑补”的能力。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

但世界模型很快又遇到了一个行业级难题:真机数据太贵。

于是,星动纪元开始了下一步研究——让世界模型自己生成数据。

2025年10月,他们联合斯坦福Chelsea Finn团队,推出了“可控生成式世界模型”Ctrl-World。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

整个行业首次让世界模型扮演了数据仿真引擎的角色。

机器人不再仅仅依赖海量真实世界采集的数据,也能持续提升动作的精准度与稳定性。

今年1月,他们又推出了一个名为VLAW 的架构,即“VLA策略与世界模型协同进化框架”。

其核心是将之前的Ctrl-World与VLA系统构建成一个双向数据闭环,让两者相互校准、彼此增强。

VLA和世界模型,由此正式迈入协同演进的阶段。

这一点至关重要。

从本质上讲,它改变了机器人学习物理世界的方式——不是让机器人死记硬背“如何拿杯子”,而是让它真正理解“拿起来”这个动作的内在逻辑。

现在回过头来看,你就明白Era0为何能在复杂任务中展现出强大的泛化能力了。

这并非单一模型的胜利,而是在世界模型的加持下,星动纪元一整条技术路线开始走向成熟。

强能力支撑硬任务

除了榜单上的成绩,Era0最值得关注的,还有它展现出的极为完整的能力图谱

许多模型只擅长一两项绝活。但Era0更像一个开始真正成熟的“具身执行系统”,感知、记忆、控制、执行等环节,已经形成了闭环。

而这些能力,几乎都能直接对应到真实的工作场景中。

时序记忆决策:记得住、不循环

很多机器人,看起来已经很聪明了,能抓、能放、能移动。

但一旦任务步骤变长,问题立刻暴露。它会“失忆”,忘记自己进行到哪一步,甚至会陷入某个动作的无限循环。

这也是为什么,长程任务一直是具身智能领域最难攻克的难题之一。

机器人不仅要知道下一步该做什么,还必须清楚:我现在处于哪一步?之前发生了什么?后面还有多少步骤?

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

AI生成

Era0这次的重要突破之一,就是短程时序记忆机制

它会持续追踪历史动作和任务状态。

终于,机器人开始“记事”了。

这一能力,在制作素食三明治的任务中表现得尤为突出。

这个任务看似简单,实则是典型的长程时序依赖任务。许多模型执行到一半就“失忆”,成功率全部为零。

只有Era0成功完成了整个流程,成为全球首个突破该任务的模型。

而这背后所对应的,正是机器人开始具备真正的“工作记忆”。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

一旦进入物流场景,这一能力将变得更加重要。

因为真实的流水线,本身就是连续流程。包裹入库、扫码、分拣、装车,每一步都存在状态依赖。

如果机器人记不住流程,就一定会出现重复抓取、漏拣或错拣的情况。

柔性物体操作:控得柔、抓得稳

柔性物体操作,一直被认为是具身智能领域最难啃的“硬骨头”之一。

因为在现实世界中,大量物体并非标准的刚体。

抹布会变形,软包会塌陷,纸张会飘动,生鲜还会滑动。机器人的力度只要稍有偏差,结果就是掉落、损坏或散开。

而Era0通过规模化跨本体预训练,以及更精细的夹爪控制,让机器人能够同时适应刚性、柔性和易碎物体。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

动作平滑,抖动极小。

最关键的是,它开始具备“轻重感”了。

在碎纸清理、叠抹布等柔性任务中,Era0的成功率达到43.3%,远高于行业平均水平。

而这一能力,一旦进入物流、生鲜、商超等场景,价值会立刻被放大。

因为现实仓库里,最难处理的往往不是标准纸箱,而是软包、冷链、生鲜以及高价值易碎品。

这些场景过去长期依赖人工,因为不敢交给机器人,担心它动作太粗暴。

真机执行鲁棒:误差小、可重复

最后,我想聊一个重要的能力——稳定性。

很多机器人的演示视频看起来都很流畅。但行业真正关心的问题,其实只有一个:它能连续运行多久?

毕竟机器人进入工厂后,面对的并非一次性表演,而是7×24小时不间断的作业。

动作误差会不断累积,轨迹抖动会持续放大。

很多机器人刚开始动作很漂亮,可运行半小时后,误差就开始失控。

工业场景真正稀缺的,从来不是“能完成一次”,而是能否稳定重复一万次

Era0这次展现出的另一项核心能力,就是极强的真机执行鲁棒性。

这背后依赖的是动作插值平滑,以及真机推理优化。

这一点,在倾倒薯条入盘、扫码等高精度任务中体现得非常明显。Era0的成功率达到90%至100%。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

动作轨迹连续平滑,没有明显的抖动和偏移。

这意味着,它已经不只是“会做动作”,而是开始具备工程级的稳定性。

而这,恰恰是机器人真正进入规模化产业落地之前,最关键的一道门槛。

不只会比赛,更能进厂干活

具身行业现在有一个很有意思的现象:全球的机器人公司,都越来越会“直播”了。尤其是Figure。

这里我们不想讨论直播的“含金量”。毕竟物流分拣本身,并不是只有一家公司才能完成的高难度动作。

国内不少公司都能做到。问题在于,直播场景很多时候依然是高度可控的环境。

物料规整,流程固定,工况理想。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

而真正的物流现场,完全是另一回事。

纸箱、软包、异形件混杂;光照、噪音、温度不断变化;设备误差、异常工况、突发情况每天都在发生。

能在Demo中连续运行,不等于能真正进入生产系统。

行业真正稀缺的,也从来不是“会不会做演示”,而是能否长期稳定地干活。

这恰恰是星动纪元正在建立的核心优势。

事实上,在RoboChallenge之前,星动纪元已经在多个权威真机赛事中展现过统治力。

不久前,星动纪元具身模型在权威具身世界模型测评WorldArena中,斩获具身任务全球第一;

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

在全球具身灵巧操作难度顶尖的真机赛事Benjie’s Humanoid Olympic Games上,该公司还击败了公认的“最强大脑”PI*0.6,一举拿下剥橘子、开锁、翻袜子三项任务的全球第一。

但比冲榜更重要的,还有落地。

很多公司还在讲“未来机器人会进入工厂”,星动纪元已经开始交付了。

目前,星动纪元已在物流领域率先实现行业首个具身智能PMF落地

该公司已与顺丰中国邮政等企业展开深度合作,在全国5个省市的10余个物流中心,稳定承接真实分拣作业。

这甚至引起了海外机器人垂直媒体Bots n Beans创始人Peter Kappes的注意。

全球机器人公司集体“卷真机”:星动纪元Era0模型登顶最硬核具身智能榜单

(星动纪元)已部署。而Figure……目前尚未正式宣布任何物流合作。

具身智能行业里,有人还在证明“机器人能干活”。

有人已经开始让机器人批量入厂干活了。

据公开信息,星动纪元在2026年Q2已开启千台级批量交付,同比增速达300%。

One more thing

从某种意义上说,RoboChallenge这次把整个行业重新拉回了现实世界。

能否在随机环境中持续工作,能否真正进入生产系统,是这次大考最重要的评判标准。

Era0的登顶,也同时证明了两件事:

一是它能比赛,说明技术先进;二是它能干活,商业模式成立。

而同时做到这两件事的具身大脑,才会是真正稀缺的下一代基础设施。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35684

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 谷歌Gemini-3-Flash-Preview实测:成本仅为Pro版1/4,性能超越上代Pro,中文评测排名跃升至第5

    谷歌本周发布了Gemini 3 Flash Preview新版本,官方称其“以不到Gemini 3 Pro四分之一的成本提供强大性能”,并声称“在许多基准测试中超越了2.5 Pro”。我们对Gemini 3 Flash Preview和上一代Gemini 2.5 Flash进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差…

    2025年12月19日
    1.6K00
  • KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代

    KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代 前沿大模型的能力边界正在持续突破,如今甚至能精准编写GPU内核代码,成为高性能计算领域的新帮手。但一个行业痛点也随之浮现:没有单一前沿模型能在GPU内核生成上持续领先,而行业内对模型能力的评测大多依靠主观体验,缺乏统一、严谨、可复现的量化标准。 为了解决这一问题,Wafer团队…

    2026年3月14日
    37100
  • 无需微调,Poetiq元系统让GPT-5.2推理准确率飙升至75%,创ARC-AGI-2新纪录

    什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。 在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。 近日,Poetiq 表示其使用 ARC-AGI-2 测试…

    2025年12月25日
    1.2K00
  • MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减

    Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

    2025年11月4日
    41900
  • AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实

    本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

    2026年4月19日
    51500