最近业界的一系列动态勾勒出一个清晰趋势:具身智能正在告别单纯的“视觉模拟”,正式跨入“空间理解”的新阶段。
近日,全球具身世界模型基准评测 WorldArena 更新最新榜单。由 中科第五纪 研发的最新具身世界模型 FlowWAM,凭借其在物理与空间理解上的卓越表现,成功登顶 WorldArena 榜单,展示了国产模型在处理动态交互时的惊人准确度与真实性。

榜单地址:https://huggingface.co/spaces/WorldArena/WorldArena
此次霸榜再次验证了国产具身世界模型在该领域的快速崛起,并凸显了当前行业向真实世界理解的转型趋势。
01 核心战绩:两大评测维度第一,强化空间认知
与以往追求“画面好看”的评测不同,WorldArena 的评价维度更为全面,涵盖 6 个大维度 及其包含的 16 个小维度。
FlowWAM 在其中 2 个大维度评测 上展现了压倒性优势,标志着其不只是视频生成器,还能为机器人提供精准的物理空间认知能力。
- Physics Adherence(物理遵循)第一:拒绝“视觉欺骗”,复刻真实交互,缓解了生成式模型常见的“虚假交互”问题。在 交互质量(Interaction Quality) 方面,它生成的机器人动作在接触行为、力传导等方面展现了很高的真实性;特别是在 轨迹准确度(Trajectory Accuracy) 方面,它的时空对齐表现是所有模型中最强的。这意味着,它预判的不仅仅是画面,更是符合物理规律的精确作业路径。
- 3D Accuracy(3D 准确度)第一:重建三维几何,消除空间幻觉,生成超越图像表象的真实空间结构。特别是在 深度准确性(Depth Accuracy) 方面,其生成的几何一致性与真实场景非常吻合,缓解了单目视觉下的尺度歧义,是所有模型中最强的;在 透视合理性(Perspectivity) 方面,无论是随深度变化的尺度缩放,还是复杂的光影遮挡关系,它都展现了极强的 3D 逻辑。
两大维度双双第一,意味着 FlowWAM 能够在涉及物理理解与空间重建的真实世界任务中表现更加精准和可靠。
02 分析 FlowWAM:具身大脑的进化之路
FlowWAM 是中科第五纪在具身智能领域的最新力作。回顾其技术路径,可以清晰看到团队在具身大模型研发上的主要思路:
- FAM-1(超少样本具身操作模型):通过引入 3D 热力图进行二次预训练,有效减少了模型在空间理解方面的信息损失,实现了在极少数据下的快速微调,让机器人具备了初步的少样本泛化操作能力。
- BridgeV2W(第一代具身世界模型):通过将不同本体的机器人行为进行空间像素化,有效缓解了“动作序列到视觉画面”的表征鸿沟,实现了跨本体下的未来视频准确生成,让机器人具备了初步的跨本体可靠操作能力。
- FlowWAM 阶段:作为中科第五纪推出的最新一代具身世界模型,尽管具体架构细节尚处于保密阶段,但从其命名的“Flow”可以窥见,该模型大概率在物理空间的动态流动性与因果预测上实现了突破,最终在物理遵循和 3D 准确度方面展现出明显的优势。
03 国产具身世界模型的“破晓时刻”
在 WorldArena 榜单的前列,除了中科第五纪之外,我们看到了大量来自中国团队和科研机构的身影。这反映了一个重要趋势:在全球具身智能竞争的今天,中国团队正在具身世界模型这一核心战场上异军突起。
相比于海外巨头在通用视频生成(如 Sora、Gen-3)上的先发优势,国内具身智能赛道正表现出更强的 “垂直攻势”:
- 从感知到认知:不再满足于“简单看懂”,而是追求“深度理解”。
- 从仿真到落地:切实转化为工业、物流、服务等场景的实际生产力。
随着具身智能步入 2026 年 这一关键应用元年,国产具身世界模型已经站在了具身智能领域技术发展的制高点。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31710

