最近,全球互联网用户纷纷化身“线上监督员”,围观了 Figure AI 的人形机器人在物流传送带上进行的一场直播:它连续工作数十小时,不间断地完成包裹分拣任务。
这款机器人能在真实生产环境中持续作业,完全依赖其内置的视觉系统,自主执行识别、抓取与分拣的全流程操作,这标志着具身智能领域迈入了一个新的里程碑。
这次技术突破的背后,是当前具身智能的核心要素——智能体(Agent)。如今,机器人已正式转向“基于模型的端到端推理”阶段。
机器人不再仅仅是按照预设程序执行单一动作,而是需要依靠自身的视觉系统来识别环境、理解目标、规划动作,并在动态变化的物理世界中完成任务。
谁能帮助机器人更出色地“看懂”世界、“推理”任务、“想象”后果并“执行”动作,谁就离通用具身智能的核心更近一步。
正是在这个关键节点,国内具身智能领域迎来了一项重要进展。
北京人形机器人创新中心(以下简称“北京人形”)在 WorldArena 全球权威评测中连续取得突破。
其具身大一统模型 Pelican-Unify 1.0 成功登顶 WorldArena 权威榜单,在 EWM Score(综合得分)方面稳居第一,而 3D Accuracy(3D 准确率)更是接近满分。

WorldArena 最新排行榜
此前,北京人形发布的 WoW 具身世界模型已登顶 WorldArena Data Engine(数据引擎)赛道,并获得 Hugging Face 官方重点推荐,随后被斯坦福、Physical Intelligence(PI)等顶尖团队引用,显示出其在具身世界模型与数据引擎方向上的技术影响力。

这意味着,北京人形成为全球唯一一家同时登顶 WorldArena 两大核心赛道的机构,并由此拿下具身智能领域的首个“双冠王”,跻身具身大脑能力的世界第一梯队。
从榜单成绩来看,Pelican-Unify 1.0 以 66.03 的得分位居榜首。在 WorldArena 覆盖视觉质量、运动质量、内容一致性、物理遵循、3D 准确性、可控性等多维度的严格评估中,Pelican-Unify 1.0 综合排名第一,展现出较强的均衡能力。其中,在 3D Accuracy(3D 准确率)上更是达到了惊人的 98.12,接近满分。
这表明该模型已具备接近真实世界的空间建模能力。因为 3D Accuracy 评估的并非简单的画面质量,而是模型对空间几何关系的理解能力。Pelican-Unify 1.0 在这一指标上接近满分,说明它不仅是在视觉上生成得“像”,而是能够较准确地理解和重建场景中的空间关系——这对机器人而言至关重要。
让智能体走向物理世界
自 2025 年以来,智能体已成为整个 AI 行业最热门的词汇。OpenAI、谷歌、Anthropic 接连押注,国内大模型厂商也几乎无一缺席。智能体的核心逻辑并不复杂:让模型不再是单纯回答问题,而是“完成任务”——即感知环境、制定计划、调用工具并持续执行。
这个逻辑在数字世界尚且勉强成立,但一旦进入物理世界,问题就变得根本得多。
一个机器人要完成“把桌上的蓝色零件放进右侧料箱”的任务,它需要看懂当前场景、理解指令意图、预判抓取后的结果,并生成精确到毫米级的动作序列。
传统具身智能系统的逻辑更像是“堆积木”:视觉模型负责看,语言模型负责说,世界模型负责预测,动作策略负责执行。各模型各司其职,通过流水线方式调用。
这套方案虽然可用,但存在一个深层缺陷:模块之间的语义鸿沟,始终是阻碍机器人真正“理解”任务的天花板。
2025 年 3 月,北京人形发布了通用具身智能平台“慧思开物”,提出了一条不同的路径:让理解、推理、想象与行动在同一个模型内部协同演化,而非在外部拼凑。
经过超过一年的持续迭代与实践积累,这一思路在 2026 年 5 月迎来了最具说服力的技术验证:昨天,北京人形发布了“慧思开物”平台的首个“大一统”具身基础模型:Pelican-Unify 1.0。

- 技术报告:Pelican-Unify 1.0: A Unified Embodied Intelligence Model (UEI) for Understanding, Reasoning, Imagination and Action
- 报告地址:https://arxiv.org/pdf/2605.15153
Pelican-Unify 1.0 一经问世便给出了非常亮眼的成绩:在三个国际榜单上均实现了接近 SOTA 的性能,不仅在 World Arena 上登顶,在 8 个 VLM Benchmark 榜单的同级别(4B 以内)模型中性能第一,也在 VLA 榜单 RoboTwin 评测中稳居前列。它成为全球首个在理解、推理、想象、行动等维度同时达到全球顶尖水平的统一具身智能模型。
“大一统”的具体含义:三大统一
在 Pelican-Unify 1.0 技术报告的开篇,北京人形团队引用了三句名言:亚里士多德的“灵魂从不离开意象而思考”;詹姆斯·威廉的“我的思考,始终服务于我的行动”;以及《礼记·中庸》中的“博学之,审问之,慎思之,明辨之,笃行之。”
它们反映了 Pelican-Unify 1.0 背后的一个核心判断:要让具身智能变强,需要一个能够让理解、推理、想象、行动互相约束、共同演化的统一回路。
也就是说,Pelican-Unify 1.0 的统一并非“把几个模块的输出拼在一起”,而是在结构上共享表征、相互约束条件,并通过同一个训练过程共同演化。
架构上,Pelican-Unify 1.0 实现了三类统一:理解、推理和生成。这使得理解、推理、想象、行动得以同生共长,同时学习“如何理解任务”、“未来会发生什么”以及“应该执行什么动作”。
在具体的工程实现上,整个模型由两个紧耦合的组件构成:一个视觉-语言模型(VLM),承担统一理解与统一推理;一个统一未来生成器(Unified Future Generator,UFG),承担统一生成。

Pelican-Unify 1.0 与 VLA 模型和世界模型的架构对比
统一建模:共享表征,三路协同
在传统流水线中,每个模块都有自己的内部状态:视觉模块有特征向量,语言模块有 token 序列,动作模块有策略分布,世界模型有潜在状态。它们各自优化,彼此之间只传递压缩后的输出信号——这正是语义鸿沟产生的根源。
Pelican-Unify 1.0 的做法是:用一个共享的稠密潜变量 z 取代所有这些分散的内部状态,让语言推理、视频想象、动作预测的训练梯度全部作用于同一块表征。如此一来,推理、想象、行动就不再是通过接口通信的三个系统,而是能在共同的表征中相互约束、协同演化。
统一编码器:把历史、指令、场景压入同一语义空间
统一编码器由基于 Qwen3-VL 4B 初始化的视觉-语言模型承担。
它接收的输入是一个多模态上下文 c_t,其中包含三类信息:过去时刻的观测序列 o(连续帧图像)、历史动作序列 a,以及当前语言指令 l。

这三类信息被统一编码进共享语义空间,而非由三个平行分支分别处理。
在此基础上,VLM 自回归地生成一条思维链推理迹 τ_t。这条推理迹并非事后解释,而是模型对任务意图、物理约束、未来后果与动作选择的中间表征。它能让语言推理成为具身生成过程中可训练、可监督的一个组件,而不是漂浮在决策之外的语言注释。
推理迹生成完毕后,VLM 取最后一层隐状态 h_{τ_t},通过一个投影层 P_ϕ 压缩为稠密潜变量 z:

这一步是整个架构的关键耦合点。z 不仅针对语言建模优化,还受到下游的视频和动作生成损失的持续施压,被迫同时编码“物理世界将如何演化”和“应当执行什么动作”所需的信息。
统一未来生成器:视频与动作在单一扩散过程中同步生成
统一未来生成器以基于Wan2.2-5B初始化的扩散Transformer(DiT)为核心架构,以z为条件,在同一个去噪过程中同步生成未来视频帧与低层动作序列。
具体流程如下:未来视频会先经由视频自编码器压缩为潜变量x^v,而动作轨迹则被归一化为连续的表示形式x^a。在扩散过程的每一步中,视频token和动作token在经过各自的输入嵌入层转换后,会被共同送入同一个DiT主干网络进行处理:

其中,s代表扩散时间步,z通过交叉注意力机制注入。自注意力负责建模生成序列内部的时空依赖关系,交叉注意力则负责注入语言grounding的任务语义,而扩散时间步则通过自适应归一化来调控整体计算过程。
DiT主干网络由两类token共享,只有输入嵌入层和输出头(d_v用于视频读出,d_a用于动作读出)是模态专属的。这意味着,在去噪过程的每一步,视频token和动作token都在同一空间中相互感知、相互约束。
训练目标由三个损失函数组成:语言推理损失𝓛_text(自回归负对数似然)、视频流匹配损失𝓛_video(连续时间flow matching)以及动作预测损失𝓛_action(SmoothL1鲁棒回归):

这三个损失函数共同作用于同一表征z:
- 语言损失确保z与任务级语义对齐
- 视频损失促使z对物理世界的动态演化具有预测能力
- 动作损失将z锚定在可执行的控制空间中
z必须同时满足这三重压力,才能在训练过程中存活下来。这正是统一范式在优化层面的核心含义:推理、想象与行动的一致性,是通过梯度博弈自然涌现的。
实验结果:第三方评测验证单项能力
技术架构的优雅,最终需要通过评测来检验。Pelican-Unify 1.0 给出了令人信服的答案:统一并不意味着全面平庸,反而能在专项能力上与专用模型同台竞技。
在统一的理解与推理能力方面,Pelican-Unify 1.0 达到了同级别模型中的最高水平。在VLM评测中,该模型在8个通用/具身基准测试上取得了64.7的平均分,均达到SOTA水平。特别是在更具具身属性的Where2Place和PhyX基准上,相比基座模型分别提升了28.2分和20.6分。这证明了统一训练并未削弱通用多模态能力,反而增强了空间理解、物理理解及行动相关的语义能力。

(图注:Pelican-Unify 1.0 与其他方法在通用和具身基准上的成绩对比)
在统一的动作生成能力方面,整体性能与当前最佳模型相当。在RoboTwin 50任务双臂操作基准上,Pelican-Unify 1.0 取得了93.5%的平均成功率。其中,50个任务中有31个任务的成功率达到至少95%,15个任务达到100%,覆盖了插拔、堆叠、交接等不同类型的任务。这一成绩与当前SOTA模型基本持平,证明具身大一统模型具备强大的动作执行能力。

(图注:Pelican-Unify 1.0 与主要VLA和世界模型在RoboTwin双臂操作50任务基准上的成绩对比)
这些成绩单共同传达了一个清晰的信息:Pelican-Unify 1.0 确实能够通过结构性共享表征,让理解、推理和行动相互增强。在具身智能研究领域,这是首次如此全面的验证。
北京人形与「慧思开物」
要理解Pelican-Unify 1.0 的完整意义,需要将其置于「慧思开物」平台的整体布局以及北京人形机器人的机构定位中来看。
2025年3月,「慧思开物」正式发布,定位为全球首个「一脑多能、一脑多机」的通用具身智能平台。该平台由AI大模型驱动的任务规划「大脑」与数据驱动的端到端技能执行「小脑」构成,能够实现单一软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容部署。
Pelican-Unify 1.0 作为该平台统一具身基础模型的首发版本,为「慧思开物」提供了真正的「认知内核」。它使得「一脑多机」不再仅仅是调度层将多个专家模型串联起来,而是同一个理解-推理-想象-行动回路在不同本体上的自然泛化。
这一能力已在真实硬件上得到验证。该模型在UR5e工业机械臂和天工人形机器人上的工业控制面板操作任务中,无论是零样本泛化还是组合任务评测,都全面超越了模块化基线方法。尤其是在组合泛化测试中,模型仅凭各原子任务的训练数据,无需任何组合示范,就能在自然语言指令下完成两段任务的连续执行。

(图注:组合泛化评估。训练时仅针对单个原子操作任务,未接触组合版本。测试时评估模型在未见过的组合任务上的表现,这些任务需结合多种已学技能,展示了模型在长周期具身操作中的强大组合泛化能力。)
这正是「先想象,再行动」闭环在物理世界中最直接的体现:想象面在训练中已将每个原子动词映射为未来帧分布,因此能够在A阶段结束后渲染出新初始态,并以此重新条件化B阶段的动作。整个过程没有人工设计的状态机,也没有模块间的显式通信。

(图注:Pelican-Unify 1.0 可将动作作为条件输入,实现动作条件视频预测。左图:动作条件视频预测模型概览。右图:本方法生成的视频与真实值的对比。基于历史观测,该模型实现了输入动作指令与生成视频帧之间的细粒度对齐。)
经过一年多的场景打磨,「慧思开物」已从发布时的技术演示走向可量产的工业落地:
- 2025年9月,搭载「慧思开物」的「具身天工 2.0」进入福田康明斯发动机工厂,在无人生产线上完成料箱取放与搬运任务。
- 同年10月,「慧思开物」SDK正式开放,面向高校与产业伙伴构建开源生态。
- 在世界人工智能大会(WAIC)上,「慧思开物」协调四个异构机器人完成多本体、多任务异步协作,展示了分布式具身智能体系统的协同能力。
北京人形机器人在国内具身智能版图中具有独特的身份。该机构于2023年成立,由京城机电、优必选、亦庄机器人、首程资本等共同发起;2024年10月,获授「国家地方共建具身智能机器人创新中心」称号,正式确立国家级创新平台定位;2026年2月,完成首轮超7亿元市场化融资,投资方涵盖北京市人工智能产业投资基金、百度、东土科技等机构与产业方。
在软硬件层面,北京人形已于今年2月发布了新一代通用机器人平台「具身天工 3.0」,这也是行业内首个实现触物交互式全身高动态运动控制的全尺寸人形机器人。而此番Pelican-Unify 1.0 同时登顶WorldArena两大核心赛道,拿下具身智能领域首个「双冠王」——运动能力与认知智能的双线突破,印证了北京人形软硬件协同迭代的系统性能力积累。

作为国家队,北京人形对「大一统」范式的坚持,是一条需要更高研发门槛、更长周期验证的路线。Pelican-Unify 1.0 登顶WorldArena的成绩,是这条路线第一次在全球权威评测体系上得到系统性验证。
同时,开源RoboMIND数据集、开放「慧思开物」SDK、联合高校建立联合实验室,都表明北京人形想做的不仅仅是一家在榜单上领先的机构,更是一个让中国具身智能整体研发效率因共同底座而加速的基础设施提供者。
统一,不是终点,而是全新的起点
2026年,具身智能行业正处于真正的技术分层时刻。
在量产端,头部企业已跨过千台乃至万台交付门槛,产业开始触及制造体系的真实极限;在资本端,国家大基金三期首次出手具身赛道,单轮融资纪录持续刷新;在竞争端,百余家相关企业并立,行业的核心问题已经从「能不能做出来」变成「做出来的东西,能不能在从未见过的场景里真正好用」。
这正是Pelican-Unify 1.0 所回应的问题。
在自然语言处理领域,大规模预训练范式的核心发现是:让理解、生成与推理在同一个表征空间中协同演进,能力的边界会因相互促进而持续扩大。这一发现已在文本世界得到充分验证,并彻底改变了整个 AI 行业的格局。
如今,类似的逻辑开始在物理世界中寻找其对应物。
不同的是,物理世界的“生成”并非输出文字,而是移动物体;物理世界的“推理”不能仅停留在语言层面,必须通过动作结果来验证;物理世界的“理解”必须真正实现 grounding——即遵循三维空间中物体之间的物理约束关系。
这使得具身智能的统一比语言模型更难,也更为关键。
Pelican-Unify 1.0 提供的,是这一方向上一个早期但具有说服力的答案。当推理能够塑造想象、想象能够约束行动、行动的结果能够反过来校正推理时,整个回路就不再是能力的简单叠加,而是能力的乘积。
从“功能拼凑”到“闭环智能”,这一步的跨越正在发生。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34893

