
全球榜单中唯一成功率超过50%的模型。
智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。
RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,成功率达到50.33%,是榜单中唯一成功率超过50%的模型。这些任务涵盖了机器人的一系列日常技能,旨在考验机器人在陌生环境中的泛化能力。

这一成绩意味着,Spirit v1.5超越了已霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布,曾因能让机器人在全新环境中执行复杂家务任务而引起热议。
RoboChallenge榜单由Dexmal原力灵机与Hugging Face联合发起,是全球首个专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人在真实物理世界中“硬碰硬”,以检验模型的实战泛化能力。
从Pi0.5的长期霸榜可以看出其在真机实测领域的实力。值得注意的是,Spirit v1.5并非依靠某一项“独门绝技”胜出,而是实现了综合能力的全面超越,这标志着国产具身智能玩家正式冲进全球第一梯队的核心圈。
为证明榜单成绩的真实有效,千寻智能已同步开源了Spirit v1.5的基模权重、推理代码与使用样例。
* 核心代码开源地址:https://github.com/Spirit-AI-Team/spirit-v1.5
* 模型开源地址:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
* 技术博客:https://www.spirit-ai.com/en/blog/spirit-v1-5
01. 30大贴近真实场景实操任务,Spirit v1.5多项实操任务完胜Pi0.5
实战见真章。在RoboChallenge的30项任务中,以下几项任务直观展示了Spirit v1.5与Pi0.5的对比。
贴胶布任务:Spirit v1.5能精准定位胶布,并协调双手将其成功贴在纸箱上;而Pi0.5经过多次尝试也未能成功撕下胶布。
摆放物体任务:当绿色物体被压在最下方时,Pi0.5会先将上方的黄色物体移开,待绿色物体露出后再拾取;Spirit v1.5则直接在堆叠物品中主动搜寻绿色物体,避免了拾取错误颜色的物品。
插花任务:Pi0.5未能识别瓶口,将花横放在花瓶上;Spirit v1.5则能通过移动关节,确保花保持竖直并成功插入花瓶。
移动物体任务:Spirit v1.5能精准抓取物品并放入箱内;Pi0.5则无法判断是否已抓取到物品,仅机械执行固定步骤,且不能根据场景调整抬升高度以确保物品顺利放入。
贴胶布、物品拾取、插花、移动物体等贴近实际应用场景的任务,是检验技术落地能力的关键。它们既能验证机器人在真实环境中的感知、抓取与协同操作等核心功能,也能直观暴露技术短板,为后续迭代与产品优化提供真实、可复现的测试依据。
这也印证了RoboChallenge榜单的核心参考意义。该平台于2025年由Dexmal与Hugging Face联合发起,通过真机测试评估模型在物理世界的泛化性,是具身智能领域少数以真实物理任务为核心的评测体系。
其30项测试任务旨在解决传统机器人测试场景碎片化、标准不统一的行业痛点。通过制定统一的任务标准与评估指标,并搭建跨模型对照机制,RoboChallenge构建了一套开放、公正的评测体系。该平台可供全球研究者免费使用,并会公开任务数据与中间结果。
02. Spirit v1.5登顶背后:破解机器人泛化能力的核心密码
要理解Spirit v1.5的高光表现,需先破解制约机器人泛化能力的核心难题。
当前,大规模VLA模型已展现出执行长序列复杂任务的能力。然而,许多顶尖模型在训练阶段会对数据进行严苛的预处理,虽降低了模仿难度,却也大幅限制了实际泛化能力。
因此,Spirit v1.5的核心思路是:在预训练阶段转向使用多样化、弱控制的数据。通过从这类贴近现实世界的“混乱”数据中学习,大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。
千寻智能采用了开放式、目标驱动的数据采集方法。操作员以某个目标(如“清理厨房台面”、“给假人模特化妆”)为前提进行即兴操作,其规划子任务与执行顺序完全随机。
这种数据构建方式的优势在于高度多样性与强可扩展性。
- 多样性:操作员的实际执行过程包含了海量的物体交互、轨迹和环境转换,使机器人不是机械学习单项任务,而是通过学习整套技能及其执行逻辑,获得更具通用性的知识与能力。
- 可扩展性:该方法无需为每个场景精心定义详细任务指导,能在不线性增加管理成本的前提下高效扩展数据规模。据千寻智能实测,采用此法后,人均有效采集时长增加了200%,对算法专家的干预需求削减了60%。
为验证该数据采集范式的有效性,千寻智能进行了对比实验:一组模型在包含30个精选演示任务的数据集上预训练,另一组在开放式多样化数据集上预训练。随后在全新任务上对两者进行微调。结果显示,多样化模型达到相同性能所需的迭代次数比基线模型少了40%。
同时,研究发现模型的迁移效率与多样化数据量呈显著正相关:随着数据集规模增长,模型在新任务上的验证误差持续下降,印证了模型正高效习得从现实世界丰富多样性中自主学习的能力。
实验结果证明了使用高多样性、弱控制数据进行预训练的可行性与有效性,为具身智能模型的研发提供了新的实践方向。
03. 突破传统数据瓶颈,Spirit v1.5定调技术新方向
当下,具身智能行业的演进节奏持续加快。从产业端到技术端,国内具身智能正持续在全球舞台展现硬实力。
在刚刚结束的“年度科技风向标”国际消费电子展CES 2026上,国产人形机器人惊艳亮相。加之此次千寻Spirit v1.5登顶权威评测榜单,国内力量在全球具身智能领域的话语权与影响力正稳步提升。
当前,具身智能正处于迈向行业落地的关键阶段。技术路线与创新架构层出不穷,从VLA架构到认知-动作一体化设计,从单模态感知到多传感器融合,赛道内技术探索呈现百花齐放之势。权威榜单的位次更迭,正是行业技术创新螺旋式上升的直观体现。
Spirit v1.5的领先,是其技术优势的集中释放,核心在于模型在泛化性、稳定性与鲁棒性等系统能力上的全面突破。其创新性地采用了高多样性、弱约束的开放式数据采集范式,突破了传统“干净”数据的局限,使模型能够在全新的非结构化场景中,灵活应对各种不可预测的挑战。
需要指出的是,与频繁更迭的大模型榜单不同,具身智能赛道的位次变化,尤其是此次Spirit v1.5的登顶,绝非单纯的技术参数竞赛或短期算法调优的结果。这实质上是对模型全链路技术路线的系统性验证,更是其在泛化能力、工程落地性与场景适配性等核心维度综合实力的体现。
此次登顶,标志着千寻智能Spirit v1.5不仅已成为中国具身智能模型的领军力量,达到世界级水准,更意味着中国具身模型正式站上全球舞台,与世界顶尖模型同台竞技。
从宏观层面看,技术综合实力的提升,往往与吸引顶尖人才、深化生态合作等长期价值的实现相辅相成。这一成果有望为千寻智能汇聚全球顶尖技术人才,增强其行业影响力,并推动与产业链上下游的生态合作深化,为技术的快速迭代与机器人产品的最终落地筑牢基础。同时,这也为国内具身智能赛道的技术演进提供了可参考的实践范式,助力产业从技术突破向规模化落地加速迈进。
04. 结语:中国具身智能的进阶之路
我国具身智能产业正处在从技术探索迈向规模化落地的关键时期。依托于坚实的工业基础、强大的供应链集成能力以及丰富的应用场景,以Spirit v1.5为代表的技术突破,正在加速具身智能突破技术边界。行业围绕“具身通用大脑”的能力探索不断进阶,以持续的技术进化推动其成熟,最终目标是让具身智能全面融入千家万户的日常生活。
展望未来,随着技术的持续成熟与生态体系的不断完善,中国具身智能产业不仅能在全球竞争中巩固并扩大领先优势,更将开辟全新的增长空间。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17747
