国产具身智能新突破：千寻Spirit v1.5开源即登顶全球真机评测榜首

全球榜单中唯一成功率超过50%的模型。

智东西1月12日报道，今日，千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天，该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。

RoboChallenge的基准测试包含30项任务，如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分，成功率达到50.33%，是榜单中唯一成功率超过50%的模型。这些任务涵盖了机器人的一系列日常技能，旨在考验机器人在陌生环境中的泛化能力。

这一成绩意味着，Spirit v1.5超越了已霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布，曾因能让机器人在全新环境中执行复杂家务任务而引起热议。

RoboChallenge榜单由Dexmal原力灵机与Hugging Face联合发起，是全球首个专为具身智能机器人量身打造的大规模真机评测平台，主打让机器人在真实物理世界中“硬碰硬”，以检验模型的实战泛化能力。

从Pi0.5的长期霸榜可以看出其在真机实测领域的实力。值得注意的是，Spirit v1.5并非依靠某一项“独门绝技”胜出，而是实现了综合能力的全面超越，这标志着国产具身智能玩家正式冲进全球第一梯队的核心圈。

为证明榜单成绩的真实有效，千寻智能已同步开源了Spirit v1.5的基模权重、推理代码与使用样例。
* 核心代码开源地址：https://github.com/Spirit-AI-Team/spirit-v1.5
* 模型开源地址：https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
* 技术博客：https://www.spirit-ai.com/en/blog/spirit-v1-5

01. 30大贴近真实场景实操任务，Spirit v1.5多项实操任务完胜Pi0.5

实战见真章。在RoboChallenge的30项任务中，以下几项任务直观展示了Spirit v1.5与Pi0.5的对比。

贴胶布任务：Spirit v1.5能精准定位胶布，并协调双手将其成功贴在纸箱上；而Pi0.5经过多次尝试也未能成功撕下胶布。

摆放物体任务：当绿色物体被压在最下方时，Pi0.5会先将上方的黄色物体移开，待绿色物体露出后再拾取；Spirit v1.5则直接在堆叠物品中主动搜寻绿色物体，避免了拾取错误颜色的物品。

插花任务：Pi0.5未能识别瓶口，将花横放在花瓶上；Spirit v1.5则能通过移动关节，确保花保持竖直并成功插入花瓶。

移动物体任务：Spirit v1.5能精准抓取物品并放入箱内；Pi0.5则无法判断是否已抓取到物品，仅机械执行固定步骤，且不能根据场景调整抬升高度以确保物品顺利放入。

贴胶布、物品拾取、插花、移动物体等贴近实际应用场景的任务，是检验技术落地能力的关键。它们既能验证机器人在真实环境中的感知、抓取与协同操作等核心功能，也能直观暴露技术短板，为后续迭代与产品优化提供真实、可复现的测试依据。

这也印证了RoboChallenge榜单的核心参考意义。该平台于2025年由Dexmal与Hugging Face联合发起，通过真机测试评估模型在物理世界的泛化性，是具身智能领域少数以真实物理任务为核心的评测体系。

其30项测试任务旨在解决传统机器人测试场景碎片化、标准不统一的行业痛点。通过制定统一的任务标准与评估指标，并搭建跨模型对照机制，RoboChallenge构建了一套开放、公正的评测体系。该平台可供全球研究者免费使用，并会公开任务数据与中间结果。

02. Spirit v1.5登顶背后：破解机器人泛化能力的核心密码

要理解Spirit v1.5的高光表现，需先破解制约机器人泛化能力的核心难题。

当前，大规模VLA模型已展现出执行长序列复杂任务的能力。然而，许多顶尖模型在训练阶段会对数据进行严苛的预处理，虽降低了模仿难度，却也大幅限制了实际泛化能力。

因此，Spirit v1.5的核心思路是：在预训练阶段转向使用多样化、弱控制的数据。通过从这类贴近现实世界的“混乱”数据中学习，大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。

千寻智能采用了开放式、目标驱动的数据采集方法。操作员以某个目标（如“清理厨房台面”、“给假人模特化妆”）为前提进行即兴操作，其规划子任务与执行顺序完全随机。

这种数据构建方式的优势在于高度多样性与强可扩展性。

多样性：操作员的实际执行过程包含了海量的物体交互、轨迹和环境转换，使机器人不是机械学习单项任务，而是通过学习整套技能及其执行逻辑，获得更具通用性的知识与能力。
可扩展性：该方法无需为每个场景精心定义详细任务指导，能在不线性增加管理成本的前提下高效扩展数据规模。据千寻智能实测，采用此法后，人均有效采集时长增加了200%，对算法专家的干预需求削减了60%。

为验证该数据采集范式的有效性，千寻智能进行了对比实验：一组模型在包含30个精选演示任务的数据集上预训练，另一组在开放式多样化数据集上预训练。随后在全新任务上对两者进行微调。结果显示，多样化模型达到相同性能所需的迭代次数比基线模型少了40%。

同时，研究发现模型的迁移效率与多样化数据量呈显著正相关：随着数据集规模增长，模型在新任务上的验证误差持续下降，印证了模型正高效习得从现实世界丰富多样性中自主学习的能力。

实验结果证明了使用高多样性、弱控制数据进行预训练的可行性与有效性，为具身智能模型的研发提供了新的实践方向。

03. 突破传统数据瓶颈，Spirit v1.5定调技术新方向

当下，具身智能行业的演进节奏持续加快。从产业端到技术端，国内具身智能正持续在全球舞台展现硬实力。

在刚刚结束的“年度科技风向标”国际消费电子展CES 2026上，国产人形机器人惊艳亮相。加之此次千寻Spirit v1.5登顶权威评测榜单，国内力量在全球具身智能领域的话语权与影响力正稳步提升。

当前，具身智能正处于迈向行业落地的关键阶段。技术路线与创新架构层出不穷，从VLA架构到认知-动作一体化设计，从单模态感知到多传感器融合，赛道内技术探索呈现百花齐放之势。权威榜单的位次更迭，正是行业技术创新螺旋式上升的直观体现。

Spirit v1.5的领先，是其技术优势的集中释放，核心在于模型在泛化性、稳定性与鲁棒性等系统能力上的全面突破。其创新性地采用了高多样性、弱约束的开放式数据采集范式，突破了传统“干净”数据的局限，使模型能够在全新的非结构化场景中，灵活应对各种不可预测的挑战。

需要指出的是，与频繁更迭的大模型榜单不同，具身智能赛道的位次变化，尤其是此次Spirit v1.5的登顶，绝非单纯的技术参数竞赛或短期算法调优的结果。这实质上是对模型全链路技术路线的系统性验证，更是其在泛化能力、工程落地性与场景适配性等核心维度综合实力的体现。

此次登顶，标志着千寻智能Spirit v1.5不仅已成为中国具身智能模型的领军力量，达到世界级水准，更意味着中国具身模型正式站上全球舞台，与世界顶尖模型同台竞技。

从宏观层面看，技术综合实力的提升，往往与吸引顶尖人才、深化生态合作等长期价值的实现相辅相成。这一成果有望为千寻智能汇聚全球顶尖技术人才，增强其行业影响力，并推动与产业链上下游的生态合作深化，为技术的快速迭代与机器人产品的最终落地筑牢基础。同时，这也为国内具身智能赛道的技术演进提供了可参考的实践范式，助力产业从技术突破向规模化落地加速迈进。

04. 结语：中国具身智能的进阶之路

我国具身智能产业正处在从技术探索迈向规模化落地的关键时期。依托于坚实的工业基础、强大的供应链集成能力以及丰富的应用场景，以Spirit v1.5为代表的技术突破，正在加速具身智能突破技术边界。行业围绕“具身通用大脑”的能力探索不断进阶，以持续的技术进化推动其成熟，最终目标是让具身智能全面融入千家万户的日常生活。

展望未来，随着技术的持续成熟与生态体系的不断完善，中国具身智能产业不仅能在全球竞争中巩固并扩大领先优势，更将开辟全新的增长空间。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17747

国产具身智能新突破：千寻Spirit v1.5开源即登顶全球真机评测榜首

01. 30大贴近真实场景实操任务，Spirit v1.5多项实操任务完胜Pi0.5

02. Spirit v1.5登顶背后：破解机器人泛化能力的核心密码

03. 突破传统数据瓶颈，Spirit v1.5定调技术新方向

相关推荐

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

Agent能力评测全景图：从多轮对话到数据分析，解锁智能体真实水平

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

2025年大模型评测工具终极指南：五大工具深度解析与选型策略