国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

全球榜单中唯一成功率超过50%的模型。

智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。

RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,成功率达到50.33%,是榜单中唯一成功率超过50%的模型。这些任务涵盖了机器人的一系列日常技能,旨在考验机器人在陌生环境中的泛化能力。

国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

这一成绩意味着,Spirit v1.5超越了已霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布,曾因能让机器人在全新环境中执行复杂家务任务而引起热议。

RoboChallenge榜单由Dexmal原力灵机与Hugging Face联合发起,是全球首个专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人在真实物理世界中“硬碰硬”,以检验模型的实战泛化能力。

从Pi0.5的长期霸榜可以看出其在真机实测领域的实力。值得注意的是,Spirit v1.5并非依靠某一项“独门绝技”胜出,而是实现了综合能力的全面超越,这标志着国产具身智能玩家正式冲进全球第一梯队的核心圈。

为证明榜单成绩的真实有效,千寻智能已同步开源了Spirit v1.5的基模权重、推理代码与使用样例。
* 核心代码开源地址:https://github.com/Spirit-AI-Team/spirit-v1.5
* 模型开源地址:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
* 技术博客:https://www.spirit-ai.com/en/blog/spirit-v1-5

01. 30大贴近真实场景实操任务,Spirit v1.5多项实操任务完胜Pi0.5

实战见真章。在RoboChallenge的30项任务中,以下几项任务直观展示了Spirit v1.5与Pi0.5的对比。

贴胶布任务:Spirit v1.5能精准定位胶布,并协调双手将其成功贴在纸箱上;而Pi0.5经过多次尝试也未能成功撕下胶布。

摆放物体任务:当绿色物体被压在最下方时,Pi0.5会先将上方的黄色物体移开,待绿色物体露出后再拾取;Spirit v1.5则直接在堆叠物品中主动搜寻绿色物体,避免了拾取错误颜色的物品。

插花任务:Pi0.5未能识别瓶口,将花横放在花瓶上;Spirit v1.5则能通过移动关节,确保花保持竖直并成功插入花瓶。

移动物体任务:Spirit v1.5能精准抓取物品并放入箱内;Pi0.5则无法判断是否已抓取到物品,仅机械执行固定步骤,且不能根据场景调整抬升高度以确保物品顺利放入。

贴胶布、物品拾取、插花、移动物体等贴近实际应用场景的任务,是检验技术落地能力的关键。它们既能验证机器人在真实环境中的感知、抓取与协同操作等核心功能,也能直观暴露技术短板,为后续迭代与产品优化提供真实、可复现的测试依据。

这也印证了RoboChallenge榜单的核心参考意义。该平台于2025年由Dexmal与Hugging Face联合发起,通过真机测试评估模型在物理世界的泛化性,是具身智能领域少数以真实物理任务为核心的评测体系。

其30项测试任务旨在解决传统机器人测试场景碎片化、标准不统一的行业痛点。通过制定统一的任务标准与评估指标,并搭建跨模型对照机制,RoboChallenge构建了一套开放、公正的评测体系。该平台可供全球研究者免费使用,并会公开任务数据与中间结果。

02. Spirit v1.5登顶背后:破解机器人泛化能力的核心密码

要理解Spirit v1.5的高光表现,需先破解制约机器人泛化能力的核心难题。

当前,大规模VLA模型已展现出执行长序列复杂任务的能力。然而,许多顶尖模型在训练阶段会对数据进行严苛的预处理,虽降低了模仿难度,却也大幅限制了实际泛化能力。

因此,Spirit v1.5的核心思路是:在预训练阶段转向使用多样化、弱控制的数据。通过从这类贴近现实世界的“混乱”数据中学习,大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。

千寻智能采用了开放式、目标驱动的数据采集方法。操作员以某个目标(如“清理厨房台面”、“给假人模特化妆”)为前提进行即兴操作,其规划子任务与执行顺序完全随机。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

这种数据构建方式的优势在于高度多样性强可扩展性

  • 多样性:操作员的实际执行过程包含了海量的物体交互、轨迹和环境转换,使机器人不是机械学习单项任务,而是通过学习整套技能及其执行逻辑,获得更具通用性的知识与能力。
  • 可扩展性:该方法无需为每个场景精心定义详细任务指导,能在不线性增加管理成本的前提下高效扩展数据规模。据千寻智能实测,采用此法后,人均有效采集时长增加了200%,对算法专家的干预需求削减了60%。

为验证该数据采集范式的有效性,千寻智能进行了对比实验:一组模型在包含30个精选演示任务的数据集上预训练,另一组在开放式多样化数据集上预训练。随后在全新任务上对两者进行微调。结果显示,多样化模型达到相同性能所需的迭代次数比基线模型少了40%。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

同时,研究发现模型的迁移效率与多样化数据量呈显著正相关:随着数据集规模增长,模型在新任务上的验证误差持续下降,印证了模型正高效习得从现实世界丰富多样性中自主学习的能力。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

实验结果证明了使用高多样性、弱控制数据进行预训练的可行性与有效性,为具身智能模型的研发提供了新的实践方向。

03. 突破传统数据瓶颈,Spirit v1.5定调技术新方向

当下,具身智能行业的演进节奏持续加快。从产业端到技术端,国内具身智能正持续在全球舞台展现硬实力。

在刚刚结束的“年度科技风向标”国际消费电子展CES 2026上,国产人形机器人惊艳亮相。加之此次千寻Spirit v1.5登顶权威评测榜单,国内力量在全球具身智能领域的话语权与影响力正稳步提升。

当前,具身智能正处于迈向行业落地的关键阶段。技术路线与创新架构层出不穷,从VLA架构到认知-动作一体化设计,从单模态感知到多传感器融合,赛道内技术探索呈现百花齐放之势。权威榜单的位次更迭,正是行业技术创新螺旋式上升的直观体现。

Spirit v1.5的领先,是其技术优势的集中释放,核心在于模型在泛化性、稳定性与鲁棒性等系统能力上的全面突破。其创新性地采用了高多样性、弱约束的开放式数据采集范式,突破了传统“干净”数据的局限,使模型能够在全新的非结构化场景中,灵活应对各种不可预测的挑战。

需要指出的是,与频繁更迭的大模型榜单不同,具身智能赛道的位次变化,尤其是此次Spirit v1.5的登顶,绝非单纯的技术参数竞赛或短期算法调优的结果。这实质上是对模型全链路技术路线的系统性验证,更是其在泛化能力、工程落地性与场景适配性等核心维度综合实力的体现。

此次登顶,标志着千寻智能Spirit v1.5不仅已成为中国具身智能模型的领军力量,达到世界级水准,更意味着中国具身模型正式站上全球舞台,与世界顶尖模型同台竞技。

从宏观层面看,技术综合实力的提升,往往与吸引顶尖人才、深化生态合作等长期价值的实现相辅相成。这一成果有望为千寻智能汇聚全球顶尖技术人才,增强其行业影响力,并推动与产业链上下游的生态合作深化,为技术的快速迭代与机器人产品的最终落地筑牢基础。同时,这也为国内具身智能赛道的技术演进提供了可参考的实践范式,助力产业从技术突破向规模化落地加速迈进。

04. 结语:中国具身智能的进阶之路

我国具身智能产业正处在从技术探索迈向规模化落地的关键时期。依托于坚实的工业基础、强大的供应链集成能力以及丰富的应用场景,以Spirit v1.5为代表的技术突破,正在加速具身智能突破技术边界。行业围绕“具身通用大脑”的能力探索不断进阶,以持续的技术进化推动其成熟,最终目标是让具身智能全面融入千家万户的日常生活。

展望未来,随着技术的持续成熟与生态体系的不断完善,中国具身智能产业不仅能在全球竞争中巩固并扩大领先优势,更将开辟全新的增长空间。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17747

(0)
上一篇 2026年1月12日 上午7:43
下一篇 2026年1月12日 上午8:56

相关推荐

  • 腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

    腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…

    2025年12月6日
    23700
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    18800
  • GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用

    OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…

    2025年12月13日
    24400
  • AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值

    如果有价值一百万美元的顶级专家任务,AI 能完成其中多少? 答案是:价值约 48 万美元的任务,而完成这些任务的 API 成本仅需约 100 美元。 这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院(BIGAI)、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士…

    2026年3月10日
    13100
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    18700