国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

全球榜单中唯一成功率超过50%的模型。

智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。

RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,成功率达到50.33%,是榜单中唯一成功率超过50%的模型。这些任务涵盖了机器人的一系列日常技能,旨在考验机器人在陌生环境中的泛化能力。

国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

这一成绩意味着,Spirit v1.5超越了已霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布,曾因能让机器人在全新环境中执行复杂家务任务而引起热议。

RoboChallenge榜单由Dexmal原力灵机与Hugging Face联合发起,是全球首个专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人在真实物理世界中“硬碰硬”,以检验模型的实战泛化能力。

从Pi0.5的长期霸榜可以看出其在真机实测领域的实力。值得注意的是,Spirit v1.5并非依靠某一项“独门绝技”胜出,而是实现了综合能力的全面超越,这标志着国产具身智能玩家正式冲进全球第一梯队的核心圈。

为证明榜单成绩的真实有效,千寻智能已同步开源了Spirit v1.5的基模权重、推理代码与使用样例。
* 核心代码开源地址:https://github.com/Spirit-AI-Team/spirit-v1.5
* 模型开源地址:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
* 技术博客:https://www.spirit-ai.com/en/blog/spirit-v1-5

01. 30大贴近真实场景实操任务,Spirit v1.5多项实操任务完胜Pi0.5

实战见真章。在RoboChallenge的30项任务中,以下几项任务直观展示了Spirit v1.5与Pi0.5的对比。

贴胶布任务:Spirit v1.5能精准定位胶布,并协调双手将其成功贴在纸箱上;而Pi0.5经过多次尝试也未能成功撕下胶布。

摆放物体任务:当绿色物体被压在最下方时,Pi0.5会先将上方的黄色物体移开,待绿色物体露出后再拾取;Spirit v1.5则直接在堆叠物品中主动搜寻绿色物体,避免了拾取错误颜色的物品。

插花任务:Pi0.5未能识别瓶口,将花横放在花瓶上;Spirit v1.5则能通过移动关节,确保花保持竖直并成功插入花瓶。

移动物体任务:Spirit v1.5能精准抓取物品并放入箱内;Pi0.5则无法判断是否已抓取到物品,仅机械执行固定步骤,且不能根据场景调整抬升高度以确保物品顺利放入。

贴胶布、物品拾取、插花、移动物体等贴近实际应用场景的任务,是检验技术落地能力的关键。它们既能验证机器人在真实环境中的感知、抓取与协同操作等核心功能,也能直观暴露技术短板,为后续迭代与产品优化提供真实、可复现的测试依据。

这也印证了RoboChallenge榜单的核心参考意义。该平台于2025年由Dexmal与Hugging Face联合发起,通过真机测试评估模型在物理世界的泛化性,是具身智能领域少数以真实物理任务为核心的评测体系。

其30项测试任务旨在解决传统机器人测试场景碎片化、标准不统一的行业痛点。通过制定统一的任务标准与评估指标,并搭建跨模型对照机制,RoboChallenge构建了一套开放、公正的评测体系。该平台可供全球研究者免费使用,并会公开任务数据与中间结果。

02. Spirit v1.5登顶背后:破解机器人泛化能力的核心密码

要理解Spirit v1.5的高光表现,需先破解制约机器人泛化能力的核心难题。

当前,大规模VLA模型已展现出执行长序列复杂任务的能力。然而,许多顶尖模型在训练阶段会对数据进行严苛的预处理,虽降低了模仿难度,却也大幅限制了实际泛化能力。

因此,Spirit v1.5的核心思路是:在预训练阶段转向使用多样化、弱控制的数据。通过从这类贴近现实世界的“混乱”数据中学习,大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。

千寻智能采用了开放式、目标驱动的数据采集方法。操作员以某个目标(如“清理厨房台面”、“给假人模特化妆”)为前提进行即兴操作,其规划子任务与执行顺序完全随机。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

这种数据构建方式的优势在于高度多样性强可扩展性

  • 多样性:操作员的实际执行过程包含了海量的物体交互、轨迹和环境转换,使机器人不是机械学习单项任务,而是通过学习整套技能及其执行逻辑,获得更具通用性的知识与能力。
  • 可扩展性:该方法无需为每个场景精心定义详细任务指导,能在不线性增加管理成本的前提下高效扩展数据规模。据千寻智能实测,采用此法后,人均有效采集时长增加了200%,对算法专家的干预需求削减了60%。

为验证该数据采集范式的有效性,千寻智能进行了对比实验:一组模型在包含30个精选演示任务的数据集上预训练,另一组在开放式多样化数据集上预训练。随后在全新任务上对两者进行微调。结果显示,多样化模型达到相同性能所需的迭代次数比基线模型少了40%。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

同时,研究发现模型的迁移效率与多样化数据量呈显著正相关:随着数据集规模增长,模型在新任务上的验证误差持续下降,印证了模型正高效习得从现实世界丰富多样性中自主学习的能力。
国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

实验结果证明了使用高多样性、弱控制数据进行预训练的可行性与有效性,为具身智能模型的研发提供了新的实践方向。

03. 突破传统数据瓶颈,Spirit v1.5定调技术新方向

当下,具身智能行业的演进节奏持续加快。从产业端到技术端,国内具身智能正持续在全球舞台展现硬实力。

在刚刚结束的“年度科技风向标”国际消费电子展CES 2026上,国产人形机器人惊艳亮相。加之此次千寻Spirit v1.5登顶权威评测榜单,国内力量在全球具身智能领域的话语权与影响力正稳步提升。

当前,具身智能正处于迈向行业落地的关键阶段。技术路线与创新架构层出不穷,从VLA架构到认知-动作一体化设计,从单模态感知到多传感器融合,赛道内技术探索呈现百花齐放之势。权威榜单的位次更迭,正是行业技术创新螺旋式上升的直观体现。

Spirit v1.5的领先,是其技术优势的集中释放,核心在于模型在泛化性、稳定性与鲁棒性等系统能力上的全面突破。其创新性地采用了高多样性、弱约束的开放式数据采集范式,突破了传统“干净”数据的局限,使模型能够在全新的非结构化场景中,灵活应对各种不可预测的挑战。

需要指出的是,与频繁更迭的大模型榜单不同,具身智能赛道的位次变化,尤其是此次Spirit v1.5的登顶,绝非单纯的技术参数竞赛或短期算法调优的结果。这实质上是对模型全链路技术路线的系统性验证,更是其在泛化能力、工程落地性与场景适配性等核心维度综合实力的体现。

此次登顶,标志着千寻智能Spirit v1.5不仅已成为中国具身智能模型的领军力量,达到世界级水准,更意味着中国具身模型正式站上全球舞台,与世界顶尖模型同台竞技。

从宏观层面看,技术综合实力的提升,往往与吸引顶尖人才、深化生态合作等长期价值的实现相辅相成。这一成果有望为千寻智能汇聚全球顶尖技术人才,增强其行业影响力,并推动与产业链上下游的生态合作深化,为技术的快速迭代与机器人产品的最终落地筑牢基础。同时,这也为国内具身智能赛道的技术演进提供了可参考的实践范式,助力产业从技术突破向规模化落地加速迈进。

04. 结语:中国具身智能的进阶之路

我国具身智能产业正处在从技术探索迈向规模化落地的关键时期。依托于坚实的工业基础、强大的供应链集成能力以及丰富的应用场景,以Spirit v1.5为代表的技术突破,正在加速具身智能突破技术边界。行业围绕“具身通用大脑”的能力探索不断进阶,以持续的技术进化推动其成熟,最终目标是让具身智能全面融入千家万户的日常生活。

展望未来,随着技术的持续成熟与生态体系的不断完善,中国具身智能产业不仅能在全球竞争中巩固并扩大领先优势,更将开辟全新的增长空间。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17747

(0)
上一篇 2026年1月12日 上午7:43
下一篇 2026年1月12日 上午8:56

相关推荐

  • GPT-5.1性能评测:准确率骤降11.3%,OpenAI的“情绪价值”战略代价几何?

    OpenAI近期发布了GPT-5.1新版本,主打更自然的对话体验和情感共鸣能力。值得注意的是,官方此次并未公布传统基准测试结果,而是强调“优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈”。我们对GPT-5.1(默认非思考模式)与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

    2025年11月20日
    15300
  • 大模型编程应用测试-V3榜单:以工程应用标准量化模型能力

    #0 前言 笔者最早的编程测试V1采用传统的3 Pass测试法,25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先,该方法只观察模型在3轮自主修复中能取得的最终成绩,而实际Agent场景中,编程模型拥有几乎无限的轮次,只要能解决问题即可。其次,V2方法只提供运行结果反馈,不提供工具,而实际Agent可以借助Lint/Co…

    2026年1月3日
    14800
  • MiniMax M2.1深度实测:全栈开发新利器,从人生K线图到iOS木鱼App的代码生成实战

    国产 AI 大模型 MiniMax M2.1 正式发布。 本次更新在 Multi-SWE(多软件工程)领域实现了显著升级。它不仅让 Web 开发、App 开发以及 Rust、Go、Java 等核心技术栈的开发体验更为流畅,其全栈能力也得到了大幅增强。 一个突出的亮点在于其能力的均衡性。 此前许多 AI 模型,包括近期备受关注的 Gemini 3 Pro,往往…

    2025年12月25日
    16100
  • 阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

    阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …

    2025年12月30日
    23200
  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    17000