商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧

端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。

近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将云端级智能体能力完整落地端侧,成功突破上述瓶颈。

在公开Agent评测基准 PinchBench 上,Sage以 94% 的最佳任务完成率,超越Claude Opus 4.6(93.3%)、GPT-5.4(90.5%)以及一众参数量远超它的云端旗舰模型。目前,该模型已在英伟达OrinX端侧平台实现部署。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地 商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

作为端侧智能体基座,Sage可接入OpenClaw、Hermes等主流Agent框架,为出行、家庭等全场景下的端侧智能体落地提供核心支撑。

3B激活参数,超越大参数量模型

在PinchBench评测中,Sage端侧大模型最佳任务完成率达94%,超越Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)及Google-Gemma-4等前沿模型。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

PinchBench 是龙虾之父Peter Steinberger推荐的公开Agent评测基准。与固定不变的静态题库不同,PinchBench面向真实Agent工作流,其公开任务库随版本迭代持续扩充。

该基准覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景,重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。PinchBench要求模型完成真实任务,综合衡量成功率、速度与成本,测试周期更长、资源消耗更高,单任务token消耗可达数十万量级。

模型在PinchBench上的表现,更能反映其在复杂真实场景中的综合能力。

北京车展期间,商汤绝影将推出搭载Sage的SageBox,作为整车的模型接入硬件。

两大黑科技,让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench上跑赢国际主流云/端大模型的背后,是商汤绝影围绕Sage后训练阶段自研的两项关键技术:SCOUTERL

以SCOUT和ERL为核心的后训练技术体系,一项让模型“学得又快又省”,一项让模型“做事不出错”,解决了车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”这一长期难题。

SCOUT:让大模型学复杂任务,省60%算力

SCOUT(Sub-Scale Collaboration On Unseen Tasks,分级协同学习框架)重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题,在复杂任务能力注入过程中可节省约60%的GPU小时消耗

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

许多任务涉及空间规划、设备联动、多步决策,直接让大模型自行试错,既慢又烧算力。SCOUT的思路是将“探路”与“学习”拆分开:先派一个轻量小模型在任务中跑一遍,筛选出可行路径,再将这批高质量经验喂给大模型。小模型探路,大模型吸收,训练成本下降,真实用车场景的技能掌握也更快。

ERL:让模型自己擦掉错误步骤,任务成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL(Erasable Reinforcement Learning,可擦除强化学习)技术,聚焦复杂任务链路中的错误识别与纠偏。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

用户在实际使用中提出的需求,往往需要模型跨多个步骤完成推理和执行。中间一旦某一步出现偏差,整个任务流程就可能失效。ERL让模型能够主动识别推理过程中的错误步骤,就地擦除并在原位重新生成,阻止偏差向后扩散。该技术使Sage在多跳复杂推理基准上较此前SOTA取得显著提升,装车后Sage在复杂任务上的完成率提升了20%

SCOUT与ERL前后协同,共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势,Sage在能力、成本与量产可行性之间取得了平衡,为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力

PinchBench 94%的任务完成率证明了Sage能办成复杂的事,而真正决定座舱体验的,是模型在各个专业维度上是否够用、够稳、够聪明。

在多个不同能力维度的公开基准上,Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma 4,将端侧模型的能力天花板推至新高度。

  • MMLU Pro(跨学科专业知识):Sage获76分,领先同级端侧模型约10%,证明端侧模型具备云端级通用知识密度;
  • GPQA Diamond(研究生级专业推理):Sage获77分,提升33%,凸显复杂推理深度;
  • Human Semantic Understanding(座舱语义与视觉理解):获91分,提升32%,依托原生数据建立独特优势。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

在重点考察任务执行能力的 τ2-bench(工具调用与任务闭环) 基准上,Sage以80分的成绩相较Gemma 4实现38%的提升,接近翻倍领先。该基准专门评估模型调用工具、走完多步任务的实战能力,也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先,直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

从专业基准到场景体验

这些专业能力落到真实车舱,转化为一组直接影响用户体验的指标:Sage场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知任务成功率分别达92%、89%、94%,复杂指令遵循率提升40%。

在OrinX平台部署下,Sage可实现首字响应(TTFT)约0.5秒、单Token推理延迟(TPOT)低至0.03秒、生成吞吐达80tk/S,平均任务时长优于主流API模型,为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可一次性解析用户的复合指令,自动联动空调、影音、导航等车载系统完成闭环任务;结合传感器对乘员状态与路况的感知,还能主动提供儿童模式、智能路线调整等服务。

Sage不再是“被动唤醒、单次响应”的语音助手,而是一个真正懂场景、会思考、能服务的出行伙伴。


论文链接:

[1] arXiv:https://arxiv.org/abs/2601.21754
[2] arXiv:https://arxiv.org/abs/2510.00861


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31484

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • 6款AI驱动的开源CLI工具:让终端开发更智能高效

    如果你大部分时间都在终端里工作,你一定知道一个得心应手的命令能省下数小时的工夫。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

    2026年1月2日
    54400
  • Hey Tuya:AI生活助手如何通过软硬件协同重塑智能家居体验

    “豆包手机”的热度尚未消退,行业又迎来了一个“操作系统级”AI智能体。它正从手机、电脑屏幕中“溢出”,走向全屋、全场景的智能生活。 那么,这种充满科技感的生活,究竟谁能率先体验? 想象一下:清晨醒来,窗帘自动为你缓缓拉开,音响播放着你喜欢的播客,咖啡机已开始研磨新鲜的豆子。你无需逐一唤醒或调试家中的智能设备,只需一句话,一个隐形的智能“管家”便能心领神会,替…

    2025年12月31日
    30000
  • 谷歌Chrome推出Gemini Skills:浏览器变身免费智能体,一键复用AI技能

    谷歌Chrome推出“Gemini Skills”:浏览器变身免费智能体,一键复用AI技能 你的浏览器,如今可以进化为一个免费的AI智能体。 谷歌Chrome正式推出“Gemini Skills”功能,允许用户将常用的AI指令保存为可复用的技能,一键即可调用。 例如,当你在浏览一个食谱网页时,想让AI分析其营养价值。 以往,你需要每次都手动复制粘贴一长串提示…

    2026年4月15日
    1.6K00
  • 西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

    你是否也经历过这样的困境: 论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力; 尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清; 好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。 这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。 现在,你可以将大段的文字材料直接交给 AutoFigure ,这…

    2026年2月22日
    1.7K00
  • 阿里Meoo:1分钟零代码打造实时互动应用,AI开发工具让编程小白也能轻松上线产品

    阿里Meoo:1分钟零代码打造实时互动应用,AI开发工具让编程小白也能轻松上线产品 你是说这个便利贴留言墙,聊着天就做出来了? 还能分享链接,所有人点开就能实时互动、同步看到彼此的留言? 没错!用的就是阿里ATH新推出的AI开发工具Meoo(秒悟)。 整个过程无需编写一行代码、无需配置环境、无需购买服务器、无需搭建数据库—— 只需通过自然语言描述需求,1分钟…

    6天前
    22400