商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧

端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。

近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将云端级智能体能力完整落地端侧,成功突破上述瓶颈。

在公开Agent评测基准 PinchBench 上,Sage以 94% 的最佳任务完成率,超越Claude Opus 4.6(93.3%)、GPT-5.4(90.5%)以及一众参数量远超它的云端旗舰模型。目前,该模型已在英伟达OrinX端侧平台实现部署。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地 商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

作为端侧智能体基座,Sage可接入OpenClaw、Hermes等主流Agent框架,为出行、家庭等全场景下的端侧智能体落地提供核心支撑。

3B激活参数,超越大参数量模型

在PinchBench评测中,Sage端侧大模型最佳任务完成率达94%,超越Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)及Google-Gemma-4等前沿模型。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

PinchBench 是龙虾之父Peter Steinberger推荐的公开Agent评测基准。与固定不变的静态题库不同,PinchBench面向真实Agent工作流,其公开任务库随版本迭代持续扩充。

该基准覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景,重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。PinchBench要求模型完成真实任务,综合衡量成功率、速度与成本,测试周期更长、资源消耗更高,单任务token消耗可达数十万量级。

模型在PinchBench上的表现,更能反映其在复杂真实场景中的综合能力。

北京车展期间,商汤绝影将推出搭载Sage的SageBox,作为整车的模型接入硬件。

两大黑科技,让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench上跑赢国际主流云/端大模型的背后,是商汤绝影围绕Sage后训练阶段自研的两项关键技术:SCOUTERL

以SCOUT和ERL为核心的后训练技术体系,一项让模型“学得又快又省”,一项让模型“做事不出错”,解决了车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”这一长期难题。

SCOUT:让大模型学复杂任务,省60%算力

SCOUT(Sub-Scale Collaboration On Unseen Tasks,分级协同学习框架)重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题,在复杂任务能力注入过程中可节省约60%的GPU小时消耗

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

许多任务涉及空间规划、设备联动、多步决策,直接让大模型自行试错,既慢又烧算力。SCOUT的思路是将“探路”与“学习”拆分开:先派一个轻量小模型在任务中跑一遍,筛选出可行路径,再将这批高质量经验喂给大模型。小模型探路,大模型吸收,训练成本下降,真实用车场景的技能掌握也更快。

ERL:让模型自己擦掉错误步骤,任务成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL(Erasable Reinforcement Learning,可擦除强化学习)技术,聚焦复杂任务链路中的错误识别与纠偏。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

用户在实际使用中提出的需求,往往需要模型跨多个步骤完成推理和执行。中间一旦某一步出现偏差,整个任务流程就可能失效。ERL让模型能够主动识别推理过程中的错误步骤,就地擦除并在原位重新生成,阻止偏差向后扩散。该技术使Sage在多跳复杂推理基准上较此前SOTA取得显著提升,装车后Sage在复杂任务上的完成率提升了20%

SCOUT与ERL前后协同,共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势,Sage在能力、成本与量产可行性之间取得了平衡,为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力

PinchBench 94%的任务完成率证明了Sage能办成复杂的事,而真正决定座舱体验的,是模型在各个专业维度上是否够用、够稳、够聪明。

在多个不同能力维度的公开基准上,Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma 4,将端侧模型的能力天花板推至新高度。

  • MMLU Pro(跨学科专业知识):Sage获76分,领先同级端侧模型约10%,证明端侧模型具备云端级通用知识密度;
  • GPQA Diamond(研究生级专业推理):Sage获77分,提升33%,凸显复杂推理深度;
  • Human Semantic Understanding(座舱语义与视觉理解):获91分,提升32%,依托原生数据建立独特优势。

商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

在重点考察任务执行能力的 τ2-bench(工具调用与任务闭环) 基准上,Sage以80分的成绩相较Gemma 4实现38%的提升,接近翻倍领先。该基准专门评估模型调用工具、走完多步任务的实战能力,也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先,直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

从专业基准到场景体验

这些专业能力落到真实车舱,转化为一组直接影响用户体验的指标:Sage场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知任务成功率分别达92%、89%、94%,复杂指令遵循率提升40%。

在OrinX平台部署下,Sage可实现首字响应(TTFT)约0.5秒、单Token推理延迟(TPOT)低至0.03秒、生成吞吐达80tk/S,平均任务时长优于主流API模型,为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可一次性解析用户的复合指令,自动联动空调、影音、导航等车载系统完成闭环任务;结合传感器对乘员状态与路况的感知,还能主动提供儿童模式、智能路线调整等服务。

Sage不再是“被动唤醒、单次响应”的语音助手,而是一个真正懂场景、会思考、能服务的出行伙伴。


论文链接:

[1] arXiv:https://arxiv.org/abs/2601.21754
[2] arXiv:https://arxiv.org/abs/2510.00861


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31484

(0)
上一篇 2026年4月22日 下午3:55
下一篇 2026年4月22日 下午3:59

相关推荐

  • 入职腾讯后姚顺雨首秀:混元Hy3 preview开源,295B参数专攻Agent和Coding

    入职腾讯后,姚顺雨交出了首张答卷。 腾讯混元最新的基座模型——混元Hy3 preview,现已正式官宣并开源,并已上线元宝和WorkBuddy。 该模型总参数为295B,但激活参数仅为21B。其体量不大,定位明确:聚焦实用性,在真实业务场景中实现高效应用。 官方标注的核心能力是 Agent 和 Coding。这恰好是姚顺雨在OpenAI期间深耕多年的领域。他…

    2026年4月23日
    58000
  • 当AI走出屏幕:Looki PIE如何让主动智能在现实世界“替你留心”

    一、当AI的进化止于屏幕 OpenClaw的流行,不仅在于它能替代用户执行任务。 如果仅是实现自动化,现有的RPA工具早已能够胜任。OpenClaw真正引发关注的,是其展现出的主动性:基于对邮件、日程和聊天记录的持续理解,它能主动处理事务、推送潜在需要的信息。这种从“响应式”到“主动式”的跨越,让行业首次意识到:AI智能体不仅能“被驱使”,更能“替你思考”。…

    2026年3月24日
    66100
  • 阿里HappyHorse 1.0正式上线:免费体验,视频生成效果惊艳,动作与镜头语言全面升级

    曾一度在权威AI评测平台Artifical Analysis的AI视频竞技场排行榜上独占鳌头的视频生成模型HappyHorse 1.0,如今我们终于能正式使用官方版本了。现在,只需打开千问APP或千问创作Web端(c.qianwen.com),即可直接体验,甚至还附赠免费试用额度。 不久前,一款名为HappyHorse 1.0的视频生成模型悄然登顶AI视频竞…

    2026年4月27日
    58400
  • 特斯拉Robovan:20座无方向盘自动驾驶概念车,每公里成本仅3毛钱

    前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。 而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友翻了出来。 马斯克反手就是一个转发,并配文称「这将彻底改变街道的面貌」。 评论区也炸了锅。网友纷纷表示很有未来感,「我们终于可以过上像杰森一家那样的生活了」。 甚至有网…

    2025年12月28日
    59900
  • 微信ClawBot官配WorkBuddy上线:扫码直连,AI 7x24h打工,办公界神仙搭子来了!

    近日,微信生态中的AI工具ClawBot迎来了其官方适配的桌面应用WorkBuddy。该应用由腾讯出品,旨在为用户提供更便捷、高效的AI辅助办公体验。 WorkBuddy并非仅能连接特定AI模型。作为官方适配工具,它提供了更为流畅的集成方案,简化了用户连接与使用的流程。 其核心优势在于便捷的连接方式。用户无需复杂配置或寻找第三方插件,即可快速建立连接。 此次…

    2026年3月25日
    1.3K00