商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地端侧

端侧智能面临一个核心矛盾：模型参数太少则能力不足，参数太多又无法部署在车机上。复杂任务需要推理能力，推理能力依赖大参数模型，但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。

近日，商汤绝影正式发布 Sage，一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型，首次将云端级智能体能力完整落地端侧，成功突破上述瓶颈。

在公开Agent评测基准 PinchBench 上，Sage以 94% 的最佳任务完成率，超越Claude Opus 4.6（93.3%）、GPT-5.4（90.5%）以及一众参数量远超它的云端旗舰模型。目前，该模型已在英伟达OrinX端侧平台实现部署。

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

作为端侧智能体基座，Sage可接入OpenClaw、Hermes等主流Agent框架，为出行、家庭等全场景下的端侧智能体落地提供核心支撑。

3B激活参数，超越大参数量模型

在PinchBench评测中，Sage端侧大模型最佳任务完成率达94%，超越Claude-Opus-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）及Google-Gemma-4等前沿模型。

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

PinchBench 是龙虾之父Peter Steinberger推荐的公开Agent评测基准。与固定不变的静态题库不同，PinchBench面向真实Agent工作流，其公开任务库随版本迭代持续扩充。

该基准覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景，重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。PinchBench要求模型完成真实任务，综合衡量成功率、速度与成本，测试周期更长、资源消耗更高，单任务token消耗可达数十万量级。

模型在PinchBench上的表现，更能反映其在复杂真实场景中的综合能力。

北京车展期间，商汤绝影将推出搭载Sage的SageBox，作为整车的模型接入硬件。

两大黑科技，让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench上跑赢国际主流云/端大模型的背后，是商汤绝影围绕Sage后训练阶段自研的两项关键技术：SCOUT 和 ERL。

以SCOUT和ERL为核心的后训练技术体系，一项让模型“学得又快又省”，一项让模型“做事不出错”，解决了车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”这一长期难题。

SCOUT：让大模型学复杂任务，省60%算力

SCOUT（Sub-Scale Collaboration On Unseen Tasks，分级协同学习框架）重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题，在复杂任务能力注入过程中可节省约60%的GPU小时消耗。

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

许多任务涉及空间规划、设备联动、多步决策，直接让大模型自行试错，既慢又烧算力。SCOUT的思路是将“探路”与“学习”拆分开：先派一个轻量小模型在任务中跑一遍，筛选出可行路径，再将这批高质量经验喂给大模型。小模型探路，大模型吸收，训练成本下降，真实用车场景的技能掌握也更快。

ERL：让模型自己擦掉错误步骤，任务成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL（Erasable Reinforcement Learning，可擦除强化学习）技术，聚焦复杂任务链路中的错误识别与纠偏。

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

用户在实际使用中提出的需求，往往需要模型跨多个步骤完成推理和执行。中间一旦某一步出现偏差，整个任务流程就可能失效。ERL让模型能够主动识别推理过程中的错误步骤，就地擦除并在原位重新生成，阻止偏差向后扩散。该技术使Sage在多跳复杂推理基准上较此前SOTA取得显著提升，装车后Sage在复杂任务上的完成率提升了20%。

SCOUT与ERL前后协同，共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势，Sage在能力、成本与量产可行性之间取得了平衡，为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力

PinchBench 94%的任务完成率证明了Sage能办成复杂的事，而真正决定座舱体验的，是模型在各个专业维度上是否够用、够稳、够聪明。

在多个不同能力维度的公开基准上，Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma 4，将端侧模型的能力天花板推至新高度。

MMLU Pro（跨学科专业知识）：Sage获76分，领先同级端侧模型约10%，证明端侧模型具备云端级通用知识密度；
GPQA Diamond（研究生级专业推理）：Sage获77分，提升33%，凸显复杂推理深度；
Human Semantic Understanding（座舱语义与视觉理解）：获91分，提升32%，依托原生数据建立独特优势。

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

在重点考察任务执行能力的 τ2-bench（工具调用与任务闭环） 基准上，Sage以80分的成绩相较Gemma 4实现38%的提升，接近翻倍领先。该基准专门评估模型调用工具、走完多步任务的实战能力，也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先，直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

从专业基准到场景体验

这些专业能力落到真实车舱，转化为一组直接影响用户体验的指标：Sage场景推理精度超过90%，长链路工具调用、逻辑规划、环境感知任务成功率分别达92%、89%、94%，复杂指令遵循率提升40%。

在OrinX平台部署下，Sage可实现首字响应（TTFT）约0.5秒、单Token推理延迟（TPOT）低至0.03秒、生成吞吐达80tk/S，平均任务时长优于主流API模型，为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可一次性解析用户的复合指令，自动联动空调、影音、导航等车载系统完成闭环任务；结合传感器对乘员状态与路况的感知，还能主动提供儿童模式、智能路线调整等服务。

Sage不再是“被动唤醒、单次响应”的语音助手，而是一个真正懂场景、会思考、能服务的出行伙伴。

论文链接：

[1] arXiv：https://arxiv.org/abs/2601.21754
[2] arXiv：https://arxiv.org/abs/2510.00861

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/31484

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地端侧

3B激活参数，超越大参数量模型

两大黑科技，让座舱从“听懂指令”到“说到做到”

SCOUT：让大模型学复杂任务，省60%算力

ERL：让模型自己擦掉错误步骤，任务成功率提升20%

端侧跑出全球领先能力

从专业基准到场景体验

相关推荐

6款AI驱动的开源CLI工具：让终端开发更智能高效

Hey Tuya：AI生活助手如何通过软硬件协同重塑智能家居体验

谷歌Chrome推出Gemini Skills：浏览器变身免费智能体，一键复用AI技能

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

阿里Meoo：1分钟零代码打造实时互动应用，AI开发工具让编程小白也能轻松上线产品