豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

doubao-seed-1-8-251215 版本表现:
* 测试题数:约 1.5 万
* 总分(准确率):71.7%
* 平均耗时(每次调用):33s
* 平均 token(每次调用消耗的 token):1186
* 平均花费(每千次调用的人民币花费):7.3 元

1、新旧版本对比

首先对比上个版本(doubao-seed-1-6-251015),数据如下:

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能显著提升:新版本准确率从 63.5% 提升至 71.7%,增加了 8.2 个百分点,排名从第 46 位上升至第 3 位,进入榜单头部阵营。
  • Agent 能力大幅增强:最值得关注的是“agent 与工具调用”能力,从 28.6% 提升至 63.1%,增幅达 34.5 个百分点。这与官方宣称的“Tool Use 能力、复杂指令遵循能力、OS Agent 能力都实现了大幅增强”相符,是本次升级的核心亮点。
  • 推理能力增强:“推理与数学计算”能力从 65.7% 提升至 74.4%,增幅达 8.7 个百分点。“金融”领域也有 5.4 个百分点的提升(80.6%→86.0%),体现了模型在专业推理场景的进步。
  • 部分领域存在权衡:值得注意的是,新版本在“语言与指令遵从”领域出现了 8.7 个百分点的下降(75.8%→67.1%),“教育”领域也有 2.2 个百分点的回落(63.3%→61.1%)。这表明在重点强化 Agent 能力的过程中,部分传统能力有所调整。
  • 响应速度明显提升:新版本平均耗时从 51s 缩短至 33s,减少了约 35%。
  • Token 效率有所优化:每次调用平均消耗的 token 从 1298 降至 1186,减少了约 8.6%。结合速度提升,每千次调用费用从 8.4 元降至 7.3 元,成本下降约 13%。

2、对比其他新模型

在当前主流大模型竞争格局中,doubao-seed-1-8-251215 表现如何?我们选择了具有代表性的模型进行横向对比分析:

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 低成本档位表现突出:在 10 元/千次以下的成本区间内,doubao-seed-1-8-251215(71.7%,7.3 元)准确率位居前列。对比 hunyuan-2.0-thinking-20251109(71.9%,9.5 元),准确率低 0.2 个百分点但成本低 23%;对比 qwen-plus-2025-07-28(67.6%,1.8 元),准确率高出 4.1 个百分点但成本也相应更高。
  • 速度优势突出:33s 的响应时间在同档位中表现优异,快于 doubao-seed-1-6-thinking-250715(37s)和 hunyuan-t1-20250711(71s),仅略慢于 hunyuan-2.0-thinking-20251109(28s)。
  • Token 效率领先:1186 的平均 token 消耗在同档位中处于领先水平,明显低于 hunyuan-2.0-thinking-20251109(2544)和 doubao-seed-1-6-thinking-250715(2162),token 效率优势显著。

新旧模型对比

  • 与同门模型对比:doubao-seed-1-8-251215(71.7%,第 3 位)与 doubao-seed-1-6-thinking-250715(71.7%,第 4 位)准确率相当,但成本更低——7.3 元 vs 15.6 元,约为其 47%,响应速度也更快(33s vs 37s)。
  • 与国际模型对比:与 gemini-3-flash-preview(71.5%,第 5 位)相比,准确率高 0.2 个百分点,成本约为其 14%(7.3 元 vs 53.5 元),响应速度约为其两倍(33s vs 72s)。
  • 与榜首差距:与榜首 gemini-3-pro-preview(72.5%)相差 0.8 个百分点,与第二名 hunyuan-2.0-thinking-20251109(71.9%)相差 0.2 个百分点。

开源 VS 闭源对比

  • 成本控制接近开源水平:作为闭源商用模型,doubao-seed-1-8-251215 的成本已接近开源模型水平。与开源的 DeepSeek-V3.2-Think(70.9%,7.5 元)相比,准确率高 0.8 个百分点,成本相当;与 DeepSeek-V3.2-Exp-Think(70.1%,6.1 元)相比,准确率高 1.6 个百分点,成本高 1.2 元。
  • Agent 能力形成差异化:63.1% 的 Agent 能力在主流模型中处于较高水平,这是豆包本次升级重点打造的差异化能力。
  • 国产模型竞争力提升:从榜单来看,前五名中国产模型占据四席,体现了国产大模型在中文场景下的竞争力。不过需要指出的是,本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。

3、官方评测

豆包官方发布了 Seed1.8 的详细技术介绍,以下是官方公布的核心内容:

通用 Agent 能力

官方表示,Agent 能力的难点体现在多个层面:多任务并行处理、复杂指令遵循、跨域知识迁移。Seed1.8 在以上难点中都有所突破:

  • GUI Agent 能力:评测结果显示 Seed1.8 具备业界领先的 GUI Agent 能力,较 Seed1.5-VL 进一步提升,并在电脑、网页、移动端三类环境中均展现出执行多步任务的可靠性。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • 搜索任务能力:Seed1.8 在多组公开 Agent 搜索评测基准中保持业界第一梯队水平,在 BrowseComp-en 基准测试中得分高达 67.6,超过 Gemini-3-Pro 等其他顶级模型。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • Agentic Coding 能力:Seed1.8 在 Agentic Coding 相关基准测试中展现出面向真实软件工程场景的稳定能力,具备在真实开发环境中持续推进任务的 Agent 编程能力。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • 行业应用任务:FinSearchComp 和 XpertBench 的测评显示,该模型在处理金融商业相关任务时相对稳定和高效。Seed1.8 在 WorldTravel 多模态应用任务中得分达 47.2,表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

LLM 能力评测

  • 核心基础能力:在数学、推理和知识理解等核心基础能力维度上,Seed1.8 整体水平接近业界顶级通用模型,在多组公开的大语言模型基准测试中保持稳定且具有竞争力的表现,处于业界第一梯队水平。

    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 复杂指令遵循:在复杂指令遵循相关的基准测试中,Seed1.8展现出稳定的执行能力。这类任务通常包含多重约束、反向条件或长链路推理,要求模型在多步执行过程中持续保持对指令目标的准确理解。从结果来看,Seed1.8在多项复杂指令基准中保持了与业界领先模型接近的表现。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 真实场景验证:Seed1.8进一步将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景,包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型,验证了模型在真实使用环境中的适用性。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

VLM多模态能力

整体来看,Seed1.8在多个视觉语言基准测试中表现突出,在多模态推理任务中超越了前代模型Seed1.5-VL,在大部分任务中接近目前最先进的Gemini-3-Pro。

  • 图像理解能力:在多模态推理类任务中,Seed1.8在被认为难度极高的视觉推理测试ZeroBench中获得11.0的最高得分,相比前代Seed1.5-VL成功解答问题数量大幅增加。在通用视觉问答任务中,Seed1.8在VLMsAreBiased基准测试中取得62.0的分数,大幅领先其他模型。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 空间理解能力:Seed1.8在2D以及3D空间理解的多个基准测试中表现优秀,在处理3D空间理解和复杂任务时,特别是在动态和复杂数据集上,表现出较好的适应性和推理能力。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 视频理解能力:Seed1.8在视频理解领域表现出色,尤其在视频推理、运动与感知、长视频理解等任务中展现出较强的适应性。在VideoMME中取得87.8的较高分数。Seed1.8加入了“VideoCut”视频工具调用能力,通过对部分片段慢放回看,可实现更加精准的长视频推理与高帧率运动感知。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • Token效率提升:在视频处理中,Seed1.8实现了Token Efficiency的显著提升,即便采用更低的Max Video Token配置,仍然可取得比Seed1.5-VL更好的表现,为用户提供更低延迟的实时视频处理体验。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 多种Thinking Modes:Seed1.8通过引入多种Thinking Modes,嵌入了动态调节思考深度的能力。用户可以根据任务的不同需求,灵活调整模型的推理深度和计算负载。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14431

(0)
上一篇 2025年12月20日 下午12:43
下一篇 2025年12月20日 下午1:51

相关推荐

  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    52900
  • 阿里Qwen3.5-27B实测:270亿参数密集模型杀入前十,成本骤降59%!

    阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后,于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型,其全部270亿参数在每次推理时均被激活,未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构,以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层,支持最高262K至1M的上下文窗口,并…

    2026年2月27日
    2.2K00
  • DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破

    深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…

    2025年12月4日
    37500
  • 小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

    小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现:* 测试题数:约1.5万…

    2025年12月21日
    93600
  • Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界

    昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…

    2025年11月19日
    39700