豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

doubao-seed-1-8-251215 版本表现:
* 测试题数:约 1.5 万
* 总分(准确率):71.7%
* 平均耗时(每次调用):33s
* 平均 token(每次调用消耗的 token):1186
* 平均花费(每千次调用的人民币花费):7.3 元

1、新旧版本对比

首先对比上个版本(doubao-seed-1-6-251015),数据如下:

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能显著提升:新版本准确率从 63.5% 提升至 71.7%,增加了 8.2 个百分点,排名从第 46 位上升至第 3 位,进入榜单头部阵营。
  • Agent 能力大幅增强:最值得关注的是“agent 与工具调用”能力,从 28.6% 提升至 63.1%,增幅达 34.5 个百分点。这与官方宣称的“Tool Use 能力、复杂指令遵循能力、OS Agent 能力都实现了大幅增强”相符,是本次升级的核心亮点。
  • 推理能力增强:“推理与数学计算”能力从 65.7% 提升至 74.4%,增幅达 8.7 个百分点。“金融”领域也有 5.4 个百分点的提升(80.6%→86.0%),体现了模型在专业推理场景的进步。
  • 部分领域存在权衡:值得注意的是,新版本在“语言与指令遵从”领域出现了 8.7 个百分点的下降(75.8%→67.1%),“教育”领域也有 2.2 个百分点的回落(63.3%→61.1%)。这表明在重点强化 Agent 能力的过程中,部分传统能力有所调整。
  • 响应速度明显提升:新版本平均耗时从 51s 缩短至 33s,减少了约 35%。
  • Token 效率有所优化:每次调用平均消耗的 token 从 1298 降至 1186,减少了约 8.6%。结合速度提升,每千次调用费用从 8.4 元降至 7.3 元,成本下降约 13%。

2、对比其他新模型

在当前主流大模型竞争格局中,doubao-seed-1-8-251215 表现如何?我们选择了具有代表性的模型进行横向对比分析:

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 低成本档位表现突出:在 10 元/千次以下的成本区间内,doubao-seed-1-8-251215(71.7%,7.3 元)准确率位居前列。对比 hunyuan-2.0-thinking-20251109(71.9%,9.5 元),准确率低 0.2 个百分点但成本低 23%;对比 qwen-plus-2025-07-28(67.6%,1.8 元),准确率高出 4.1 个百分点但成本也相应更高。
  • 速度优势突出:33s 的响应时间在同档位中表现优异,快于 doubao-seed-1-6-thinking-250715(37s)和 hunyuan-t1-20250711(71s),仅略慢于 hunyuan-2.0-thinking-20251109(28s)。
  • Token 效率领先:1186 的平均 token 消耗在同档位中处于领先水平,明显低于 hunyuan-2.0-thinking-20251109(2544)和 doubao-seed-1-6-thinking-250715(2162),token 效率优势显著。

新旧模型对比

  • 与同门模型对比:doubao-seed-1-8-251215(71.7%,第 3 位)与 doubao-seed-1-6-thinking-250715(71.7%,第 4 位)准确率相当,但成本更低——7.3 元 vs 15.6 元,约为其 47%,响应速度也更快(33s vs 37s)。
  • 与国际模型对比:与 gemini-3-flash-preview(71.5%,第 5 位)相比,准确率高 0.2 个百分点,成本约为其 14%(7.3 元 vs 53.5 元),响应速度约为其两倍(33s vs 72s)。
  • 与榜首差距:与榜首 gemini-3-pro-preview(72.5%)相差 0.8 个百分点,与第二名 hunyuan-2.0-thinking-20251109(71.9%)相差 0.2 个百分点。

开源 VS 闭源对比

  • 成本控制接近开源水平:作为闭源商用模型,doubao-seed-1-8-251215 的成本已接近开源模型水平。与开源的 DeepSeek-V3.2-Think(70.9%,7.5 元)相比,准确率高 0.8 个百分点,成本相当;与 DeepSeek-V3.2-Exp-Think(70.1%,6.1 元)相比,准确率高 1.6 个百分点,成本高 1.2 元。
  • Agent 能力形成差异化:63.1% 的 Agent 能力在主流模型中处于较高水平,这是豆包本次升级重点打造的差异化能力。
  • 国产模型竞争力提升:从榜单来看,前五名中国产模型占据四席,体现了国产大模型在中文场景下的竞争力。不过需要指出的是,本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同。

3、官方评测

豆包官方发布了 Seed1.8 的详细技术介绍,以下是官方公布的核心内容:

通用 Agent 能力

官方表示,Agent 能力的难点体现在多个层面:多任务并行处理、复杂指令遵循、跨域知识迁移。Seed1.8 在以上难点中都有所突破:

  • GUI Agent 能力:评测结果显示 Seed1.8 具备业界领先的 GUI Agent 能力,较 Seed1.5-VL 进一步提升,并在电脑、网页、移动端三类环境中均展现出执行多步任务的可靠性。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • 搜索任务能力:Seed1.8 在多组公开 Agent 搜索评测基准中保持业界第一梯队水平,在 BrowseComp-en 基准测试中得分高达 67.6,超过 Gemini-3-Pro 等其他顶级模型。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • Agentic Coding 能力:Seed1.8 在 Agentic Coding 相关基准测试中展现出面向真实软件工程场景的稳定能力,具备在真实开发环境中持续推进任务的 Agent 编程能力。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
  • 行业应用任务:FinSearchComp 和 XpertBench 的测评显示,该模型在处理金融商业相关任务时相对稳定和高效。Seed1.8 在 WorldTravel 多模态应用任务中得分达 47.2,表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。
    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

LLM 能力评测

  • 核心基础能力:在数学、推理和知识理解等核心基础能力维度上,Seed1.8 整体水平接近业界顶级通用模型,在多组公开的大语言模型基准测试中保持稳定且具有竞争力的表现,处于业界第一梯队水平。

    豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 复杂指令遵循:在复杂指令遵循相关的基准测试中,Seed1.8展现出稳定的执行能力。这类任务通常包含多重约束、反向条件或长链路推理,要求模型在多步执行过程中持续保持对指令目标的准确理解。从结果来看,Seed1.8在多项复杂指令基准中保持了与业界领先模型接近的表现。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 真实场景验证:Seed1.8进一步将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景,包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型,验证了模型在真实使用环境中的适用性。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

VLM多模态能力

整体来看,Seed1.8在多个视觉语言基准测试中表现突出,在多模态推理任务中超越了前代模型Seed1.5-VL,在大部分任务中接近目前最先进的Gemini-3-Pro。

  • 图像理解能力:在多模态推理类任务中,Seed1.8在被认为难度极高的视觉推理测试ZeroBench中获得11.0的最高得分,相比前代Seed1.5-VL成功解答问题数量大幅增加。在通用视觉问答任务中,Seed1.8在VLMsAreBiased基准测试中取得62.0的分数,大幅领先其他模型。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 空间理解能力:Seed1.8在2D以及3D空间理解的多个基准测试中表现优秀,在处理3D空间理解和复杂任务时,特别是在动态和复杂数据集上,表现出较好的适应性和推理能力。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 视频理解能力:Seed1.8在视频理解领域表现出色,尤其在视频推理、运动与感知、长视频理解等任务中展现出较强的适应性。在VideoMME中取得87.8的较高分数。Seed1.8加入了“VideoCut”视频工具调用能力,通过对部分片段慢放回看,可实现更加精准的长视频推理与高帧率运动感知。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • Token效率提升:在视频处理中,Seed1.8实现了Token Efficiency的显著提升,即便采用更低的Max Video Token配置,仍然可取得比Seed1.5-VL更好的表现,为用户提供更低延迟的实时视频处理体验。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营

  • 多种Thinking Modes:Seed1.8通过引入多种Thinking Modes,嵌入了动态调节思考深度的能力。用户可以根据任务的不同需求,灵活调整模型的推理深度和计算负载。

豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14431

(0)
上一篇 2025年12月20日 下午12:43
下一篇 2025年12月20日 下午1:51

相关推荐