豆包Seed1.8实测：Agent能力飙升63.1%，成本降13%跻身头部阵营

豆包近期发布了 doubao-seed-1-8-251215 新版本，官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

doubao-seed-1-8-251215 版本表现：
* 测试题数：约 1.5 万
* 总分（准确率）：71.7%
* 平均耗时（每次调用）：33s
* 平均 token（每次调用消耗的 token）：1186
* 平均花费（每千次调用的人民币花费）：7.3 元

1、新旧版本对比

首先对比上个版本（doubao-seed-1-6-251015），数据如下：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

整体性能显著提升：新版本准确率从 63.5% 提升至 71.7%，增加了 8.2 个百分点，排名从第 46 位上升至第 3 位，进入榜单头部阵营。
Agent 能力大幅增强：最值得关注的是“agent 与工具调用”能力，从 28.6% 提升至 63.1%，增幅达 34.5 个百分点。这与官方宣称的“Tool Use 能力、复杂指令遵循能力、OS Agent 能力都实现了大幅增强”相符，是本次升级的核心亮点。
推理能力增强：“推理与数学计算”能力从 65.7% 提升至 74.4%，增幅达 8.7 个百分点。“金融”领域也有 5.4 个百分点的提升（80.6%→86.0%），体现了模型在专业推理场景的进步。
部分领域存在权衡：值得注意的是，新版本在“语言与指令遵从”领域出现了 8.7 个百分点的下降（75.8%→67.1%），“教育”领域也有 2.2 个百分点的回落（63.3%→61.1%）。这表明在重点强化 Agent 能力的过程中，部分传统能力有所调整。
响应速度明显提升：新版本平均耗时从 51s 缩短至 33s，减少了约 35%。
Token 效率有所优化：每次调用平均消耗的 token 从 1298 降至 1186，减少了约 8.6%。结合速度提升，每千次调用费用从 8.4 元降至 7.3 元，成本下降约 13%。

2、对比其他新模型

在当前主流大模型竞争格局中，doubao-seed-1-8-251215 表现如何？我们选择了具有代表性的模型进行横向对比分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

低成本档位表现突出：在 10 元/千次以下的成本区间内，doubao-seed-1-8-251215（71.7%，7.3 元）准确率位居前列。对比 hunyuan-2.0-thinking-20251109（71.9%，9.5 元），准确率低 0.2 个百分点但成本低 23%；对比 qwen-plus-2025-07-28（67.6%，1.8 元），准确率高出 4.1 个百分点但成本也相应更高。
速度优势突出：33s 的响应时间在同档位中表现优异，快于 doubao-seed-1-6-thinking-250715（37s）和 hunyuan-t1-20250711（71s），仅略慢于 hunyuan-2.0-thinking-20251109（28s）。
Token 效率领先：1186 的平均 token 消耗在同档位中处于领先水平，明显低于 hunyuan-2.0-thinking-20251109（2544）和 doubao-seed-1-6-thinking-250715（2162），token 效率优势显著。

新旧模型对比

与同门模型对比：doubao-seed-1-8-251215（71.7%，第 3 位）与 doubao-seed-1-6-thinking-250715（71.7%，第 4 位）准确率相当，但成本更低——7.3 元 vs 15.6 元，约为其 47%，响应速度也更快（33s vs 37s）。
与国际模型对比：与 gemini-3-flash-preview（71.5%，第 5 位）相比，准确率高 0.2 个百分点，成本约为其 14%（7.3 元 vs 53.5 元），响应速度约为其两倍（33s vs 72s）。
与榜首差距：与榜首 gemini-3-pro-preview（72.5%）相差 0.8 个百分点，与第二名 hunyuan-2.0-thinking-20251109（71.9%）相差 0.2 个百分点。

开源 VS 闭源对比

成本控制接近开源水平：作为闭源商用模型，doubao-seed-1-8-251215 的成本已接近开源模型水平。与开源的 DeepSeek-V3.2-Think（70.9%，7.5 元）相比，准确率高 0.8 个百分点，成本相当；与 DeepSeek-V3.2-Exp-Think（70.1%，6.1 元）相比，准确率高 1.6 个百分点，成本高 1.2 元。
Agent 能力形成差异化：63.1% 的 Agent 能力在主流模型中处于较高水平，这是豆包本次升级重点打造的差异化能力。
国产模型竞争力提升：从榜单来看，前五名中国产模型占据四席，体现了国产大模型在中文场景下的竞争力。不过需要指出的是，本评测侧重中文场景，模型在其他语言和专业领域的表现可能有所不同。

3、官方评测

豆包官方发布了 Seed1.8 的详细技术介绍，以下是官方公布的核心内容：

通用 Agent 能力

官方表示，Agent 能力的难点体现在多个层面：多任务并行处理、复杂指令遵循、跨域知识迁移。Seed1.8 在以上难点中都有所突破：

GUI Agent 能力：评测结果显示 Seed1.8 具备业界领先的 GUI Agent 能力，较 Seed1.5-VL 进一步提升，并在电脑、网页、移动端三类环境中均展现出执行多步任务的可靠性。
搜索任务能力：Seed1.8 在多组公开 Agent 搜索评测基准中保持业界第一梯队水平，在 BrowseComp-en 基准测试中得分高达 67.6，超过 Gemini-3-Pro 等其他顶级模型。
Agentic Coding 能力：Seed1.8 在 Agentic Coding 相关基准测试中展现出面向真实软件工程场景的稳定能力，具备在真实开发环境中持续推进任务的 Agent 编程能力。
行业应用任务：FinSearchComp 和 XpertBench 的测评显示，该模型在处理金融商业相关任务时相对稳定和高效。Seed1.8 在 WorldTravel 多模态应用任务中得分达 47.2，表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。

LLM 能力评测

核心基础能力：在数学、推理和知识理解等核心基础能力维度上，Seed1.8 整体水平接近业界顶级通用模型，在多组公开的大语言模型基准测试中保持稳定且具有竞争力的表现，处于业界第一梯队水平。
复杂指令遵循：在复杂指令遵循相关的基准测试中，Seed1.8展现出稳定的执行能力。这类任务通常包含多重约束、反向条件或长链路推理，要求模型在多步执行过程中持续保持对指令目标的准确理解。从结果来看，Seed1.8在多项复杂指令基准中保持了与业界领先模型接近的表现。