腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。
hunyuan-2.0-thinking-20251109 版本表现:
* 测试题数:约 1.5 万
* 总分(准确率):71.9%
* 平均耗时(每次调用):28s
* 平均 token(每次调用消耗的 token):2544
* 平均花费(每千次调用的人民币花费):9.5
1、新旧版本对比
首先对比上个版本(hunyuan-t1-20250711),数据如下:


数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
- 整体性能显著跃升:新版本准确率从 67.3% 提升至 71.9%,提升了 4.6 个百分点,排名从第 18 位大幅跃升至第 2 位。
- 专业能力全面增强:从细分领域来看,新版本在大多数领域有显著的提升。最突出的是“agent 与工具调用”能力,从 46.8% 大幅提升至 64.3%,增幅高达 17.5 个百分点。“医疗与心理健康”领域也从 82.9% 提升至 88.4%(+5.5%)。
- 推理能力稳步提升:“推理与数学计算能力”从 72.0% 提升至 77.9%,增幅达 5.9 个百分点,验证了官方宣称的“在数学、科学、代码等复杂推理场景综合表现提升”。
- 部分领域出现回落:值得注意的是,“语言与指令遵从”能力从 72.9% 下降至 63.8%,降幅达 9.1 个百分点,这在整体性能大幅提升的背景下形成了反差,表明新版本在能力分布上进行了重新权衡。
- 速度大幅提升:每次调用的平均耗时从 71s 大幅缩短至 28s,提升约 153%,是本次升级中改进幅度最大的指标。
- Token 消耗优化:平均消耗 token 从 2707 降至 2544,减少约 6%,结合速度提升,说明新版本实现了更高效的推理过程。
- 成本小幅下降:每千次调用的费用从 9.9 元降至 9.5 元,下降约 4%,变化不大。
2、对比其他新模型
在当前主流大模型竞争格局中,hunyuan-2.0-thinking-20251109 表现如何?我们选择了具有代表性的模型进行横向对比分析:

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比:
* 同档位表现靠前:在 9-10 元/千次的成本档位中,hunyuan-2.0-thinking-20251109 以 71.9% 的准确率领先于同档位的 hunyuan-t1-20250711(67.3%,9.9 元)和 ERNIE-X1.1-Preview(64.5%,9.3 元)。
* 对比更高成本档位模型:与花费更高的 doubao-seed-1-6-thinking-250715(71.7%,15.6 元)相比,hunyuan-2.0-thinking-20251109 准确率相当但成本降低近 40%;与 qwen-plus-think-2025-07-28(67.5%,26 元)相比,总分准确率更高且成本仅为其 36%。
* 速度优势明显:28s 的响应时间在同成本档位模型中表现最优,远快于 doubao-seed-1-6-thinking-250715(37s)和 hunyuan-t1-20250711(71s)。
新模型竞争格局:
* 紧追榜首:hunyuan-2.0-thinking-20251109 以 71.9% 的准确率位居第 2,仅落后榜首 gemini-3-pro-preview(72.5%)0.6 个百分点。
* 与主流竞品对比:相比其他近期发布的模型,hunyuan-2.0-thinking-20251109 领先 DeepSeek-V3.2-Think(70.9%)1.0 个百分点,领先 gpt-5.1-high(69.7%)2.2 个百分点,领先 GLM-4.6(68.1%)3.8 个百分点。
* 成本处于中低水平:9.5 元/千次的成本低于 gemini-3-pro-preview(247.3 元)、gpt-5.1-high(180 元)等海外模型,但高于 DeepSeek-V3.2-Think(7.5 元)等开源方案。
开源 VS 闭源对比:
* 头部格局:从榜单来看,前三名均为闭源商用模型(gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715),开源模型中表现最好的 DeepSeek-V3.2-Think 排名第 4(70.9%)。
* 成本与性能权衡:hunyuan-2.0-thinking-20251109(9.5 元,71.9%)相比开源模型 DeepSeek-V3.2-Think(7.5 元,70.9%),成本高出 27%,准确率高出 1.0 个百分点,成本效率比各有侧重。
* 响应速度差异:hunyuan-2.0-thinking-20251109 的 28s 响应时间明显快于开源思考模型 DeepSeek-V3.2-Think(144s)和 qwen3-235b-a22b-thinking(143s),但开源模型在部署灵活性上具有自身优势。
3、官方评测
腾讯官方在发布会上公布了 HY 2.0 Think 的技术特性和内部评测数据:


- 数学科学知识推理:官方表示使用高质量数据进行 Large Rollout 强化学习,在国际数学奥林匹克竞赛(IMO-AnswerBench)和哈佛 MIT 数学竞赛(HMMT2025)等测试中取得一流成绩,在 Humanity’s Last Exam(HLE)和 ARC AGI 等任务上也有提升。
- 指令遵循与长文多轮能力:官方称通过重要性采样修正缓解了训练和推理不一致问题,在 Multi Challenge 等指令遵循和多轮任务上有所提升。
- 代码与智能体能力:官方表示在 SWE-bench Verified 及 Tau2-Bench 等智能体任务上实现了提升。
- 推理效率:
- 官方强调 HY 2.0 Think 引入了长度惩罚策略,在取得类似准确率的情况下消耗更少的 tokens。从官方对比图来看,HY 2.0 Think 在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 四个任务上的 token 消耗低于部分竞品模型。
- 用户体验:
- 官方宣称基于 RLVR+RLHF 双阶段强化学习策略,在文本创作、前端开发、指令遵循等场景有所改进。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14579
