腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

2025年12月6日下午6:38 • 大模型评测 • 阅读 237

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

hunyuan-2.0-thinking-20251109 版本表现：
* 测试题数：约 1.5 万
* 总分（准确率）：71.9%
* 平均耗时（每次调用）：28s
* 平均 token（每次调用消耗的 token）：2544
* 平均花费（每千次调用的人民币花费）：9.5

1、新旧版本对比

首先对比上个版本（hunyuan-t1-20250711），数据如下：

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

整体性能显著跃升：新版本准确率从 67.3% 提升至 71.9%，提升了 4.6 个百分点，排名从第 18 位大幅跃升至第 2 位。
专业能力全面增强：从细分领域来看，新版本在大多数领域有显著的提升。最突出的是“agent 与工具调用”能力，从 46.8% 大幅提升至 64.3%，增幅高达 17.5 个百分点。“医疗与心理健康”领域也从 82.9% 提升至 88.4%（+5.5%）。
推理能力稳步提升：“推理与数学计算能力”从 72.0% 提升至 77.9%，增幅达 5.9 个百分点，验证了官方宣称的“在数学、科学、代码等复杂推理场景综合表现提升”。
部分领域出现回落：值得注意的是，“语言与指令遵从”能力从 72.9% 下降至 63.8%，降幅达 9.1 个百分点，这在整体性能大幅提升的背景下形成了反差，表明新版本在能力分布上进行了重新权衡。
速度大幅提升：每次调用的平均耗时从 71s 大幅缩短至 28s，提升约 153%，是本次升级中改进幅度最大的指标。
Token 消耗优化：平均消耗 token 从 2707 降至 2544，减少约 6%，结合速度提升，说明新版本实现了更高效的推理过程。
成本小幅下降：每千次调用的费用从 9.9 元降至 9.5 元，下降约 4%，变化不大。

2、对比其他新模型

在当前主流大模型竞争格局中，hunyuan-2.0-thinking-20251109 表现如何？我们选择了具有代表性的模型进行横向对比分析：

数据来源：ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：
* 同档位表现靠前：在 9-10 元/千次的成本档位中，hunyuan-2.0-thinking-20251109 以 71.9% 的准确率领先于同档位的 hunyuan-t1-20250711（67.3%，9.9 元）和 ERNIE-X1.1-Preview（64.5%，9.3 元）。
* 对比更高成本档位模型：与花费更高的 doubao-seed-1-6-thinking-250715（71.7%，15.6 元）相比，hunyuan-2.0-thinking-20251109 准确率相当但成本降低近 40%；与 qwen-plus-think-2025-07-28（67.5%，26 元）相比，总分准确率更高且成本仅为其 36%。
* 速度优势明显：28s 的响应时间在同成本档位模型中表现最优，远快于 doubao-seed-1-6-thinking-250715（37s）和 hunyuan-t1-20250711（71s）。

新模型竞争格局：
* 紧追榜首：hunyuan-2.0-thinking-20251109 以 71.9% 的准确率位居第 2，仅落后榜首 gemini-3-pro-preview（72.5%）0.6 个百分点。
* 与主流竞品对比：相比其他近期发布的模型，hunyuan-2.0-thinking-20251109 领先 DeepSeek-V3.2-Think（70.9%）1.0 个百分点，领先 gpt-5.1-high（69.7%）2.2 个百分点，领先 GLM-4.6（68.1%）3.8 个百分点。
* 成本处于中低水平：9.5 元/千次的成本低于 gemini-3-pro-preview（247.3 元）、gpt-5.1-high（180 元）等海外模型，但高于 DeepSeek-V3.2-Think（7.5 元）等开源方案。

开源 VS 闭源对比：
* 头部格局：从榜单来看，前三名均为闭源商用模型（gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715），开源模型中表现最好的 DeepSeek-V3.2-Think 排名第 4（70.9%）。
* 成本与性能权衡：hunyuan-2.0-thinking-20251109（9.5 元，71.9%）相比开源模型 DeepSeek-V3.2-Think（7.5 元，70.9%），成本高出 27%，准确率高出 1.0 个百分点，成本效率比各有侧重。
* 响应速度差异：hunyuan-2.0-thinking-20251109 的 28s 响应时间明显快于开源思考模型 DeepSeek-V3.2-Think（144s）和 qwen3-235b-a22b-thinking（143s），但开源模型在部署灵活性上具有自身优势。

3、官方评测

腾讯官方在发布会上公布了 HY 2.0 Think 的技术特性和内部评测数据：

数学科学知识推理：官方表示使用高质量数据进行 Large Rollout 强化学习，在国际数学奥林匹克竞赛（IMO-AnswerBench）和哈佛 MIT 数学竞赛（HMMT2025）等测试中取得一流成绩，在 Humanity’s Last Exam（HLE）和 ARC AGI 等任务上也有提升。
指令遵循与长文多轮能力：官方称通过重要性采样修正缓解了训练和推理不一致问题，在 Multi Challenge 等指令遵循和多轮任务上有所提升。
代码与智能体能力：官方表示在 SWE-bench Verified 及 Tau2-Bench 等智能体任务上实现了提升。
推理效率：
- 官方强调 HY 2.0 Think 引入了长度惩罚策略，在取得类似准确率的情况下消耗更少的 tokens。从官方对比图来看，HY 2.0 Think 在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 四个任务上的 token 消耗低于部分竞品模型。
用户体验：
- 官方宣称基于 RLVR+RLHF 双阶段强化学习策略，在文本创作、前端开发、指令遵循等场景有所改进。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14579

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

1、新旧版本对比

2、对比其他新模型

3、官方评测

相关推荐

Anthropic推出技能评测框架：无需代码即可测试和改进Claude技能

2025年大模型评测工具终极指南：五大工具深度解析与选型策略

清华×斯坦福联手打造Ctrl-World世界模型，具身智能评测登顶全球，视频生成力压谷歌英伟达

揭秘多模态大模型评测中的“隐形浪费”：半数资源竟在重复劳动？

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距