腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

hunyuan-2.0-thinking-20251109 版本表现:
* 测试题数:约 1.5 万
* 总分(准确率):71.9%
* 平均耗时(每次调用):28s
* 平均 token(每次调用消耗的 token):2544
* 平均花费(每千次调用的人民币花费):9.5

1、新旧版本对比

首先对比上个版本(hunyuan-t1-20250711),数据如下:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能显著跃升:新版本准确率从 67.3% 提升至 71.9%,提升了 4.6 个百分点,排名从第 18 位大幅跃升至第 2 位。
  • 专业能力全面增强:从细分领域来看,新版本在大多数领域有显著的提升。最突出的是“agent 与工具调用”能力,从 46.8% 大幅提升至 64.3%,增幅高达 17.5 个百分点。“医疗与心理健康”领域也从 82.9% 提升至 88.4%(+5.5%)。
  • 推理能力稳步提升:“推理与数学计算能力”从 72.0% 提升至 77.9%,增幅达 5.9 个百分点,验证了官方宣称的“在数学、科学、代码等复杂推理场景综合表现提升”。
  • 部分领域出现回落:值得注意的是,“语言与指令遵从”能力从 72.9% 下降至 63.8%,降幅达 9.1 个百分点,这在整体性能大幅提升的背景下形成了反差,表明新版本在能力分布上进行了重新权衡。
  • 速度大幅提升:每次调用的平均耗时从 71s 大幅缩短至 28s,提升约 153%,是本次升级中改进幅度最大的指标。
  • Token 消耗优化:平均消耗 token 从 2707 降至 2544,减少约 6%,结合速度提升,说明新版本实现了更高效的推理过程。
  • 成本小幅下降:每千次调用的费用从 9.9 元降至 9.5 元,下降约 4%,变化不大。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-thinking-20251109 表现如何?我们选择了具有代表性的模型进行横向对比分析:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 同档位表现靠前:在 9-10 元/千次的成本档位中,hunyuan-2.0-thinking-20251109 以 71.9% 的准确率领先于同档位的 hunyuan-t1-20250711(67.3%,9.9 元)和 ERNIE-X1.1-Preview(64.5%,9.3 元)。
* 对比更高成本档位模型:与花费更高的 doubao-seed-1-6-thinking-250715(71.7%,15.6 元)相比,hunyuan-2.0-thinking-20251109 准确率相当但成本降低近 40%;与 qwen-plus-think-2025-07-28(67.5%,26 元)相比,总分准确率更高且成本仅为其 36%。
* 速度优势明显:28s 的响应时间在同成本档位模型中表现最优,远快于 doubao-seed-1-6-thinking-250715(37s)和 hunyuan-t1-20250711(71s)。

新模型竞争格局:
* 紧追榜首:hunyuan-2.0-thinking-20251109 以 71.9% 的准确率位居第 2,仅落后榜首 gemini-3-pro-preview(72.5%)0.6 个百分点。
* 与主流竞品对比:相比其他近期发布的模型,hunyuan-2.0-thinking-20251109 领先 DeepSeek-V3.2-Think(70.9%)1.0 个百分点,领先 gpt-5.1-high(69.7%)2.2 个百分点,领先 GLM-4.6(68.1%)3.8 个百分点。
* 成本处于中低水平:9.5 元/千次的成本低于 gemini-3-pro-preview(247.3 元)、gpt-5.1-high(180 元)等海外模型,但高于 DeepSeek-V3.2-Think(7.5 元)等开源方案。

开源 VS 闭源对比:
* 头部格局:从榜单来看,前三名均为闭源商用模型(gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715),开源模型中表现最好的 DeepSeek-V3.2-Think 排名第 4(70.9%)。
* 成本与性能权衡:hunyuan-2.0-thinking-20251109(9.5 元,71.9%)相比开源模型 DeepSeek-V3.2-Think(7.5 元,70.9%),成本高出 27%,准确率高出 1.0 个百分点,成本效率比各有侧重。
* 响应速度差异:hunyuan-2.0-thinking-20251109 的 28s 响应时间明显快于开源思考模型 DeepSeek-V3.2-Think(144s)和 qwen3-235b-a22b-thinking(143s),但开源模型在部署灵活性上具有自身优势。

3、官方评测

腾讯官方在发布会上公布了 HY 2.0 Think 的技术特性和内部评测数据:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

  • 数学科学知识推理:官方表示使用高质量数据进行 Large Rollout 强化学习,在国际数学奥林匹克竞赛(IMO-AnswerBench)和哈佛 MIT 数学竞赛(HMMT2025)等测试中取得一流成绩,在 Humanity’s Last Exam(HLE)和 ARC AGI 等任务上也有提升。
  • 指令遵循与长文多轮能力:官方称通过重要性采样修正缓解了训练和推理不一致问题,在 Multi Challenge 等指令遵循和多轮任务上有所提升。
  • 代码与智能体能力:官方表示在 SWE-bench Verified 及 Tau2-Bench 等智能体任务上实现了提升。
  • 推理效率
    • 官方强调 HY 2.0 Think 引入了长度惩罚策略,在取得类似准确率的情况下消耗更少的 tokens。从官方对比图来看,HY 2.0 Think 在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 四个任务上的 token 消耗低于部分竞品模型。
  • 用户体验
    • 官方宣称基于 RLVR+RLHF 双阶段强化学习策略,在文本创作、前端开发、指令遵循等场景有所改进。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14579

(0)
上一篇 2025年12月6日 下午2:57
下一篇 2025年12月7日 上午9:04

相关推荐

  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    7400
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    8800
  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    7800
  • DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析

    最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

    2025年12月9日
    9700
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    49900