腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。

hunyuan-2.0-thinking-20251109 版本表现:
* 测试题数:约 1.5 万
* 总分(准确率):71.9%
* 平均耗时(每次调用):28s
* 平均 token(每次调用消耗的 token):2544
* 平均花费(每千次调用的人民币花费):9.5

1、新旧版本对比

首先对比上个版本(hunyuan-t1-20250711),数据如下:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

  • 整体性能显著跃升:新版本准确率从 67.3% 提升至 71.9%,提升了 4.6 个百分点,排名从第 18 位大幅跃升至第 2 位。
  • 专业能力全面增强:从细分领域来看,新版本在大多数领域有显著的提升。最突出的是“agent 与工具调用”能力,从 46.8% 大幅提升至 64.3%,增幅高达 17.5 个百分点。“医疗与心理健康”领域也从 82.9% 提升至 88.4%(+5.5%)。
  • 推理能力稳步提升:“推理与数学计算能力”从 72.0% 提升至 77.9%,增幅达 5.9 个百分点,验证了官方宣称的“在数学、科学、代码等复杂推理场景综合表现提升”。
  • 部分领域出现回落:值得注意的是,“语言与指令遵从”能力从 72.9% 下降至 63.8%,降幅达 9.1 个百分点,这在整体性能大幅提升的背景下形成了反差,表明新版本在能力分布上进行了重新权衡。
  • 速度大幅提升:每次调用的平均耗时从 71s 大幅缩短至 28s,提升约 153%,是本次升级中改进幅度最大的指标。
  • Token 消耗优化:平均消耗 token 从 2707 降至 2544,减少约 6%,结合速度提升,说明新版本实现了更高效的推理过程。
  • 成本小幅下降:每千次调用的费用从 9.9 元降至 9.5 元,下降约 4%,变化不大。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-thinking-20251109 表现如何?我们选择了具有代表性的模型进行横向对比分析:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:
* 同档位表现靠前:在 9-10 元/千次的成本档位中,hunyuan-2.0-thinking-20251109 以 71.9% 的准确率领先于同档位的 hunyuan-t1-20250711(67.3%,9.9 元)和 ERNIE-X1.1-Preview(64.5%,9.3 元)。
* 对比更高成本档位模型:与花费更高的 doubao-seed-1-6-thinking-250715(71.7%,15.6 元)相比,hunyuan-2.0-thinking-20251109 准确率相当但成本降低近 40%;与 qwen-plus-think-2025-07-28(67.5%,26 元)相比,总分准确率更高且成本仅为其 36%。
* 速度优势明显:28s 的响应时间在同成本档位模型中表现最优,远快于 doubao-seed-1-6-thinking-250715(37s)和 hunyuan-t1-20250711(71s)。

新模型竞争格局:
* 紧追榜首:hunyuan-2.0-thinking-20251109 以 71.9% 的准确率位居第 2,仅落后榜首 gemini-3-pro-preview(72.5%)0.6 个百分点。
* 与主流竞品对比:相比其他近期发布的模型,hunyuan-2.0-thinking-20251109 领先 DeepSeek-V3.2-Think(70.9%)1.0 个百分点,领先 gpt-5.1-high(69.7%)2.2 个百分点,领先 GLM-4.6(68.1%)3.8 个百分点。
* 成本处于中低水平:9.5 元/千次的成本低于 gemini-3-pro-preview(247.3 元)、gpt-5.1-high(180 元)等海外模型,但高于 DeepSeek-V3.2-Think(7.5 元)等开源方案。

开源 VS 闭源对比:
* 头部格局:从榜单来看,前三名均为闭源商用模型(gemini-3-pro-preview、hunyuan-2.0-thinking-20251109、doubao-seed-1-6-thinking-250715),开源模型中表现最好的 DeepSeek-V3.2-Think 排名第 4(70.9%)。
* 成本与性能权衡:hunyuan-2.0-thinking-20251109(9.5 元,71.9%)相比开源模型 DeepSeek-V3.2-Think(7.5 元,70.9%),成本高出 27%,准确率高出 1.0 个百分点,成本效率比各有侧重。
* 响应速度差异:hunyuan-2.0-thinking-20251109 的 28s 响应时间明显快于开源思考模型 DeepSeek-V3.2-Think(144s)和 qwen3-235b-a22b-thinking(143s),但开源模型在部署灵活性上具有自身优势。

3、官方评测

腾讯官方在发布会上公布了 HY 2.0 Think 的技术特性和内部评测数据:

腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

  • 数学科学知识推理:官方表示使用高质量数据进行 Large Rollout 强化学习,在国际数学奥林匹克竞赛(IMO-AnswerBench)和哈佛 MIT 数学竞赛(HMMT2025)等测试中取得一流成绩,在 Humanity’s Last Exam(HLE)和 ARC AGI 等任务上也有提升。
  • 指令遵循与长文多轮能力:官方称通过重要性采样修正缓解了训练和推理不一致问题,在 Multi Challenge 等指令遵循和多轮任务上有所提升。
  • 代码与智能体能力:官方表示在 SWE-bench Verified 及 Tau2-Bench 等智能体任务上实现了提升。
  • 推理效率
    • 官方强调 HY 2.0 Think 引入了长度惩罚策略,在取得类似准确率的情况下消耗更少的 tokens。从官方对比图来看,HY 2.0 Think 在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 四个任务上的 token 消耗低于部分竞品模型。
  • 用户体验
    • 官方宣称基于 RLVR+RLHF 双阶段强化学习策略,在文本创作、前端开发、指令遵循等场景有所改进。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14579

(0)
上一篇 2025年12月6日 下午2:57
下一篇 2025年12月7日 上午9:04

相关推荐

  • Anthropic推出技能评测框架:无需代码即可测试和改进Claude技能

    Anthropic 近日为其 Skill Creator 工具推出了全新的评测框架。自去年 10 月以来,他们观察到大多数技能创建者是业务专家而非工程师。他们熟悉自身工作流程,但缺乏有效工具来评估技能是否真正有效、是否能在正确时机触发,以及修改后是否确实带来了改进。 新的评测框架旨在解决这一问题,它将软件开发中的严谨性——包括测试、基准测试和迭代改进——引入…

    2026年3月6日
    18800
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    18500
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    27700
  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    21200
  • AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距

    关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…

    10小时前
    2900