腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

2025年12月7日下午1:10 • 大模型评测 • 阅读 871

腾讯混元新发布了HY 2.0系列模型，除了推理版本HY 2.0 Think外，同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-instruct-20251111版本表现：

测试题数：约1.5万
总分（准确率）：66.8%
平均耗时（每次调用）：11s
平均token（每次调用消耗的token）：899
平均花费（每千次调用的人民币花费）：1.5

1、新旧版本对比

首先对比上个版本（hunyuan-turbos-20250926），数据如下：

腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

整体性能小幅提升：新版本准确率从65.9%提升至66.8%，提升了0.9个百分点，排名从第27位上升至第23位。
响应速度大幅提升：每次调用的平均耗时从23s缩短至11s，速度提升约109%，是本次升级中改进幅度最大的指标。
Token消耗明显减少：平均消耗token从1150降至899，减少约22%，效率优化明显。
成本下降显著：每千次调用的费用从2元降至1.5元，下降25%。
部分能力提升明显：从细分领域来看，“agent与工具调用”能力从48.3%提升至64.5%，增幅达16.2个百分点。“教育”领域从55.2%提升至58.8%（+3.6%），“推理与数学计算”从64.9%提升至67.1%（+2.2%）。
部分能力出现回落：值得注意的是，“语言与指令遵从”能力从71.7%下降至57.8%，降幅达13.9个百分点，下滑明显。“金融”领域从80.1%降至76.4%（-3.7%），“医疗与心理健康”从86.1%降至84.3%（-1.8%），“法律与行政公务”从82.3%降至81.7%（-0.6%）。
能力结构调整：综合来看，新版本在速度、成本、工具调用等方面有明显改进，但在语言理解和部分专业领域有所牺牲，呈现出明显的能力结构调整。

2、对比其他新模型

在当前主流大模型竞争格局中，hunyuan-2.0-instruct-20251111表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比：

低成本档位竞争激烈：在1-2元/千次的成本档位中，hunyuan-2.0-instruct-20251111（66.8%，1.5元）面临较大竞争压力。qwen-plus-2025-07-28（67.6%，1.8元）以略高成本实现了更高准确率，qwen3-235b-a22b-instruct-2507（67.2%，7.2元）准确率也略高于hunyuan-2.0-instruct-20251111。
对比同厂商旧版本：相比hunyuan-turbos-20250926（65.9%，2元），新版本在总分准确率和成本上均有改善。
速度优势突出：11s的响应时间在同档位模型中表现优异，明显快于qwen-plus-2025-07-28（73s）和qwen3-235b-a22b-instruct-2507（44s）。

新模型竞争格局：

处于中游位置：hunyuan-2.0-instruct-20251111以66.8%的准确率位居第23位，与qwen3-max-2025-09-23（66.8%）持平，略高于DeepSeek-V3.2-Exp（66.3%）。
与头部模型差距：相比榜首gemini-3-pro-preview（72.5%），差距为5.7个百分点；相比同厂商的hunyuan-2.0-thinking-20251109（71.9%），差距为5.1个百分点。
定位差异化：作为非推理模型，hunyuan-2.0-instruct-20251111在速度（11s vs 28s）和成本（1.5元 vs 9.5元）方面相比hunyuan-2.0-thinking-20251109有明显优势，适合对响应速度要求高、对复杂推理需求较低的场景。

开源VS闭源对比：

与开源模型对比：hunyuan-2.0-instruct-20251111（66.8%，1.5元）相比开源模型DeepSeek-V3.2-Exp（66.3%，1.9元），准确率略高且成本更低。
速度对比：hunyuan-2.0-instruct-20251111的11s响应时间快于DeepSeek-V3.2-Exp（201s）和DeepSeek-V3.2（75s），在用户体验方面有优势。
综合来看：hunyuan-2.0-instruct-20251111在低成本非推理模型中具备一定竞争力，速度和成本是其主要优势，但在语言理解等能力上的回落值得关注。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/14573

腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

1、新旧版本对比

2、对比其他新模型

相关推荐

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

向量检索评估体系大洗牌：IceBerg基准揭示HNSW并非最优，多模态RAG远未标准化