腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。
hunyuan-2.0-instruct-20251111版本表现:
- 测试题数:约1.5万
- 总分(准确率):66.8%
- 平均耗时(每次调用):11s
- 平均token(每次调用消耗的token):899
- 平均花费(每千次调用的人民币花费):1.5
1、新旧版本对比
首先对比上个版本(hunyuan-turbos-20250926),数据如下:


数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”
- 整体性能小幅提升:新版本准确率从65.9%提升至66.8%,提升了0.9个百分点,排名从第27位上升至第23位。
- 响应速度大幅提升:每次调用的平均耗时从23s缩短至11s,速度提升约109%,是本次升级中改进幅度最大的指标。
- Token消耗明显减少:平均消耗token从1150降至899,减少约22%,效率优化明显。
- 成本下降显著:每千次调用的费用从2元降至1.5元,下降25%。
- 部分能力提升明显:从细分领域来看,“agent与工具调用”能力从48.3%提升至64.5%,增幅达16.2个百分点。“教育”领域从55.2%提升至58.8%(+3.6%),“推理与数学计算”从64.9%提升至67.1%(+2.2%)。
- 部分能力出现回落:值得注意的是,“语言与指令遵从”能力从71.7%下降至57.8%,降幅达13.9个百分点,下滑明显。“金融”领域从80.1%降至76.4%(-3.7%),“医疗与心理健康”从86.1%降至84.3%(-1.8%),“法律与行政公务”从82.3%降至81.7%(-0.6%)。
- 能力结构调整:综合来看,新版本在速度、成本、工具调用等方面有明显改进,但在语言理解和部分专业领域有所牺牲,呈现出明显的能力结构调整。
2、对比其他新模型
在当前主流大模型竞争格局中,hunyuan-2.0-instruct-20251111表现如何?我们选择了具有代表性的模型进行横向对比分析:

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比:
- 低成本档位竞争激烈:在1-2元/千次的成本档位中,hunyuan-2.0-instruct-20251111(66.8%,1.5元)面临较大竞争压力。qwen-plus-2025-07-28(67.6%,1.8元)以略高成本实现了更高准确率,qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率也略高于hunyuan-2.0-instruct-20251111。
- 对比同厂商旧版本:相比hunyuan-turbos-20250926(65.9%,2元),新版本在总分准确率和成本上均有改善。
- 速度优势突出:11s的响应时间在同档位模型中表现优异,明显快于qwen-plus-2025-07-28(73s)和qwen3-235b-a22b-instruct-2507(44s)。
新模型竞争格局:
- 处于中游位置:hunyuan-2.0-instruct-20251111以66.8%的准确率位居第23位,与qwen3-max-2025-09-23(66.8%)持平,略高于DeepSeek-V3.2-Exp(66.3%)。
- 与头部模型差距:相比榜首gemini-3-pro-preview(72.5%),差距为5.7个百分点;相比同厂商的hunyuan-2.0-thinking-20251109(71.9%),差距为5.1个百分点。
- 定位差异化:作为非推理模型,hunyuan-2.0-instruct-20251111在速度(11s vs 28s)和成本(1.5元 vs 9.5元)方面相比hunyuan-2.0-thinking-20251109有明显优势,适合对响应速度要求高、对复杂推理需求较低的场景。
开源VS闭源对比:
- 与开源模型对比:hunyuan-2.0-instruct-20251111(66.8%,1.5元)相比开源模型DeepSeek-V3.2-Exp(66.3%,1.9元),准确率略高且成本更低。
- 速度对比:hunyuan-2.0-instruct-20251111的11s响应时间快于DeepSeek-V3.2-Exp(201s)和DeepSeek-V3.2(75s),在用户体验方面有优势。
- 综合来看:hunyuan-2.0-instruct-20251111在低成本非推理模型中具备一定竞争力,速度和成本是其主要优势,但在语言理解等能力上的回落值得关注。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14573
