腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-instruct-20251111版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):66.8%
  • 平均耗时(每次调用):11s
  • 平均token(每次调用消耗的token):899
  • 平均花费(每千次调用的人民币花费):1.5

1、新旧版本对比

首先对比上个版本(hunyuan-turbos-20250926),数据如下:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围
腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能小幅提升:新版本准确率从65.9%提升至66.8%,提升了0.9个百分点,排名从第27位上升至第23位。
  • 响应速度大幅提升:每次调用的平均耗时从23s缩短至11s,速度提升约109%,是本次升级中改进幅度最大的指标。
  • Token消耗明显减少:平均消耗token从1150降至899,减少约22%,效率优化明显。
  • 成本下降显著:每千次调用的费用从2元降至1.5元,下降25%。
  • 部分能力提升明显:从细分领域来看,“agent与工具调用”能力从48.3%提升至64.5%,增幅达16.2个百分点。“教育”领域从55.2%提升至58.8%(+3.6%),“推理与数学计算”从64.9%提升至67.1%(+2.2%)。
  • 部分能力出现回落:值得注意的是,“语言与指令遵从”能力从71.7%下降至57.8%,降幅达13.9个百分点,下滑明显。“金融”领域从80.1%降至76.4%(-3.7%),“医疗与心理健康”从86.1%降至84.3%(-1.8%),“法律与行政公务”从82.3%降至81.7%(-0.6%)。
  • 能力结构调整:综合来看,新版本在速度、成本、工具调用等方面有明显改进,但在语言理解和部分专业领域有所牺牲,呈现出明显的能力结构调整。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-instruct-20251111表现如何?我们选择了具有代表性的模型进行横向对比分析:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:

  • 低成本档位竞争激烈:在1-2元/千次的成本档位中,hunyuan-2.0-instruct-20251111(66.8%,1.5元)面临较大竞争压力。qwen-plus-2025-07-28(67.6%,1.8元)以略高成本实现了更高准确率,qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率也略高于hunyuan-2.0-instruct-20251111。
  • 对比同厂商旧版本:相比hunyuan-turbos-20250926(65.9%,2元),新版本在总分准确率和成本上均有改善。
  • 速度优势突出:11s的响应时间在同档位模型中表现优异,明显快于qwen-plus-2025-07-28(73s)和qwen3-235b-a22b-instruct-2507(44s)。

新模型竞争格局:

  • 处于中游位置:hunyuan-2.0-instruct-20251111以66.8%的准确率位居第23位,与qwen3-max-2025-09-23(66.8%)持平,略高于DeepSeek-V3.2-Exp(66.3%)。
  • 与头部模型差距:相比榜首gemini-3-pro-preview(72.5%),差距为5.7个百分点;相比同厂商的hunyuan-2.0-thinking-20251109(71.9%),差距为5.1个百分点。
  • 定位差异化:作为非推理模型,hunyuan-2.0-instruct-20251111在速度(11s vs 28s)和成本(1.5元 vs 9.5元)方面相比hunyuan-2.0-thinking-20251109有明显优势,适合对响应速度要求高、对复杂推理需求较低的场景。

开源VS闭源对比:

  • 与开源模型对比:hunyuan-2.0-instruct-20251111(66.8%,1.5元)相比开源模型DeepSeek-V3.2-Exp(66.3%,1.9元),准确率略高且成本更低。
  • 速度对比:hunyuan-2.0-instruct-20251111的11s响应时间快于DeepSeek-V3.2-Exp(201s)和DeepSeek-V3.2(75s),在用户体验方面有优势。
  • 综合来看:hunyuan-2.0-instruct-20251111在低成本非推理模型中具备一定竞争力,速度和成本是其主要优势,但在语言理解等能力上的回落值得关注。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14573

(0)
上一篇 2025年12月7日 下午12:20
下一篇 2025年12月7日 下午1:10

相关推荐

  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    4200
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    49900
  • ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

    百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…

    2025年11月28日
    7400
  • 无需微调,Poetiq元系统让GPT-5.2推理准确率飙升至75%,创ARC-AGI-2新纪录

    什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。 在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。 近日,Poetiq 表示其使用 ARC-AGI-2 测试…

    2025年12月25日
    8800
  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    39800