腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-instruct-20251111版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):66.8%
  • 平均耗时(每次调用):11s
  • 平均token(每次调用消耗的token):899
  • 平均花费(每千次调用的人民币花费):1.5

1、新旧版本对比

首先对比上个版本(hunyuan-turbos-20250926),数据如下:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围
腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能小幅提升:新版本准确率从65.9%提升至66.8%,提升了0.9个百分点,排名从第27位上升至第23位。
  • 响应速度大幅提升:每次调用的平均耗时从23s缩短至11s,速度提升约109%,是本次升级中改进幅度最大的指标。
  • Token消耗明显减少:平均消耗token从1150降至899,减少约22%,效率优化明显。
  • 成本下降显著:每千次调用的费用从2元降至1.5元,下降25%。
  • 部分能力提升明显:从细分领域来看,“agent与工具调用”能力从48.3%提升至64.5%,增幅达16.2个百分点。“教育”领域从55.2%提升至58.8%(+3.6%),“推理与数学计算”从64.9%提升至67.1%(+2.2%)。
  • 部分能力出现回落:值得注意的是,“语言与指令遵从”能力从71.7%下降至57.8%,降幅达13.9个百分点,下滑明显。“金融”领域从80.1%降至76.4%(-3.7%),“医疗与心理健康”从86.1%降至84.3%(-1.8%),“法律与行政公务”从82.3%降至81.7%(-0.6%)。
  • 能力结构调整:综合来看,新版本在速度、成本、工具调用等方面有明显改进,但在语言理解和部分专业领域有所牺牲,呈现出明显的能力结构调整。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-instruct-20251111表现如何?我们选择了具有代表性的模型进行横向对比分析:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:

  • 低成本档位竞争激烈:在1-2元/千次的成本档位中,hunyuan-2.0-instruct-20251111(66.8%,1.5元)面临较大竞争压力。qwen-plus-2025-07-28(67.6%,1.8元)以略高成本实现了更高准确率,qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率也略高于hunyuan-2.0-instruct-20251111。
  • 对比同厂商旧版本:相比hunyuan-turbos-20250926(65.9%,2元),新版本在总分准确率和成本上均有改善。
  • 速度优势突出:11s的响应时间在同档位模型中表现优异,明显快于qwen-plus-2025-07-28(73s)和qwen3-235b-a22b-instruct-2507(44s)。

新模型竞争格局:

  • 处于中游位置:hunyuan-2.0-instruct-20251111以66.8%的准确率位居第23位,与qwen3-max-2025-09-23(66.8%)持平,略高于DeepSeek-V3.2-Exp(66.3%)。
  • 与头部模型差距:相比榜首gemini-3-pro-preview(72.5%),差距为5.7个百分点;相比同厂商的hunyuan-2.0-thinking-20251109(71.9%),差距为5.1个百分点。
  • 定位差异化:作为非推理模型,hunyuan-2.0-instruct-20251111在速度(11s vs 28s)和成本(1.5元 vs 9.5元)方面相比hunyuan-2.0-thinking-20251109有明显优势,适合对响应速度要求高、对复杂推理需求较低的场景。

开源VS闭源对比:

  • 与开源模型对比:hunyuan-2.0-instruct-20251111(66.8%,1.5元)相比开源模型DeepSeek-V3.2-Exp(66.3%,1.9元),准确率略高且成本更低。
  • 速度对比:hunyuan-2.0-instruct-20251111的11s响应时间快于DeepSeek-V3.2-Exp(201s)和DeepSeek-V3.2(75s),在用户体验方面有优势。
  • 综合来看:hunyuan-2.0-instruct-20251111在低成本非推理模型中具备一定竞争力,速度和成本是其主要优势,但在语言理解等能力上的回落值得关注。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14573

(0)
上一篇 2025年12月7日 下午12:20
下一篇 2025年12月7日 下午1:10

相关推荐

  • RAG系统评测全攻略:五大核心指标与三种方法深度解析

    在构建RAG系统时,如何科学地评测系统效果是每个开发者都会面临的挑战。一个优秀的RAG系统不仅要能检索到相关信息,还要能准确理解用户意图并生成可靠的答案。本文将带你深入了解RAG系统的评测体系,从核心指标到实战落地,帮助你建立起完整的评测方法论。 一、为什么需要科学的评测体系? RAG系统本质上包含三个核心环节:理解用户问题、检索相关文档、生成最终答案。每个…

    2025年10月28日
    18200
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    18000
  • EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

    现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。 在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,…

    10小时前
    2500
  • 大模型编程应用测试-V3榜单:以工程应用标准量化模型能力

    #0 前言 笔者最早的编程测试V1采用传统的3 Pass测试法,25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先,该方法只观察模型在3轮自主修复中能取得的最终成绩,而实际Agent场景中,编程模型拥有几乎无限的轮次,只要能解决问题即可。其次,V2方法只提供运行结果反馈,不提供工具,而实际Agent可以借助Lint/Co…

    2026年1月3日
    17000
  • Kimi K2 ToolCall性能大揭秘:12家服务商评测结果出炉,开源测试集助力API一致性优化

    自 Kimi K2 发布以来,Kimi开放平台收到了大量关于模型 ToolCall(工具调用)可靠性的反馈。我们观察到,这些反馈背后的主要原因是,不同 API 服务商采用的 Kimi K2 推理方案在 ToolCall 性能上存在显著差异。 用户在选择 API 服务商时,往往优先考虑延迟和成本,却可能无意中忽略了更微妙却关键的模型精度差异。 因此,Kimi开…

    2025年10月16日
    28400