腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。

hunyuan-2.0-instruct-20251111版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):66.8%
  • 平均耗时(每次调用):11s
  • 平均token(每次调用消耗的token):899
  • 平均花费(每千次调用的人民币花费):1.5

1、新旧版本对比

首先对比上个版本(hunyuan-turbos-20250926),数据如下:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围
腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格是“1元/M token”

  • 整体性能小幅提升:新版本准确率从65.9%提升至66.8%,提升了0.9个百分点,排名从第27位上升至第23位。
  • 响应速度大幅提升:每次调用的平均耗时从23s缩短至11s,速度提升约109%,是本次升级中改进幅度最大的指标。
  • Token消耗明显减少:平均消耗token从1150降至899,减少约22%,效率优化明显。
  • 成本下降显著:每千次调用的费用从2元降至1.5元,下降25%。
  • 部分能力提升明显:从细分领域来看,“agent与工具调用”能力从48.3%提升至64.5%,增幅达16.2个百分点。“教育”领域从55.2%提升至58.8%(+3.6%),“推理与数学计算”从64.9%提升至67.1%(+2.2%)。
  • 部分能力出现回落:值得注意的是,“语言与指令遵从”能力从71.7%下降至57.8%,降幅达13.9个百分点,下滑明显。“金融”领域从80.1%降至76.4%(-3.7%),“医疗与心理健康”从86.1%降至84.3%(-1.8%),“法律与行政公务”从82.3%降至81.7%(-0.6%)。
  • 能力结构调整:综合来看,新版本在速度、成本、工具调用等方面有明显改进,但在语言理解和部分专业领域有所牺牲,呈现出明显的能力结构调整。

2、对比其他新模型

在当前主流大模型竞争格局中,hunyuan-2.0-instruct-20251111表现如何?我们选择了具有代表性的模型进行横向对比分析:

腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

*数据来源:ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比:

  • 低成本档位竞争激烈:在1-2元/千次的成本档位中,hunyuan-2.0-instruct-20251111(66.8%,1.5元)面临较大竞争压力。qwen-plus-2025-07-28(67.6%,1.8元)以略高成本实现了更高准确率,qwen3-235b-a22b-instruct-2507(67.2%,7.2元)准确率也略高于hunyuan-2.0-instruct-20251111。
  • 对比同厂商旧版本:相比hunyuan-turbos-20250926(65.9%,2元),新版本在总分准确率和成本上均有改善。
  • 速度优势突出:11s的响应时间在同档位模型中表现优异,明显快于qwen-plus-2025-07-28(73s)和qwen3-235b-a22b-instruct-2507(44s)。

新模型竞争格局:

  • 处于中游位置:hunyuan-2.0-instruct-20251111以66.8%的准确率位居第23位,与qwen3-max-2025-09-23(66.8%)持平,略高于DeepSeek-V3.2-Exp(66.3%)。
  • 与头部模型差距:相比榜首gemini-3-pro-preview(72.5%),差距为5.7个百分点;相比同厂商的hunyuan-2.0-thinking-20251109(71.9%),差距为5.1个百分点。
  • 定位差异化:作为非推理模型,hunyuan-2.0-instruct-20251111在速度(11s vs 28s)和成本(1.5元 vs 9.5元)方面相比hunyuan-2.0-thinking-20251109有明显优势,适合对响应速度要求高、对复杂推理需求较低的场景。

开源VS闭源对比:

  • 与开源模型对比:hunyuan-2.0-instruct-20251111(66.8%,1.5元)相比开源模型DeepSeek-V3.2-Exp(66.3%,1.9元),准确率略高且成本更低。
  • 速度对比:hunyuan-2.0-instruct-20251111的11s响应时间快于DeepSeek-V3.2-Exp(201s)和DeepSeek-V3.2(75s),在用户体验方面有优势。
  • 综合来看:hunyuan-2.0-instruct-20251111在低成本非推理模型中具备一定竞争力,速度和成本是其主要优势,但在语言理解等能力上的回落值得关注。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14573

(0)
上一篇 2025年12月7日 下午12:20
下一篇 2025年12月7日 下午1:10

相关推荐

  • Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

    【核心摘要】 全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。 当今的多模态大模型(如 GPT-5.2, Gemini-3 Pro)在各类视觉问答榜单上屡破纪录。然而,若希望将…

    2026年3月4日
    39900
  • DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破

    深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…

    2025年12月4日
    33500
  • 通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

    核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…

    2026年2月26日
    56000
  • 阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点

    阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…

    2025年12月25日
    42500
  • 向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化

    将多模态数据纳入到RAG(检索增强生成)乃至Agent框架,是目前大语言模型(LLM)应用领域最受关注的方向之一。针对多模态数据最自然的召回方式,便是向量检索。 然而,我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程,其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化,遇到向量检索需求便不假思索地选择HNSW算法…

    2025年12月25日
    33400