腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识问答及Agent领域提升约2%。

然而,实测结果却出现意外:新版本整体准确率从69.9%下降至68.7%,下跌1.2个百分点,排名从第3位滑落至第12位。但更引人注目的是,该版本凭借2元/千次的极致成本,在性价比维度上对豆包、智谱等竞品形成了“降维打击”。为何准确率下跌反而更具竞争力?我们对 hunyuan-turbos-20250926 进行了全面评测。

hunyuan-turbos-20250926 版本表现概览:

  • 测试题数:约1.5万
  • 【总分】准确率:68.7%
  • 平均耗时(每次调用):23秒
  • 平均消耗token(每次调用):1150
  • 花费/千次调用(元):2.0

1、新旧版本对比

首先与上个版本(hunyuan-turbos-20250716)进行对比:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局
腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

  • 整体准确率意外下滑:新版本准确率从69.9%降至68.7%,下跌1.2个百分点,排名从第3位大幅下滑至第12位。这与官方强调的“全面提升”形成明显反差。
  • 理科能力大幅提升:“推理与数学计算”从53.2%跃升至64.2%,提升11.0个百分点,与官方宣称的“数学能力提升13.8%”基本吻合。“教育”领域也从49.9%提升至55.2%(+5.3%)。
  • 核心领域出现倒退:多个关键领域出现下滑。其中“Agent与工具调用”从74.0%暴跌至48.3%,下降25.7个百分点,是所有领域中最大的退步,与官方宣称的“Agent领域提升2%”完全相反。“医疗与心理健康”从89.5%降至86.1%(-3.4%),“金融”从83.9%降至80.1%(-3.8%),均为高分领域的显著退步。
  • 语言能力显著增强:“语言与指令遵从”从63.4%提升至71.7%,增幅达8.3个百分点。
  • 速度与成本双优化:新版本平均耗时从27秒缩短至23秒,提升约14.8%;平均token消耗从1321降至1150,减少约12.9%;每千次调用费用从2.3元降至2.0元,成本下降约13%。

2、对比其他模型

准确率下滑、排名跌出前十,hunyuan-turbos-20250926 为何仍敢叫板豆包、智谱?答案在于其极致的成本控制。我们选取了18个具有代表性的模型进行横向对比分析:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

同档位对比

  • 同分段内成本最低:在68.7%准确率档位,hunyuan-turbos-20250926(2元)与智谱GLM-4.6(37.6元)、阿里qwen3-max-preview(17.5元)分数相同,但成本仅为对手的5.3%和11.4%,具备18.8倍和8.75倍的价格优势。
  • 碾压级性价比:与准确率更高的竞品相比,其价格优势更为惊人。相比准确率高5.5个百分点的榜首doubao-seed-1-6-thinking-250715(74.2%,15.6元),其成本仅为其12.8%;相比准确率高2.3个百分点的DeepSeek-V3.2-Exp-Think(71.0%,6.1元),成本也低了67%。
  • 速度与成本双杀hunyuan-turbos-20250926 的23秒响应时间处于顶尖水平,仅慢于Doubao-1.5-pro-32k-250115(11秒)。在同档位68.7%准确率模型中,其速度远快于GLM-4.6qwen3-max-preview(均为59秒),实现了速度与成本的双重优势。

新模型间对比

  • 新模型中的性价比之王:在标注为“(new)”的最新发布模型中,hunyuan-turbos-20250926 以2元成本位列新模型成本排行第2位(仅次于DeepSeek-V3.2-Exp的1.9元),但其响应速度(23秒)远超后者(201秒),综合性价比更优。

开源VS闭源对比


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14715

(0)
上一篇 2025年10月17日 下午12:19
下一篇 2025年10月18日 上午5:17

相关推荐

  • 腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

    腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…

    2025年12月6日
    7400
  • ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

    百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…

    2025年11月28日
    7400
  • VitaBench评测揭示AI智能体真实应用瓶颈:跨场景成功率仅30%,三大维度量化任务复杂性

    点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅;规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求,对当前的大模型智能体而言,却是一道难以逾越的门槛。 美团 LongCat 团队近日发布的 VitaBench(Versatile Interactive Tasks Benchmark)评测基准,给出了一组值得深思的数据:…

    2025年12月11日
    9000
  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    6400
  • LLM应用评测全指南:核心指标、基准测试与实践方法

    手动抽查提示词和输出,既慢又容易遗漏,长期来看难以持续。要确保 LLM 应用上线后稳定可靠,必须将评估过程自动化、流水线化。本文旨在全面解析 LLM 评测的各个方面,帮助你构建长期稳定运行的 LLM 应用。 对 LLM 进行评测,是确保其输出符合人类预期的关键环节,涉及伦理安全、准确性、相关性等多个维度。从工程实践角度看,LLM 的输出可被转化为一系列单元测…

    2025年10月22日
    7900