腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识问答及Agent领域提升约2%。

然而,实测结果却出现意外:新版本整体准确率从69.9%下降至68.7%,下跌1.2个百分点,排名从第3位滑落至第12位。但更引人注目的是,该版本凭借2元/千次的极致成本,在性价比维度上对豆包、智谱等竞品形成了“降维打击”。为何准确率下跌反而更具竞争力?我们对 hunyuan-turbos-20250926 进行了全面评测。

hunyuan-turbos-20250926 版本表现概览:

  • 测试题数:约1.5万
  • 【总分】准确率:68.7%
  • 平均耗时(每次调用):23秒
  • 平均消耗token(每次调用):1150
  • 花费/千次调用(元):2.0

1、新旧版本对比

首先与上个版本(hunyuan-turbos-20250716)进行对比:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局
腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

  • 整体准确率意外下滑:新版本准确率从69.9%降至68.7%,下跌1.2个百分点,排名从第3位大幅下滑至第12位。这与官方强调的“全面提升”形成明显反差。
  • 理科能力大幅提升:“推理与数学计算”从53.2%跃升至64.2%,提升11.0个百分点,与官方宣称的“数学能力提升13.8%”基本吻合。“教育”领域也从49.9%提升至55.2%(+5.3%)。
  • 核心领域出现倒退:多个关键领域出现下滑。其中“Agent与工具调用”从74.0%暴跌至48.3%,下降25.7个百分点,是所有领域中最大的退步,与官方宣称的“Agent领域提升2%”完全相反。“医疗与心理健康”从89.5%降至86.1%(-3.4%),“金融”从83.9%降至80.1%(-3.8%),均为高分领域的显著退步。
  • 语言能力显著增强:“语言与指令遵从”从63.4%提升至71.7%,增幅达8.3个百分点。
  • 速度与成本双优化:新版本平均耗时从27秒缩短至23秒,提升约14.8%;平均token消耗从1321降至1150,减少约12.9%;每千次调用费用从2.3元降至2.0元,成本下降约13%。

2、对比其他模型

准确率下滑、排名跌出前十,hunyuan-turbos-20250926 为何仍敢叫板豆包、智谱?答案在于其极致的成本控制。我们选取了18个具有代表性的模型进行横向对比分析:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

同档位对比

  • 同分段内成本最低:在68.7%准确率档位,hunyuan-turbos-20250926(2元)与智谱GLM-4.6(37.6元)、阿里qwen3-max-preview(17.5元)分数相同,但成本仅为对手的5.3%和11.4%,具备18.8倍和8.75倍的价格优势。
  • 碾压级性价比:与准确率更高的竞品相比,其价格优势更为惊人。相比准确率高5.5个百分点的榜首doubao-seed-1-6-thinking-250715(74.2%,15.6元),其成本仅为其12.8%;相比准确率高2.3个百分点的DeepSeek-V3.2-Exp-Think(71.0%,6.1元),成本也低了67%。
  • 速度与成本双杀hunyuan-turbos-20250926 的23秒响应时间处于顶尖水平,仅慢于Doubao-1.5-pro-32k-250115(11秒)。在同档位68.7%准确率模型中,其速度远快于GLM-4.6qwen3-max-preview(均为59秒),实现了速度与成本的双重优势。

新模型间对比

  • 新模型中的性价比之王:在标注为“(new)”的最新发布模型中,hunyuan-turbos-20250926 以2元成本位列新模型成本排行第2位(仅次于DeepSeek-V3.2-Exp的1.9元),但其响应速度(23秒)远超后者(201秒),综合性价比更优。

开源VS闭源对比


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14715

(0)
上一篇 2025年10月17日 下午12:19
下一篇 2025年10月18日 上午5:17

相关推荐

  • 阿里Qwen3.5-27B实测:270亿参数密集模型杀入前十,成本骤降59%!

    阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后,于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型,其全部270亿参数在每次推理时均被激活,未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构,以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层,支持最高262K至1M的上下文窗口,并…

    2026年2月27日
    2.0K00
  • T2R-Bench发布:业内首个由表格生成报告工业基准

    论文标题: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables 收录会议: EMNLP 2025 Main Conference 论文链接:https://www.arxiv.org/pdf/2508.19813 Huggi…

    2025年10月16日
    31700
  • 大模型评测框架全景解析:如何选择适合你的测试工具?

    在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…

    2025年11月14日
    58400
  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    35200
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    1.8K00