腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识问答及Agent领域提升约2%。

然而,实测结果却出现意外:新版本整体准确率从69.9%下降至68.7%,下跌1.2个百分点,排名从第3位滑落至第12位。但更引人注目的是,该版本凭借2元/千次的极致成本,在性价比维度上对豆包、智谱等竞品形成了“降维打击”。为何准确率下跌反而更具竞争力?我们对 hunyuan-turbos-20250926 进行了全面评测。

hunyuan-turbos-20250926 版本表现概览:

  • 测试题数:约1.5万
  • 【总分】准确率:68.7%
  • 平均耗时(每次调用):23秒
  • 平均消耗token(每次调用):1150
  • 花费/千次调用(元):2.0

1、新旧版本对比

首先与上个版本(hunyuan-turbos-20250716)进行对比:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局
腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

  • 整体准确率意外下滑:新版本准确率从69.9%降至68.7%,下跌1.2个百分点,排名从第3位大幅下滑至第12位。这与官方强调的“全面提升”形成明显反差。
  • 理科能力大幅提升:“推理与数学计算”从53.2%跃升至64.2%,提升11.0个百分点,与官方宣称的“数学能力提升13.8%”基本吻合。“教育”领域也从49.9%提升至55.2%(+5.3%)。
  • 核心领域出现倒退:多个关键领域出现下滑。其中“Agent与工具调用”从74.0%暴跌至48.3%,下降25.7个百分点,是所有领域中最大的退步,与官方宣称的“Agent领域提升2%”完全相反。“医疗与心理健康”从89.5%降至86.1%(-3.4%),“金融”从83.9%降至80.1%(-3.8%),均为高分领域的显著退步。
  • 语言能力显著增强:“语言与指令遵从”从63.4%提升至71.7%,增幅达8.3个百分点。
  • 速度与成本双优化:新版本平均耗时从27秒缩短至23秒,提升约14.8%;平均token消耗从1321降至1150,减少约12.9%;每千次调用费用从2.3元降至2.0元,成本下降约13%。

2、对比其他模型

准确率下滑、排名跌出前十,hunyuan-turbos-20250926 为何仍敢叫板豆包、智谱?答案在于其极致的成本控制。我们选取了18个具有代表性的模型进行横向对比分析:

腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局

同档位对比

  • 同分段内成本最低:在68.7%准确率档位,hunyuan-turbos-20250926(2元)与智谱GLM-4.6(37.6元)、阿里qwen3-max-preview(17.5元)分数相同,但成本仅为对手的5.3%和11.4%,具备18.8倍和8.75倍的价格优势。
  • 碾压级性价比:与准确率更高的竞品相比,其价格优势更为惊人。相比准确率高5.5个百分点的榜首doubao-seed-1-6-thinking-250715(74.2%,15.6元),其成本仅为其12.8%;相比准确率高2.3个百分点的DeepSeek-V3.2-Exp-Think(71.0%,6.1元),成本也低了67%。
  • 速度与成本双杀hunyuan-turbos-20250926 的23秒响应时间处于顶尖水平,仅慢于Doubao-1.5-pro-32k-250115(11秒)。在同档位68.7%准确率模型中,其速度远快于GLM-4.6qwen3-max-preview(均为59秒),实现了速度与成本的双重优势。

新模型间对比

  • 新模型中的性价比之王:在标注为“(new)”的最新发布模型中,hunyuan-turbos-20250926 以2元成本位列新模型成本排行第2位(仅次于DeepSeek-V3.2-Exp的1.9元),但其响应速度(23秒)远超后者(201秒),综合性价比更优。

开源VS闭源对比


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14715

(0)
上一篇 2025年10月17日 下午12:19
下一篇 2025年10月18日 上午5:17

相关推荐