腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识问答及Agent领域提升约2%。
然而,实测结果却出现意外:新版本整体准确率从69.9%下降至68.7%,下跌1.2个百分点,排名从第3位滑落至第12位。但更引人注目的是,该版本凭借2元/千次的极致成本,在性价比维度上对豆包、智谱等竞品形成了“降维打击”。为何准确率下跌反而更具竞争力?我们对 hunyuan-turbos-20250926 进行了全面评测。
hunyuan-turbos-20250926 版本表现概览:
- 测试题数:约1.5万
- 【总分】准确率:68.7%
- 平均耗时(每次调用):23秒
- 平均消耗token(每次调用):1150
- 花费/千次调用(元):2.0
1、新旧版本对比
首先与上个版本(hunyuan-turbos-20250716)进行对比:


- 整体准确率意外下滑:新版本准确率从69.9%降至68.7%,下跌1.2个百分点,排名从第3位大幅下滑至第12位。这与官方强调的“全面提升”形成明显反差。
- 理科能力大幅提升:“推理与数学计算”从53.2%跃升至64.2%,提升11.0个百分点,与官方宣称的“数学能力提升13.8%”基本吻合。“教育”领域也从49.9%提升至55.2%(+5.3%)。
- 核心领域出现倒退:多个关键领域出现下滑。其中“Agent与工具调用”从74.0%暴跌至48.3%,下降25.7个百分点,是所有领域中最大的退步,与官方宣称的“Agent领域提升2%”完全相反。“医疗与心理健康”从89.5%降至86.1%(-3.4%),“金融”从83.9%降至80.1%(-3.8%),均为高分领域的显著退步。
- 语言能力显著增强:“语言与指令遵从”从63.4%提升至71.7%,增幅达8.3个百分点。
- 速度与成本双优化:新版本平均耗时从27秒缩短至23秒,提升约14.8%;平均token消耗从1321降至1150,减少约12.9%;每千次调用费用从2.3元降至2.0元,成本下降约13%。
2、对比其他模型
准确率下滑、排名跌出前十,hunyuan-turbos-20250926 为何仍敢叫板豆包、智谱?答案在于其极致的成本控制。我们选取了18个具有代表性的模型进行横向对比分析:

同档位对比
- 同分段内成本最低:在68.7%准确率档位,
hunyuan-turbos-20250926(2元)与智谱GLM-4.6(37.6元)、阿里qwen3-max-preview(17.5元)分数相同,但成本仅为对手的5.3%和11.4%,具备18.8倍和8.75倍的价格优势。 - 碾压级性价比:与准确率更高的竞品相比,其价格优势更为惊人。相比准确率高5.5个百分点的榜首
doubao-seed-1-6-thinking-250715(74.2%,15.6元),其成本仅为其12.8%;相比准确率高2.3个百分点的DeepSeek-V3.2-Exp-Think(71.0%,6.1元),成本也低了67%。 - 速度与成本双杀:
hunyuan-turbos-20250926的23秒响应时间处于顶尖水平,仅慢于Doubao-1.5-pro-32k-250115(11秒)。在同档位68.7%准确率模型中,其速度远快于GLM-4.6和qwen3-max-preview(均为59秒),实现了速度与成本的双重优势。
新模型间对比
- 新模型中的性价比之王:在标注为“(new)”的最新发布模型中,
hunyuan-turbos-20250926以2元成本位列新模型成本排行第2位(仅次于DeepSeek-V3.2-Exp的1.9元),但其响应速度(23秒)远超后者(201秒),综合性价比更优。
开源VS闭源对比
- 闭源模型打出开源价格:
hunyuan-turbos-20250926的2元成本已逼近甚至低于部分开源模型,例如略高于DeepSeek-V3.2-Exp(1.9元),但低于qwen3-235b-a22b-instruct-2507(7.2元)。 -
闭源的速度优势:在价格与开源竞争的同时,
hunyuan-turbos-20250926保持了闭源商用模型的速度优势。其23秒的响应时间远快于DeepSeek-V3.2-Exp(201秒)、DeepSeek-V3.1(27秒)和qwen3-235b-a22b-instruct-2507(44秒),展现出强大的工程优化能力。 - 开源大模型不同供应商价格对比:DeepSeek-V3.1 / Qwen3 / kimi-k2…
- Qwen3-Max-Preview实测:非思考模型新王者诞生
- LLM文本摘要评测实战指南
- 阿里qwen3-next-80b-a3b-instruct实测
- 姚顺雨成名作“智能体评测集τ-bench”上手指南
- DeepSeek-V3.2-Exp非思考模式实测
- DeepSeek-V3.2-Exp思考模式实测:开源模型王者
- 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
- 每月AI大模型更新速递(25年9月)
- 每周AI大模型更新速递10.1~10.12
- 大模型智能体评测综述【Benchmarks解读】
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14715
