腾讯混元turbos新版实测：Agent能力暴跌25.7%，2元成本颠覆行业性价比格局

2025年10月17日下午12:19 • 大模型评测 • 阅读 538

腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称，新版本在预训练底座数据质量和后训练（post-train）策略上实现突破，旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示，其理科类能力平均提升10.9%（数学提升13.8%，逻辑推理提升12.3%），文科类写作、指令遵循、知识问答及Agent领域提升约2%。

然而，实测结果却出现意外：新版本整体准确率从69.9%下降至68.7%，下跌1.2个百分点，排名从第3位滑落至第12位。但更引人注目的是，该版本凭借2元/千次的极致成本，在性价比维度上对豆包、智谱等竞品形成了“降维打击”。为何准确率下跌反而更具竞争力？我们对 hunyuan-turbos-20250926 进行了全面评测。

hunyuan-turbos-20250926 版本表现概览：

测试题数：约1.5万
【总分】准确率：68.7%
平均耗时（每次调用）：23秒
平均消耗token（每次调用）：1150
花费/千次调用（元）：2.0

1、新旧版本对比

首先与上个版本（hunyuan-turbos-20250716）进行对比：

腾讯混元turbos新版实测：Agent能力暴跌25.7%，2元成本颠覆行业性价比格局

整体准确率意外下滑：新版本准确率从69.9%降至68.7%，下跌1.2个百分点，排名从第3位大幅下滑至第12位。这与官方强调的“全面提升”形成明显反差。
理科能力大幅提升：“推理与数学计算”从53.2%跃升至64.2%，提升11.0个百分点，与官方宣称的“数学能力提升13.8%”基本吻合。“教育”领域也从49.9%提升至55.2%（+5.3%）。
核心领域出现倒退：多个关键领域出现下滑。其中“Agent与工具调用”从74.0%暴跌至48.3%，下降25.7个百分点，是所有领域中最大的退步，与官方宣称的“Agent领域提升2%”完全相反。“医疗与心理健康”从89.5%降至86.1%（-3.4%），“金融”从83.9%降至80.1%（-3.8%），均为高分领域的显著退步。
语言能力显著增强：“语言与指令遵从”从63.4%提升至71.7%，增幅达8.3个百分点。
速度与成本双优化：新版本平均耗时从27秒缩短至23秒，提升约14.8%；平均token消耗从1321降至1150，减少约12.9%；每千次调用费用从2.3元降至2.0元，成本下降约13%。

2、对比其他模型

准确率下滑、排名跌出前十，hunyuan-turbos-20250926 为何仍敢叫板豆包、智谱？答案在于其极致的成本控制。我们选取了18个具有代表性的模型进行横向对比分析：

同档位对比

同分段内成本最低：在68.7%准确率档位，hunyuan-turbos-20250926（2元）与智谱GLM-4.6（37.6元）、阿里qwen3-max-preview（17.5元）分数相同，但成本仅为对手的5.3%和11.4%，具备18.8倍和8.75倍的价格优势。
碾压级性价比：与准确率更高的竞品相比，其价格优势更为惊人。相比准确率高5.5个百分点的榜首doubao-seed-1-6-thinking-250715（74.2%，15.6元），其成本仅为其12.8%；相比准确率高2.3个百分点的DeepSeek-V3.2-Exp-Think（71.0%，6.1元），成本也低了67%。
速度与成本双杀：hunyuan-turbos-20250926 的23秒响应时间处于顶尖水平，仅慢于Doubao-1.5-pro-32k-250115（11秒）。在同档位68.7%准确率模型中，其速度远快于GLM-4.6和qwen3-max-preview（均为59秒），实现了速度与成本的双重优势。

新模型间对比

新模型中的性价比之王：在标注为“(new)”的最新发布模型中，hunyuan-turbos-20250926 以2元成本位列新模型成本排行第2位（仅次于DeepSeek-V3.2-Exp的1.9元），但其响应速度（23秒）远超后者（201秒），综合性价比更优。

开源VS闭源对比

闭源模型打出开源价格：hunyuan-turbos-20250926 的2元成本已逼近甚至低于部分开源模型，例如略高于DeepSeek-V3.2-Exp（1.9元），但低于qwen3-235b-a22b-instruct-2507（7.2元）。
闭源的速度优势：在价格与开源竞争的同时，hunyuan-turbos-20250926 保持了闭源商用模型的速度优势。其23秒的响应时间远快于DeepSeek-V3.2-Exp（201秒）、DeepSeek-V3.1（27秒）和qwen3-235b-a22b-instruct-2507（44秒），展现出强大的工程优化能力。
全球AI大模型API限速汇总：你被Rate limit了吗？
开源大模型不同供应商价格对比：DeepSeek-V3.1 / Qwen3 / kimi-k2…
Qwen3-Max-Preview实测：非思考模型新王者诞生
LLM文本摘要评测实战指南
阿里qwen3-next-80b-a3b-instruct实测
姚顺雨成名作“智能体评测集τ-bench”上手指南
DeepSeek-V3.2-Exp非思考模式实测
DeepSeek-V3.2-Exp思考模式实测：开源模型王者
深度拆解：为什么通用 Agent 的下一站是 Agentic Browser？
每月AI大模型更新速递（25年9月）
每周AI大模型更新速递10.1~10.12
大模型智能体评测综述【Benchmarks解读】

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14715

腾讯混元turbos新版实测：Agent能力暴跌25.7%，2元成本颠覆行业性价比格局

1、新旧版本对比

2、对比其他模型

相关推荐

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

OpenAI重磅研究：推理越强的AI，越管不住自己的“脑子”！思维链可控性测试惊现0.1%成功率

小米开源MiMo-V2-Flash实测：零成本大模型在长上下文与推理效率间的新平衡

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命