成本分析
-
阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%
阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …
-
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…
-
MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测
MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…
-
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现:* 测试题数:约1.5万* 总分(准确率):64.3%* 平均耗时(每次调…
-
GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用
OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…
-
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…
-
DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍
深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
-
Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡
XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…
-
Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话
谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …