成本分析
-
阿里Qwen3.5-27B实测:270亿参数密集模型杀入前十,成本骤降59%!
阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后,于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型,其全部270亿参数在每次推理时均被激活,未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构,以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层,支持最高262K至1M的上下文窗口,并…
-
Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。 我们对这两个版本进行了全面的对比评测,测试其…
-
阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%
阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …
-
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…
-
MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测
MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…
-
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现:* 测试题数:约1.5万* 总分(准确率):64.3%* 平均耗时(每次调…
-
GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用
OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…
-
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…
-
DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍
深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
