成本分析 - 鲸林向海

阿里Qwen3.5-27B实测：270亿参数密集模型杀入前十，成本骤降59%！

阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后，于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型，其全部270亿参数在每次推理时均被激活，未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构，以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层，支持最高262K至1M的上下文窗口，并…

2026年2月27日

2.0K000

AI产业动态

Claude Opus 4.6实测：准确率跃升5.6%，成本骤降34%，自适应思考机制显威

Anthropic发布了Claude Opus 4.6新版本，官方定位为“最智能的模型”，主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本，新版本在架构上进行了多项升级，包括首次在Opus级别支持100万token上下文窗口、引入自适应思考（adaptive thinking）机制等。我们对这两个版本进行了全面的对比评测，测试其…

2026年2月10日

1.1K000

大模型评测

阿里Qwen3 Max Preview Think实测：思维链模式带来1.7%准确率提升，代价是成本暴涨396%

阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本，这是在Qwen3-Max-Preview基础上引入思维链（Thinking）模式的升级版本。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现：* 测试题数：约1.5万* …

2025年12月30日

448002

大模型评测

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点阿里近期发布了Qwen-Plus-Think-2025-12-01新版本，相比此前的Qwen-Plus-Think-2025-07-28版本，在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本…

2025年12月25日

425000

大模型评测

MiniMax-M2.1实测：性能提升4%但响应时间翻倍，成本增加21.6%的深度评测

MiniMax新发布了M2.1版本，相比此前的M2版本，在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现：* 测试题数：约1.5万* 总分（准确率）：63.6%* 平均耗时（每次调用）：111s* 平均token（每次调用消耗的token）…

2025年12月24日

2.2K000

大模型评测

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本，作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium（思考模式）与上一版本GPT-5.1-Medium进行了全面对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现：* 测试题数：约1.5万* 总分（准确率）：64.3%* 平均耗时（每次调…

2025年12月17日

420000

大模型评测

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

OpenAI近期发布了GPT-5.2新版本（默认非思考模式），相比此前的GPT-5.1非思考版本，在响应速度上实现了革命性突破，但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现：* 测试题数：约1.5万* 总分（准确率）：56.9%* 平均耗时（…

2025年12月13日

403001

大模型评测

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和…

2025年12月6日

626000

大模型评测

DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

深度求索近期发布了DeepSeek-V3.2版本，除了备受关注的思考模式外，其非思考模式（下文中的DeepSeek-V3.2均指非思考模式）同样值得关注。我们对新旧两个版本（DeepSeek-V3.2、DeepSeek-V3.2-Exp）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…

2025年12月5日

545000

大模型评测

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

OpenAI近期发布了新版本GPT-5.1，其中GPT-5.1-high作为高性能思考模式（thinking）的旗舰产品，主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”，可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

2025年11月27日

344000