性能对比
-
DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍
深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
-
Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑
XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…
-
Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡
XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…
-
Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话
谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …
-
MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减
Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…
-
GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板
智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…
-
腾讯混元turbos新版实测:Agent能力暴跌25.7%,2元成本颠覆行业性价比格局
腾讯近期发布了混元turbos系列的最新迭代版本 hunyuan-turbos-20250926。官方介绍称,新版本在预训练底座数据质量和后训练(post-train)策略上实现突破,旨在持续提升Agent、英语小语种、指令遵循、代码及理科能力。数据显示,其理科类能力平均提升10.9%(数学提升13.8%,逻辑推理提升12.3%),文科类写作、指令遵循、知识…