大模型评测
-
腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%
腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…
-
DeepSeek-V3.2非思考模式深度评测:速度提升63%但准确率下滑,开源模型成本优势下的性能取舍
深度求索近期发布了DeepSeek-V3.2版本,除了备受关注的思考模式外,其非思考模式(下文中的DeepSeek-V3.2均指非思考模式)同样值得关注。我们对新旧两个版本(DeepSeek-V3.2、DeepSeek-V3.2-Exp)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…
-
DeepSeek-V3.2实测:稀疏注意力机制DSA如何实现推理效率与性能的协同突破
深度求索近期发布了DeepSeek-V3.2版本,这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式(Think),其思考模式下的DeepSeek-V3.2(下面简称DeepSeek-V3.2-Think)在多个维度实…
-
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
-
Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑
XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…
-
Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡
XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…
-
Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话
谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …
-
实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏
谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…
-
GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注
OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…