大模型评测

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

OpenAI近期发布了新版本GPT-5.1，其中GPT-5.1-high作为高性能思考模式（thinking）的旗舰产品，主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”，可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

2025年11月27日

191000

大模型评测

Grok-4-1-fast-reasoning评测：速度与成本的革命性优化，准确率与专业能力的权衡

XAI近期发布了Grok-4-1-fast模型，官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本，新版本在响应速度上实现了显著优化，但在准确率方面有所下降。我们对这两个版本在准确率、响…

2025年11月26日

287000

大模型评测

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

XAI近期发布的Grok-4-1-fast模型提供思考模式（reasoning）和非思考模式（non-reasoning）两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本，新版本在成本控制上实现了显著优化，但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…

2025年11月26日

206000

大模型评测

Gemini-3-pro登顶AI评测榜首：性能飞跃31%成本激增，终结豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本，官方称其在推理能力和多模态能力上达到最先进水平，在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现：* 测试题数：约1.5万* …

2025年11月25日

192000

大模型评测

实测Gemini 3 Pro：屠榜AI基准测试，一键生成网页应用与游戏

谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同，它在关键测试中领先幅度高达5-6个百分点。尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上，它取得了45.8%的准确率。该测试由全球近千名学者联合打造，包含3000道高难度题目。以…

2025年11月21日

159000

大模型评测

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

OpenAI近期发布了GPT-5.1系列新版本，其中GPT-5.1-medium作为思考模式（thinking）的代表产品，在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快，在复杂任务上思考更久”，并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等…

2025年11月21日

186000

大模型评测

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

OpenAI近期发布了GPT-5.1新版本，主打更自然的对话体验和情感共鸣能力。值得注意的是，官方此次并未公布传统基准测试结果，而是强调“优秀的人工智能不仅应该是聪明的，而且应该提供令人愉快的交谈”。我们对GPT-5.1（默认非思考模式）与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

2025年11月20日

184000

大模型评测

Gemini 3 Pro深度评测：多模态推理模型如何重塑AI生产力边界

昨晚，谷歌发布了Gemini 3 Pro，并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环，但对于一线用户而言，核心问题在于：它是否真正能提升生产力？我们设计了一系列体验场景，这些测试的共同点是：不追求理论分数，而是要求模型生成可直接运行的代码或可交付的成果。以下是具体的体验情况。场景1…

2025年11月19日

188000

大模型评测

Kimi-K2-Thinking实测：新一代Thinking Agent如何实现推理能力突破性增强？

月之暗面近期发布了Kimi-K2-Thinking模型，这是基于“模型即Agent”理念训练的新一代Thinking Agent，原生掌握“边思考，边使用工具”的能力。作为一款MoE架构模型（每次激活32B参数），我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

2025年11月18日

235000

大模型评测

大模型评测框架全景解析：如何选择适合你的测试工具？

在大模型技术快速迭代的今天，我们面临一个共同的挑战：如何客观、全面地评测一个模型的真实能力？这不仅关乎技术指标的高低，更涉及模型在实际应用中能否真正解决问题。大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营，各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是，评测正从单一维度的“跑分”走向多…

2025年11月14日

215000