大模型评测
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
-
Grok-4-1-fast-reasoning评测:速度与成本的革命性优化,准确率与专业能力的权衡
XAI近期发布了Grok-4-1-fast模型,官方将其定义为“针对高性能智能体工具调用进行优化的前沿多模态模型”。该模型支持思考模式与非思考模式两种版本。本次评测聚焦于思考模式版本 grok-4-1-fast-reasoning。相比此前的 grok-4-0709 版本,新版本在响应速度上实现了显著优化,但在准确率方面有所下降。我们对这两个版本在准确率、响…
-
Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑
XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…
-
Gemini-3-pro登顶AI评测榜首:性能飞跃31%成本激增,终结豆包250天霸榜神话
谷歌近期发布了Gemini-3-pro-preview新版本,官方称其在推理能力和多模态能力上达到最先进水平,在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现:* 测试题数:约1.5万* …
-
实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏
谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…
-
GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注
OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…
-
GPT-5.1性能评测:准确率骤降11.3%,OpenAI的“情绪价值”战略代价几何?
OpenAI近期发布了GPT-5.1新版本,主打更自然的对话体验和情感共鸣能力。值得注意的是,官方此次并未公布传统基准测试结果,而是强调“优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈”。我们对GPT-5.1(默认非思考模式)与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…
-
Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界
昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…
-
Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?
月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…
-
大模型评测框架全景解析:如何选择适合你的测试工具?
在大模型技术快速迭代的今天,我们面临一个共同的挑战:如何客观、全面地评测一个模型的真实能力? 这不仅关乎技术指标的高低,更涉及模型在实际应用中能否真正解决问题。 大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营,各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是,评测正从单一维度的“跑分”走向多…
