大模型评测

GPT-5.2非思考模式实战评测：20+场景深度解析日常AI战斗力

OpenAI 最近上线了 GPT-5.2 版本，并默认启用了非思考模式。那么，在不开启深度思考功能的情况下，它的日常表现究竟如何？毕竟大多数用户使用 AI 都是随手提问、快速生成，并不会每次都等待它进行长时间的“深度思考”。为此，我准备了 20 多个实战场景，覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度，专门测试 GPT-5.2 的“日常战斗力”…

2025年12月14日

194000

大模型评测

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

OpenAI近期发布了GPT-5.2新版本（默认非思考模式），相比此前的GPT-5.1非思考版本，在响应速度上实现了革命性突破，但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现：* 测试题数：约1.5万* 总分（准确率）：56.9%* 平均耗时（…

2025年12月13日

245001

大模型评测

VitaBench评测揭示AI智能体真实应用瓶颈：跨场景成功率仅30%，三大维度量化任务复杂性

点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅；规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求，对当前的大模型智能体而言，却是一道难以逾越的门槛。美团 LongCat 团队近日发布的 VitaBench（Versatile Interactive Tasks Benchmark）评测基准，给出了一组值得深思的数据：…

2025年12月11日

194000

大模型评测

腾讯混元HY 2.0 Think深度评测：思考能力初显，但前端实现仍欠火候

混元大模型近期推出了HY 2.0 Think版本，其核心特性是深度思考能力。我们使用一套前端评测用例，对其代码生成能力进行了测试。常规用例评测这部分用例与之前的DeepSeek V3.2评测保持一致，旨在快速评估其整体水平。 (1) 复古打印机核心功能完整实现，打字效果富有节奏感。卡片拖拽功能正常，页面风格也体现了复古韵味。 (2) 双栏响应式Hero…

2025年12月10日

564000

大模型评测

DeepSeek V3.2 多维度能力评测：从基础交互到复杂游戏逻辑的10个实战用例分析

最近，DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估，我们设计了一系列按难度递进的实战测试用例。每个用例均包含：用例名称、技术标签、考察重点及完整的 Prompt。第一关：热身赛（基础能力验证） 1.1 复古打字机应用技术标签：前端交互 | 动画效果 | 拖拽功能考察重点：能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

2025年12月9日

234000

大模型评测

腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

腾讯混元新发布了HY 2.0系列模型，除了推理版本HY 2.0 Think外，同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 hunyuan-2.0-instruct-…

2025年12月7日

243000

大模型评测

腾讯混元HY 2.0 Think实测：MoE架构406B参数，准确率跃升4.6%至71.9%，响应时间缩短153%

腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和…

2025年12月6日

241000

大模型评测

DeepSeek-V3.2非思考模式深度评测：速度提升63%但准确率下滑，开源模型成本优势下的性能取舍

深度求索近期发布了DeepSeek-V3.2版本，除了备受关注的思考模式外，其非思考模式（下文中的DeepSeek-V3.2均指非思考模式）同样值得关注。我们对新旧两个版本（DeepSeek-V3.2、DeepSeek-V3.2-Exp）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 DeepSeek-V3.2版…

2025年12月5日

257000

大模型评测

DeepSeek-V3.2实测：稀疏注意力机制DSA如何实现推理效率与性能的协同突破

深度求索近期发布了DeepSeek-V3.2版本，这是一款在计算效率、推理能力和智能体性能方面实现协调统一的模型。其高算力变体DeepSeek-V3.2-Speciale在2025年IMO和IOI中均达到了金牌水平。此次评测重点是评测思考模式（Think），其思考模式下的DeepSeek-V3.2（下面简称DeepSeek-V3.2-Think）在多个维度实…

2025年12月4日

201000

大模型评测

ERNIE-5.0思考模式预览版深度评测：推理能力跃升67.5%，但成本激增40倍引发效率挑战

百度近期发布了ERNIE-5.0-Thinking-Preview（思考模式预览版），作为文心系列的新产品，该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现：* 测试题数：约1.5万* 【总分】准确率：67.5%*…

2025年11月28日

184000