大模型评测
-
豆包Seed1.8实测:Agent能力飙升63.1%,成本降13%跻身头部阵营
豆包近期发布了 doubao-seed-1-8-251215 新版本,官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…
-
谷歌Gemini-3-Flash-Preview实测:成本仅为Pro版1/4,性能超越上代Pro,中文评测排名跃升至第5
谷歌本周发布了Gemini 3 Flash Preview新版本,官方称其“以不到Gemini 3 Pro四分之一的成本提供强大性能”,并声称“在许多基准测试中超越了2.5 Pro”。我们对Gemini 3 Flash Preview和上一代Gemini 2.5 Flash进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差…
-
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现:* 测试题数:约1.5万* 总分(准确率):64.3%* 平均耗时(每次调…
-
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现:* 测试题数:约1.5万* 总分(准确率):67.4%* 平均耗时(每次调用):36s…
-
GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力
OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…
-
GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用
OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…
-
VitaBench评测揭示AI智能体真实应用瓶颈:跨场景成功率仅30%,三大维度量化任务复杂性
点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅;规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求,对当前的大模型智能体而言,却是一道难以逾越的门槛。 美团 LongCat 团队近日发布的 VitaBench(Versatile Interactive Tasks Benchmark)评测基准,给出了一组值得深思的数据:…
-
腾讯混元HY 2.0 Think深度评测:思考能力初显,但前端实现仍欠火候
混元大模型近期推出了HY 2.0 Think版本,其核心特性是深度思考能力。我们使用一套前端评测用例,对其代码生成能力进行了测试。 常规用例评测 这部分用例与之前的DeepSeek V3.2评测保持一致,旨在快速评估其整体水平。 (1) 复古打印机 核心功能完整实现,打字效果富有节奏感。卡片拖拽功能正常,页面风格也体现了复古韵味。 (2) 双栏响应式Hero…
-
DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析
最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…
-
腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围
腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 hunyuan-2.0-instruct-…