大模型评测
-
SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战
如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…
-
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点
阿里Qwen-Plus-Think新版实测:性能意外回落,成本反增4.2%,Agent能力成唯一亮点 阿里近期发布了Qwen-Plus-Think-2025-12-01新版本,相比此前的Qwen-Plus-Think-2025-07-28版本,在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本…
-
MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测
MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…
-
智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显
智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…
-
GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5
经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。 基准测试表现亮眼 根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。 官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:…
-
小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡
小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现:* 测试题数:约1.5万…
-
谷歌Gemini-3-Flash-Preview实测:成本仅为Pro版1/4,性能超越上代Pro,中文评测排名跃升至第5
谷歌本周发布了Gemini 3 Flash Preview新版本,官方称其“以不到Gemini 3 Pro四分之一的成本提供强大性能”,并声称“在许多基准测试中超越了2.5 Pro”。我们对Gemini 3 Flash Preview和上一代Gemini 2.5 Flash进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差…
-
GPT-5.2-Medium实测:速度飙升5倍,但准确率为何下滑?OpenAI新模型深度评测
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium(思考模式)与上一版本GPT-5.1-Medium进行了全面对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现:* 测试题数:约1.5万* 总分(准确率):64.3%* 平均耗时(每次调…
-
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现:* 测试题数:约1.5万* 总分(准确率):67.4%* 平均耗时(每次调用):36s…
-
GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力
OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…
