大模型评测

无需微调，Poetiq元系统让GPT-5.2推理准确率飙升至75%，创ARC-AGI-2新纪录

什么？决定 AI 上限的已不再是底座模型，而是外围的「推理编排」（Orchestration）。在 LLM 完全不变的前提下，仅靠一套 Agentic System，就能让 AI 的智力表现原地暴涨一截。在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后，有人得出了这样的结论。近日，Poetiq 表示其使用 ARC-AGI-2 测试…

2025年12月25日

948000

大模型评测

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点

阿里Qwen-Plus-Think新版实测：性能意外回落，成本反增4.2%，Agent能力成唯一亮点阿里近期发布了Qwen-Plus-Think-2025-12-01新版本，相比此前的Qwen-Plus-Think-2025-07-28版本，在多个维度的表现出现了明显波动。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本…

2025年12月25日

194000

大模型评测

向量检索评估体系大洗牌：IceBerg基准揭示HNSW并非最优，多模态RAG远未标准化

将多模态数据纳入到RAG（检索增强生成）乃至Agent框架，是目前大语言模型（LLM）应用领域最受关注的方向之一。针对多模态数据最自然的召回方式，便是向量检索。然而，我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程，其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化，遇到向量检索需求便不假思索地选择HNSW算法…

2025年12月25日

210000

大模型评测

MiniMax-M2.1实测：性能提升4%但响应时间翻倍，成本增加21.6%的深度评测

MiniMax新发布了M2.1版本，相比此前的M2版本，在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现：* 测试题数：约1.5万* 总分（准确率）：63.6%* 平均耗时（每次调用）：111s* 平均token（每次调用消耗的token）…

2025年12月24日

1.5K000

大模型评测

智谱GLM-4.7全面评测：编程专用模型性能跃升，开源优势凸显

智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本，新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测，对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下：* 测试题数：约1.5万* 总分（准确率）：71.5%* 平均耗时（每次调用）：96秒* 平均Token（每次调用）：392…

2025年12月23日

1.1K000

大模型评测

小米开源MiMo-V2-Flash实测：零成本大模型在长上下文与推理效率间的新平衡

小米近期开源了MiMo-V2-Flash模型，这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式（think）和非思考模式进行了全面评测，测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现：* 测试题数：约1.5万…

2025年12月21日

597001

大模型评测

豆包Seed1.8实测：Agent能力飙升63.1%，成本降13%跻身头部阵营

豆包近期发布了 doubao-seed-1-8-251215 新版本，官方重点强调其“更强 Agent 能力”和“多模态理解升级”。我们对 doubao-seed-1-8-251215 和上一代 doubao-seed-1-6-251015 进行了全面对比评测，测试其在准确率、响应时间、token 消耗和成本等关键指标上的表现差异。 doubao-seed-…

2025年12月20日

2.1K000

大模型评测

谷歌Gemini-3-Flash-Preview实测：成本仅为Pro版1/4，性能超越上代Pro，中文评测排名跃升至第5

谷歌本周发布了Gemini 3 Flash Preview新版本，官方称其“以不到Gemini 3 Pro四分之一的成本提供强大性能”，并声称“在许多基准测试中超越了2.5 Pro”。我们对Gemini 3 Flash Preview和上一代Gemini 2.5 Flash进行了全面对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差…

2025年12月19日

811000

大模型评测

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本，作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium（思考模式）与上一版本GPT-5.1-Medium进行了全面对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现：* 测试题数：约1.5万* 总分（准确率）：64.3%* 平均耗时（每次调…

2025年12月17日

276000

大模型评测

GPT-5.2-high实测：速度飙升69%但准确率下滑，成本效率面临开源模型挑战

OpenAI近期发布了GPT-5.2版本，作为GPT-5系列的最新迭代。我们对GPT-5.2-high（思考模式）与上一版本GPT-5.1-high进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现：* 测试题数：约1.5万* 总分（准确率）：67.4%* 平均耗时（每次调用）：36s…

2025年12月16日

240000