推理能力 - 鲸林向海

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

OpenAI近期发布了GPT-5.1系列新版本，其中GPT-5.1-medium作为思考模式（thinking）的代表产品，在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快，在复杂任务上思考更久”，并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等…

2025年11月21日

186000

大模型评测

Kimi-K2-Thinking实测：新一代Thinking Agent如何实现推理能力突破性增强？

月之暗面近期发布了Kimi-K2-Thinking模型，这是基于“模型即Agent”理念训练的新一代Thinking Agent，原生掌握“边思考，边使用工具”的能力。作为一款MoE架构模型（每次激活32B参数），我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

2025年11月18日

235000

AI产业动态

世界模型：GPT-5推理能力跃迁的底层逻辑与AI智能进化的关键地图

近期，GPT-5展现出的强大推理能力引发了广泛关注，其逻辑水平被媒体评价为“堪比专家”，用户甚至感觉“像是在和博士讨论问题”。这种能力的跃迁并非偶然，而是源于AI智能体在训练过程中悄然构建的“世界模型”。这一发现不仅揭示了通用智能体推理能力的本质，也正在重塑我们对AI智能进化的理解。长期以来，学界围绕AI能否仅通过模仿学习解决复杂任务展开了激烈争论。“模仿…

2025年10月31日

191000