推理能力
-
文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?
核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…
-
美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板
美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…
-
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…
-
ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战
百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…
-
GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议
OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…
-
GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注
OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…
-
Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?
月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…
-
世界模型:GPT-5推理能力跃迁的底层逻辑与AI智能进化的关键地图
近期,GPT-5展现出的强大推理能力引发了广泛关注,其逻辑水平被媒体评价为“堪比专家”,用户甚至感觉“像是在和博士讨论问题”。这种能力的跃迁并非偶然,而是源于AI智能体在训练过程中悄然构建的“世界模型”。这一发现不仅揭示了通用智能体推理能力的本质,也正在重塑我们对AI智能进化的理解。 长期以来,学界围绕AI能否仅通过模仿学习解决复杂任务展开了激烈争论。“模仿…