推理能力

  • 突破语言桎梏:用神经细胞自动机预训练大模型,性能提升6%,推理能力增强

    如果有一天,大语言模型不再依赖人类语言进行训练,会发生什么? 近年来,大模型能力的飞跃几乎都建立在一个前提之上:海量的文本数据。然而,随着高质量文本资源逐渐逼近极限,研究者开始提出一个更根本的问题:语言,真的是智能的起点吗? 一项最新研究给出了一个出人意料的答案:或许不是。研究团队假设,让语言模型在学习语言之前,先在完全非语言的合成数据上进行“预预训练”(p…

    4天前
    11300
  • 首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

    首个系统性研究:强化学习如何让3D模型学会推理? 图像生成领域,强化学习(RL)已交出亮眼答卷。那么,在更具挑战性的3D生成领域,RL能否同样奏效?当GRPO等算法让大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作 正式诞生,并已被CVPR 2026接收。该研究并非简单移植2D经验,而是针…

    2026年2月27日
    12900
  • 通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

    核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…

    2026年2月26日
    18100
  • Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段

    今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…

    2026年2月20日
    21200
  • Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

    凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。 长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更…

    2026年2月6日
    15400
  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    32000
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    18000
  • DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

    R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…

    2026年1月8日
    22200
  • ERNIE-5.0思考模式预览版深度评测:推理能力跃升67.5%,但成本激增40倍引发效率挑战

    百度近期发布了ERNIE-5.0-Thinking-Preview(思考模式预览版),作为文心系列的新产品,该版本在推理能力上进行了全新探索。我们对这个新版本进行了全面评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现。 ERNIE-5.0-Thinking-Preview版本表现:* 测试题数:约1.5万* 【总分】准确率:67.5%*…

    2025年11月28日
    18200
  • GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

    OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

    2025年11月27日
    19000