推理能力

  • DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场

    实测 DeepSeek 识图模式:推理耗时4分钟却秒错,但HTML复原与OCR表现惊艳 今天,你被DeepSeek识图模式灰度测试覆盖了吗? 大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布,惊喜接踵而至。在官方尚未披露更多细节之前,各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。 确实有不少发现。 例如,Deep…

    2天前
    12700
  • 自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?

    自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…

    2026年3月30日
    35200
  • 突破语言桎梏:用神经细胞自动机预训练大模型,性能提升6%,推理能力增强

    如果有一天,大语言模型不再依赖人类语言进行训练,会发生什么? 近年来,大模型能力的飞跃几乎都建立在一个前提之上:海量的文本数据。然而,随着高质量文本资源逐渐逼近极限,研究者开始提出一个更根本的问题:语言,真的是智能的起点吗? 一项最新研究给出了一个出人意料的答案:或许不是。研究团队假设,让语言模型在学习语言之前,先在完全非语言的合成数据上进行“预预训练”(p…

    2026年3月14日
    36700
  • 首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

    首个系统性研究:强化学习如何让3D模型学会推理? 图像生成领域,强化学习(RL)已交出亮眼答卷。那么,在更具挑战性的3D生成领域,RL能否同样奏效?当GRPO等算法让大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作 正式诞生,并已被CVPR 2026接收。该研究并非简单移植2D经验,而是针…

    2026年2月27日
    25800
  • 通义 Qwen3.5-Flash 测评:开源新锐的剑之所及

    核心结论:开源新锐的剑之所及 基本情况: 通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。 官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下,其表现确实大幅领先于235B;但在新模式下的稳定性仍需打磨,综合中位表现与235B基本持平。考虑到235B的参数量级更大,这一结果仍显…

    2026年2月26日
    56100
  • Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段

    今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…

    2026年2月20日
    54800
  • Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

    凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。 长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更…

    2026年2月6日
    53900
  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    59900
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    41000
  • DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

    R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…

    2026年1月8日
    37600