推理能力 - 鲸林向海

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

实测 DeepSeek 识图模式：推理耗时4分钟却秒错，但HTML复原与OCR表现惊艳今天，你被DeepSeek识图模式灰度测试覆盖了吗？大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布，惊喜接踵而至。在官方尚未披露更多细节之前，各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。确实有不少发现。例如，Deep…

2天前

127000

大模型训练

自我蒸馏的陷阱：为何AI“抄袭”自己思考反而损害数学推理能力？

自我蒸馏的陷阱：为何AI“抄袭”自己思考反而损害数学推理能力？当 AI 试图通过“抄袭”自己的思考过程来变得更高效时，它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。在人工智能领域，一种名为“自我蒸馏”（Self-Distillation）的后训练范式正迅速崛起。其核心思想极具吸引力：让模型自己充当老师，利用更丰富的上下文信息（如标准答案）来指导学…

2026年3月30日

352000

大模型训练

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

如果有一天，大语言模型不再依赖人类语言进行训练，会发生什么？近年来，大模型能力的飞跃几乎都建立在一个前提之上：海量的文本数据。然而，随着高质量文本资源逐渐逼近极限，研究者开始提出一个更根本的问题：语言，真的是智能的起点吗？一项最新研究给出了一个出人意料的答案：或许不是。研究团队假设，让语言模型在学习语言之前，先在完全非语言的合成数据上进行“预预训练”（p…

2026年3月14日

367000

大模型推理

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

首个系统性研究：强化学习如何让3D模型学会推理？图像生成领域，强化学习（RL）已交出亮眼答卷。那么，在更具挑战性的3D生成领域，RL能否同样奏效？当GRPO等算法让大模型在数学、代码推理上实现质变时，一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作正式诞生，并已被CVPR 2026接收。该研究并非简单移植2D经验，而是针…

2026年2月27日

258000

大模型评测

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

核心结论：开源新锐的剑之所及基本情况：通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下，其表现确实大幅领先于235B；但在新模式下的稳定性仍需打磨，综合中位表现与235B基本持平。考虑到235B的参数量级更大，这一结果仍显…

2026年2月26日

561000

AI产业动态

Gemini 3.1 Pro震撼发布：推理能力翻倍，成本效率双突破，AI竞赛进入新阶段

今天，Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中，其得分达到77.1%，相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。具体基准测试表现根据详细测试数据，Gemini 3.1 Pro在多个关键领域取得显著突破：智能工具使用：能力提升82%，在APEX-Agents测试…

2026年2月20日

548000

AI产业动态

Claude Opus 4.6震撼发布：专为长时程Agent任务而生，百万token上下文实现76%检索准确率

凌晨2点，硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早，业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评，Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面，表现令人印象深刻。长期使用Claude的Boris用四个词概括Opus 4.6：更具自主性、更智能、运行时间更…

2026年2月6日

539000

AI产业动态

文心一言5.0正式版深度评测：国产大模型如何突破算力桎梏，在多模态赛道站稳脚跟？

核心结论：文心一言5.0正式版在预览版基础上进行了针对性打磨，整体可用性有所提升，在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性，但算力消耗与上下文幻觉问题仍是主要挑战。逻辑能力表现：注1：表格为突出对比关系，仅展示部分可对照模型，非完整排序。注2：题目及测试方式，参见《大语言模型逻辑能力横评（25年12月榜）》，新增#55…

2026年1月23日

599000

AI产业动态

美团LongCat-Flash-Thinking-2601评测：工具调用亮眼，但基础推理与视觉理解存短板

美团近期发布了LongCat-Flash-Thinking-2601模型，作为首个支持在线免费体验「重思考模式」的开源模型，其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。核心评测结论：三大亮点：工具类网页完成度高：水印处理工具功能完整、交互流畅；复利计算器UI专业、图表…

2026年1月18日

410000

大模型推理

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

R1论文暴涨至86页！DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！全网震撼！两天前，DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明，仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招，甚至有网友推测，这种纯强化学习方法或许会出现在未来的R2版本中。此次更新，将原始论文升级为…

2026年1月8日

376000