推理模型
-
OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率
【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…
-
从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来
如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…
-
深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限
Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…
-
OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战
OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师,深度参与了近年AI领域的多项突破。他近期离开OpenAI,旨在探索在大型实验室框架下较难开展的研究方向。 在访谈中,Jerry探讨了多个核心议题,…
-
美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…
-
强化学习云:大模型训练下半场的新引擎与基础设施革命
2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…
-
Ling-1T技术解析:蚂蚁集团如何通过“Every Activation Boosted”哲学重塑万亿参数推理模型范式
近日,AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T,指出这款非推理(non-reasoning)模型在性能上直逼业界顶尖闭源模型,这一现象背后隐藏着重要的技术转向。吴恩达特别强调,Ling-1T在预训练阶段就强化了思维链(CoT)能力,这种做法“正在模糊推理与非推理模型之间的界限”。这一观察…
