推理模型 - 鲸林向海

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

Meta发布Muse Spark：九个月重构AI技术栈，多模态推理模型引领股价上涨经过长达九个月的全面技术栈重构，由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。该模型的发布立即在资本市场引发积极反响，Meta股价应声拉升约7%，盘中一度涨超近10%，最终当日收涨约6%。市场热烈…

2026年4月9日

356000

AI产业动态

Arcee AI发布Trinity-Large-Thinking：3990亿参数开源推理模型，性能比肩Claude Opus 4.6，成本降低96%

关键词： Trinity-Large-Thinking、开源大模型、Opus 4.6、Arcee AI、Apache 2.0 2026年4月，全球大模型行业迎来一项足以改写开源格局的重磅发布。来自美国旧金山的AI实验室Arcee AI，正式推出了前沿开源推理模型Trinity-Large-Thinking。这款拥有3990亿参数的MoE架构大模型，以Apa…

2026年4月5日

760000

AI产业动态

林俊旸离职阿里千问后首次发声：从“推理模型时代”到“智能体时代”的思考转变

林俊旸在离开阿里千问后首次公开发声。他没有回应离职的具体情况或宣布未来去向，而是撰写长文，深入探讨了人工智能领域从“推理模型时代的思考”向“智能体时代的思考”的范式转变。整篇文章着眼于技术与AI的未来发展方向，但字里行间亦透露出对千问过往技术路线的反思。他坦率承认：“我们没有全做对”（We did not get everything right）。千…

2026年3月27日

405000

大模型评测

OpenAI重磅研究：推理越强的AI，越管不住自己的“脑子”！思维链可控性测试惊现0.1%成功率

【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象：推理能力越强的模型，越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中，DeepSeek R1控制自身思维链的成功率仅为0.1%，Claude Sonnet 4.5也仅有2.7%。向AI下达一条明确的指令：在推理过程中，严禁出现“XOR”一词。模型开始正常推理，但…

2026年3月9日

290000

大模型推理

从AlphaGo到DeepSeek R1：推理模型如何重塑AI生产力与人类未来

如果把人生看作一个开放式的大型多人在线游戏（MMO），那么游戏服务器在刚刚完成一次重大更新的时刻，规则改变了。自 2022 年 ChatGPT 惊艳亮相以来，世界已经发生了深刻变化。在短短几年内，人工智能正从模仿语言的统计机器，迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴，那么新一代推理模型，则开始学会在生成之前…

2026年2月20日

283000

AI产业动态

深度解析月之暗面Kimi-K2.5-Thinking：旗舰推理模型在Agent、代码、图像任务上的突破与局限

Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型，被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现，其核心在于采用了深度思考架构，具备强大的推理能力。核心结论：三大亮点：深度推理能力出色：在数学计算和逻辑推理任务中表现优秀，能够提供详细的推理过程。中文语义理…

2026年2月6日

2.6K000

AI产业动态

OpenAI前架构师深度剖析：AGI的关键在于模型自主突破能力，泛化问题成最大挑战

OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师，深度参与了近年AI领域的多项突破。他近期离开OpenAI，旨在探索在大型实验室框架下较难开展的研究方向。在访谈中，Jerry探讨了多个核心议题，…

2026年1月30日

382000

AI产业动态

美团LongCat-Flash-Thinking-2601实测：5600亿参数MoE推理模型，免费但响应慢6倍？

美团近期发布了LongCat-Flash-Thinking-2601模型，作为一款基于MoE架构的5600亿参数大型推理模型，官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测，测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现：* 测试题数：约1.5万* 总分（准确…

2026年1月23日

888000

大模型训练

强化学习云：大模型训练下半场的新引擎与基础设施革命

2024年底，硅谷和北京的业界人士都在讨论同一个令人不安的话题：Scaling Law似乎正在撞墙。当时，尽管英伟达的股价仍在飙升，但多方信源显示，包括备受期待的Orion（原计划的GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。同时，也有研究认为高质量预训练数据将很快耗尽，甚至预测了明确的时间节点：2028年…

2026年1月12日

289000

AI产业动态

Ling-1T技术解析：蚂蚁集团如何通过“Every Activation Boosted”哲学重塑万亿参数推理模型范式

近日，AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T，指出这款非推理（non-reasoning）模型在性能上直逼业界顶尖闭源模型，这一现象背后隐藏着重要的技术转向。吴恩达特别强调，Ling-1T在预训练阶段就强化了思维链（CoT）能力，这种做法“正在模糊推理与非推理模型之间的界限”。这一观察…

2025年10月29日

424000