推理模型
-
Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升
Meta发布Muse Spark:九个月重构AI技术栈,多模态推理模型引领股价上涨 经过长达九个月的全面技术栈重构,由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。 该模型的发布立即在资本市场引发积极反响,Meta股价应声拉升约7%,盘中一度涨超近10%,最终当日收涨约6%。 市场热烈…
-
Arcee AI发布Trinity-Large-Thinking:3990亿参数开源推理模型,性能比肩Claude Opus 4.6,成本降低96%
关键词: Trinity-Large-Thinking、开源大模型、Opus 4.6、Arcee AI、Apache 2.0 2026年4月,全球大模型行业迎来一项足以改写开源格局的重磅发布。来自美国旧金山的AI实验室Arcee AI,正式推出了前沿开源推理模型Trinity-Large-Thinking。 这款拥有3990亿参数的MoE架构大模型,以Apa…
-
林俊旸离职阿里千问后首次发声:从“推理模型时代”到“智能体时代”的思考转变
林俊旸在离开阿里千问后首次公开发声。他没有回应离职的具体情况或宣布未来去向,而是撰写长文,深入探讨了人工智能领域从“推理模型时代的思考”向“智能体时代的思考”的范式转变。 整篇文章着眼于技术与AI的未来发展方向,但字里行间亦透露出对千问过往技术路线的反思。 他坦率承认:“我们没有全做对”(We did not get everything right)。 千…
-
OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率
【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…
-
从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来
如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…
-
深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限
Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…
-
OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战
OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师,深度参与了近年AI领域的多项突破。他近期离开OpenAI,旨在探索在大型实验室框架下较难开展的研究方向。 在访谈中,Jerry探讨了多个核心议题,…
-
美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?
美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…
-
强化学习云:大模型训练下半场的新引擎与基础设施革命
2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…
-
Ling-1T技术解析:蚂蚁集团如何通过“Every Activation Boosted”哲学重塑万亿参数推理模型范式
近日,AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T,指出这款非推理(non-reasoning)模型在性能上直逼业界顶尖闭源模型,这一现象背后隐藏着重要的技术转向。吴恩达特别强调,Ling-1T在预训练阶段就强化了思维链(CoT)能力,这种做法“正在模糊推理与非推理模型之间的界限”。这一观察…
