近日,AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T,指出这款非推理(non-reasoning)模型在性能上直逼业界顶尖闭源模型,这一现象背后隐藏着重要的技术转向。吴恩达特别强调,Ling-1T在预训练阶段就强化了思维链(CoT)能力,这种做法“正在模糊推理与非推理模型之间的界限”。这一观察引发了业界对Ling-1T卓越推理能力来源的深入探讨。

事实上,Ling-1T的成功并非偶然。近两个月来,蚂蚁集团以前所未有的节奏密集开源了Ling-mini-2.0、Ling-flash-2.0、万亿参数的Ling-1T,以及后续的Ring系列推理模型。这一系列动作背后,都指向了一套统一的技术框架。通过长达58页的技术报告《Ling 2.0 Technical Report》,蚂蚁集团百灵团队(Ling Team)系统性地揭示了这一技术体系的完整面貌。

报告不仅详细介绍了Ling系列模型的架构设计,更提供了一份完整的模型配方和技术蓝图。该报告系统阐述了蚂蚁集团如何构建一个强大、统一且可扩展的模型基础,以及如何实现从16B到1T参数规模的推理导向(Reasoning-Oriented)模型训练。其核心设计哲学可以凝练为“Every Activation Boosted”——确保每一次激活都在扎实地提升模型的推理能力。
在当前AI领域“模型大爆炸”的背景下,仅仅发布又一个模型的训练细节似乎意义有限。然而,蚂蚁集团的这份技术报告展现出了更深远的战略思考:它并非仅仅展示“我们做出了什么”,而是试图系统性地回答一个更根本的问题——在通往更强大AI的道路上,尤其当算力成本成为核心制约时,我们如何才能构建一套可持续、可规模化、并且以提升关键推理能力为核心的高效范式?

这份报告从模型架构、预训练、后训练和基础设施四个层面,系统性地表明:Ling 2.0是一个为推理而生的整体工程。它不是零散技术的堆砌,而是四大支柱协同作用的产物。
**支柱一:架构与Scaling Law——万亿模型的设计蓝图**
在万亿参数时代,模型设计面临着高计算成本、长训练周期以及稳定性难以预测等多重挑战。蚂蚁集团的解决方案是极致稀疏的架构与极致精准的预测。Ling 2.0系列(从16B到1T)全部采用统一的“高稀疏、细粒度”MoE架构:总专家数多达256个,但每次前向传播仅激活8个专家和1个共享专家,激活率低至惊人的3.5%。

这一设计带来了显著的计算效率提升。报告证实,Ling模型实现了相较于同等性能的密集(Dense)模型近7倍的计算效率杠杆。然而,更核心的技术突破在于Ling Scaling Laws。这不仅是数学公式,更是蚂蚁建立的一套“AI风洞”实验系统。该系统能够通过极低成本(不到1%)的小规模模型实验,高保真地预测和外推万亿参数模型在超过1e25 FLOPs巨大计算量下的性能和最优超参数。

Ling 2.0的所有关键架构决策都是在这套定律的指导下完成的,例如“为何激活8个专家”这一设计选择在报告中被验证为最优范围。这种强大的预测能力为蚂蚁启动Ling-1T训练并确保其稳定高效提供了坚实的工程基础。同时,Ling 2.0架构还原生集成了MTP(Multi-Token Prediction),从底层设计上强化了数学与代码这两大关键推理能力。
值得一提的是,这个统一架构不仅被用于Ling系列模型,也是Ring-1T等推理模型的骨架。正如Ling团队最新发布的Ring-linear混合线性架构报告所示,即便是探索线性注意力(Linear Attention),其MoE结构的设计和扩展依然严格遵循Ling Scaling Laws的指导。

**支柱二:预训练与中训练——为推理预激活**
如果说架构是模型的骨架,那么预训练就是为模型注入灵魂的过程。Ling 2.0的灵魂从一开始就为推理而生。基于20T tokens的海量预训练数据,Ling 2.0贯彻了“推理优先”的原则。报告披露,其Ling Math和Ling Code高质量推理数据集在预训练过程中占比从32%逐步提升到了46%。这种设计让模型在形成世界知识的初期就建立起强大的逻辑和结构化思维。

Ling 2.0采用了多阶段训练策略,将上下文窗口从4K逐步扩展至128K,并在训练早期就引入推理与链式思维(CoT)数据,这样可以提前激活模型的推理能力。这种“推理预激活”策略与传统模型训练范式形成鲜明对比,后者往往在基础能力形成后才开始专门训练推理能力。
从技术实现层面看,蚂蚁集团的这一系列创新不仅代表了当前大模型技术的前沿进展,更预示着AI模型开发范式的根本转变。通过系统性的架构设计、精准的规模定律预测、以及推理导向的训练策略,Ling系列模型为行业提供了一个可复制、可扩展的高效模型开发框架。在算力成本日益成为AI发展瓶颈的今天,这种注重效率与性能平衡的技术路线具有重要的现实意义。
未来,随着更多研究机构和企业采纳类似的技术理念,我们有望看到更多在有限计算资源下实现卓越推理能力的模型出现。这不仅将推动AI技术的民主化进程,也将为各行业的智能化转型提供更加强大且经济可行的技术支撑。蚂蚁集团通过Ling系列模型展示的技术路线,正在为这一未来奠定坚实的基础。
— 图片补充 —











关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8856
