同一天,AI领域迎来两件重大事件正面交锋。
一方面,DeepSeek于2026年4月24日正式发布新一代模型DeepSeek-V4系列预览版,并同步开源。该模型总参数规模达到万亿级别,支持百万字超长上下文。
另一方面,美团低调完成了一项壮举——利用全国产算力集群,训练出万亿参数大模型LongCat-2.0系列预览版(LongCat-2.0-Preview)。
据知情人士透露,LongCat-2.0-Preview与同日发布的DeepSeek V4 Pro在总参数规模和激活参数量上基本处于同一水平,同样支持1M上下文。
但真正的看点并非第一梯队成员间的“参数对齐”,而是路径选择的分化——一个前沿万亿参数模型,从训练到推理的全流程中“零英伟达参与”,这在行业内尚属首次。即便DeepSeek V4,也只是选择国产算力进行“首发推理”,并不意味着全流程完全摆脱英伟达。
过去两年,国产大模型领域最核心、也最令人焦虑的问题,如今终于有了明确答案:
万亿参数级模型,究竟能否依靠国产芯片稳定、高效地运行?
答案是:能。
只是很多人未曾预料,在“国产算力支撑万亿级模型研发”这条高难度赛道上,率先取得关键突破的,竟是美团。
某种程度上,这呼应了王兴过去的发言:“过去一年,保障充足的GPU资源供应,是美团的首要任务”、“我们将争取把美团App率先升级成AI-powered App。”显然,这是战略预判的成果。
目前,LongCat-2.0-Preview仍处于受邀内测阶段,每天提供1000万token额度。
我们不禁好奇,他们究竟是如何做到的?

抽丝剥茧Flash,原来早有预兆
第一时间,我们联想到去年9月开源的LongCat-Flash大模型。
同样采用MoE架构,总参数规模达5600亿,动态激活参数在186亿至313亿之间,在性能与计算效率之间实现了相当出色的平衡,推理速度和运营成本指标也颇为亮眼。
当时,业内曾有消息传出:该模型训练阶段并未使用英伟达GPU,而是基于国产加速卡完成。对此,美团始终未予置评。
但现在,随着LongCat-2.0-Preview的亮相,我们重新翻阅技术报告,许多细节突然焕发出新的解释。
那些当时看来“用力过猛”、“没必要”的工程优化,或许并非单纯炫技,而是在国产算力环境下训练超大模型时,必须跨越的现实障碍。
换句话说,那份报告的“微言大义”,实际上是一套如何用国产芯片训练超大模型的方法论。
逻辑并不复杂。
一个560B的MoE模型,训练周期为30天。如果底层运行在成熟的NVIDIA + CUDA + NVLink + InfiniBand生态中,通信、算子、调度、稳定性工具链早已高度成熟。在这样的环境下,专门花大量篇幅去讲解底层算子优化、确定性计算、稳定性套件,边际收益通常并不高。
但如果底层不是英伟达,而是国产算力,一切就瞬间变得合情合理。
第一个最微妙的信号,隐藏在措辞中。
翻阅Flash技术报告的训练章节,你会发现全文只提“accelerator”,绝口不提“GPU”;而到了推理部分,却明确写明“H800”。这种刻意区分,在学术论文中并不常见——它更像是在合规框架下,用一种近乎明示的方式告诉你:训练所用的硬件,并非英伟达。
第二个信号,是显存数字。
Flash报告第5.3节提到,经过V-ZB算法优化后,训练峰值显存被压到60GB以下。这是一个非常具体的数字。如果是H800(80GB显存),压到60GB并无太大必要;但如果是单卡显存原本就偏紧的国产芯片,这个优化就是生死线。
同样,在后来开源的DORA异步训练框架论文中,团队再次明确写道:“our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory”——60GB,这个数字反复出现,指向的不是偶然。
第三个,也是最硬核的,是算子的“确定性实现”。
技术报告专门拿出章节讲解“Determinism”。在外界看来,这只是一个工程洁癖。但知情人士透露,这背后是一场硬仗。
当训练平台从成熟的CUDA换成一个较新的国产芯片生态时,许多基础算子要么缺失,要么性能不可接受。最典型的是FlashAttention反向梯度(FAG)——它直接决定了长上下文训练的稳定性。
当时国产芯片上只有一个“确定性”实现,但为了做到计算顺序固定,它被迫退化成单核顺序执行,耗时比“非确定性”版本慢了20到70倍,在生产环境中几乎不可用。
LongCat团队没有等待。他们在国产芯片上自研了高性能的确定性FAG算子,最终将性能损失控制在5%左右——既保住了确定性,又没有牺牲效率。据我们所知,这一实现早于国产芯片厂商官方推出的确定性版本,且性能更优。
同样的自研重构还发生在Scatter类算子上。原有的单核实现效率极低,团队设计了一套确定性并行算法,将梯度聚合任务拆解到所有可用计算单元上,性能提升数十倍。
而对于GEMM这类高耗时计算模块,团队也放弃了通用实现,转而采用确定性Tiling策略,叠加深度调优,实现了“高性能+确定性”的双重目标。
正是在这些底层算子的深度自研之上,“整网确定性训练”才真正成为可能——
每一步的计算结果都能精确复现,任何一次异常都能被快速定位。这在国产芯片工具链尚不完善的阶段,不是锦上添花,而是排障的刚需。
把这些细节放在一起,Flash的技术报告,实则是一份没有点名硬件平台的国产算力训练经验总结,也是一轮提前完成的验证:
先用560B跑通工程栈,验证架构、通信、训练稳定性与工具链闭环,再把同一套方法论,放大到1.6T。
模型架构又有创新了
因此,LongCat-2.0-Preview,本质上可以看作是这一套方法论第一次被完整推到万亿参数级后的“阶段性验证”。据多位接近项目的人士透露,这一版本的技术细节含金量,似乎明显高于外界目前所看到的公开信息。
LongCat-2.0-Preview采用MoE架构,总参数规模约1.6T,平均激活参数约48B,同时支持1M级超长上下文。在国产算力环境下,同时支撑超大参数规模与百万级上下文,本身就是对显存、通信与系统稳定性的综合考验。
消息人士称,为了进一步降低底层硬件负担,同时提升整体推理与训练效率,团队在架构层面做了几个核心创新。
其中一个延续性较强的方向,是在LongCat-Flash-Lite已验证的N-gram Embedding路线基础上继续增强。
传统MoE模型通常依赖不断扩展FFN专家数量来提升能力,但随着专家规模增加,跨节点通信开销也同步上升,整体收益逐渐递减。
LongCat干脆将一部分原本位于专家层的参数前移至embedding层,并引入N-gram(词组级)建模能力,使部分高频语言模式可以直接匹配命中,而不再依赖逐层计算。
据说,在这一设计下,模型在保持1.6T参数容量的同时,在代码生成、指令理解以及专业语义任务中获得更稳定的表现,推理成本也得到明显控制。
另一个关键创新来自注意力机制层面。
长上下文能力的突破与工程挑战
Transformer 模型固有的 O(n²) 计算复杂度,依然是制约长上下文能力的主要瓶颈。针对此,LongCat-2.0-Preview 创新性地融合了轻量级稀疏注意力机制与「跨层流感知索引」设计。该设计能够在不同网络层之间精准识别关键语义路径,从而大幅削减冗余的全量注意力计算。
据称,这一组合方案使得模型能够稳定处理高达 1M Token 的上下文长度,同时将推理延迟和计算成本控制在相对合理的范围内。
5–6 万卡国产集群,如何支撑万亿参数模型?
据机器之心了解,LongCat-2.0-Preview 的训练与推理过程,已完全迁移至国产芯片平台,英伟达算力的使用占比为零。
接近项目的人士透露,训练阶段调用的国产加速卡规模已达到 5 万至 6 万张——这刷新了当前已知范围内,国产算力支撑超大规模模型训练的规模上限。
这意味着该项目已进入典型的超大规模工程系统阶段,对通信效率、算子性能以及系统稳定性提出的要求,远超外界想象。
显存与带宽:首要的硬件约束
与英伟达高端 GPU(如 H100、B200)相比,国产芯片在单卡 HBM 容量与带宽上仍存在差距,导致可用显存空间被明显压缩。要将 1.6T 级别的「专家库」在工程上落地,必须在集群侧进行极其精细的切分与调度。
换言之,研发团队必须在万卡规模下,对专家并行(EP)、张量并行(TP)与流水线并行(PP)进行重新组合与解构,才能完成整体训练部署。有接近研发的人士表示,团队围绕并行策略与显存优化,做了大量底层调整。包括前述的 N-gram Embedding 与稀疏注意力设计,本质上也是在为显存和带宽「腾空间」。
软件生态与算子效率:更隐性的难点
与 CUDA 生态在算子库和调度效率上的优势相比,国产芯片在部分核心算子(如 GEMM、注意力相关计算)上仍有优化空间。消息人士透露,为提升执行效率,团队并未完全依赖通用框架,而是对核心算子进行了针对性重写与优化,并引入了「确定性计算」机制,以确保大规模训练中的可复现性与调试能力。
系统稳定性:数万卡规模下的新变量
当训练规模扩展至数万卡级别后,系统稳定性成为另一个主要变量。在长周期训练过程中,硬件掉线、通信抖动与任务中断不再是异常情况,而是常态问题。为此,团队额外构建了一套容错与恢复体系,包括链路感知、自动重调度与多层异常检测机制,旨在降低局部故障对整体训练的影响。
最后,团队针对国产硬件的特点,对训练框架和模型结构进行了亲和设计,显著提升了计算性能。
综合来看,在国产芯片上跑通 1.6T 模型,本质上是「用软件工程的勤奋,弥补硬件生态的欠缺」。正如消息人士所言,尽管国产芯片在显存等硬指标上仍有差距,但在计算正确性、数值精度以及长周期训练稳定性这些最核心的指标上,已经能够追平国际水平,足以支撑万亿级 MoE 模型的全流程训推。
国产算力:从「能用」迈向「好用」
过去几年,关于国产芯片始终有一个现实问题:能不能做大模型?答案逐渐变成「能做」。但行业更在意的是下一个问题:能不能支撑最前沿、最高强度、最长周期的顶级任务?
在国产生态仍处于「补课期」的现实下,LongCat 团队没有选择在岸边等待水清,而是选择「边渡江边修船」。与 DeepSeek V4 相比,LongCat-2.0-Preview 走得更远——从训练到推理,全流程实现了完全国产化。
这也让它的意义超越了「又一个万亿模型」,更是一场产业级验证:国产算力,正在跨过从「可替代」到「可承担顶级任务」的关键门槛。
正如业内人士所言,将 DeepSeek V4 与 LongCat-2.0-Preview 放在一起看,国产大模型生态虽仍不完美,但已经迈出了肉眼可见的关键一步。那些踩过的坑、补齐的短板、攻克过的工程难题,最终也会沉淀成整个国产 AI 基础设施的公共能力。
当国产芯片开始承载这些前沿大模型,并获得实际验证与背书,不仅为国产生态注入了信心,也为更深层的结构性变革打开了空间。
如果说全流程国产化是「造出了车」,那么开源就是「修好了路」,邀请所有人一起跑起来。这种开放基因早已植根于 LongCat 的版图中。这一次 LongCat-2.0 Preview 大概率也将延续这一开放路线。至于具体的开源方式与时间,我们不妨拭目以待。
目前,LongCat-2.0-Preview 已开放内测,每天提供 1000 万免费 Token 额度。无论是技术发烧友想亲手跑一下这个全自研的万亿模型,还是企业开发者想评估国产算力 API 的可用性,都值得一试。
访问链接:
https://longcat.chat/platform/usage
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32817

