美团万亿参数大模型LongCat-2.0发布，完全基于国产算力训练，挑战英伟达生态

同一天，AI领域迎来两件重大事件正面交锋。

一方面，DeepSeek于2026年4月24日正式发布新一代模型DeepSeek-V4系列预览版，并同步开源。该模型总参数规模达到万亿级别，支持百万字超长上下文。

另一方面，美团低调完成了一项壮举——利用全国产算力集群，训练出万亿参数大模型LongCat-2.0系列预览版（LongCat-2.0-Preview）。

据知情人士透露，LongCat-2.0-Preview与同日发布的DeepSeek V4 Pro在总参数规模和激活参数量上基本处于同一水平，同样支持1M上下文。

但真正的看点并非第一梯队成员间的“参数对齐”，而是路径选择的分化——一个前沿万亿参数模型，从训练到推理的全流程中“零英伟达参与”，这在行业内尚属首次。即便DeepSeek V4，也只是选择国产算力进行“首发推理”，并不意味着全流程完全摆脱英伟达。

过去两年，国产大模型领域最核心、也最令人焦虑的问题，如今终于有了明确答案：

万亿参数级模型，究竟能否依靠国产芯片稳定、高效地运行？

答案是：能。

只是很多人未曾预料，在“国产算力支撑万亿级模型研发”这条高难度赛道上，率先取得关键突破的，竟是美团。

某种程度上，这呼应了王兴过去的发言：“过去一年，保障充足的GPU资源供应，是美团的首要任务”、“我们将争取把美团App率先升级成AI-powered App。”显然，这是战略预判的成果。

目前，LongCat-2.0-Preview仍处于受邀内测阶段，每天提供1000万token额度。

我们不禁好奇，他们究竟是如何做到的？

美团万亿参数大模型LongCat-2.0发布，完全基于国产算力训练，挑战英伟达生态

抽丝剥茧Flash，原来早有预兆

第一时间，我们联想到去年9月开源的LongCat-Flash大模型。

同样采用MoE架构，总参数规模达5600亿，动态激活参数在186亿至313亿之间，在性能与计算效率之间实现了相当出色的平衡，推理速度和运营成本指标也颇为亮眼。

当时，业内曾有消息传出：该模型训练阶段并未使用英伟达GPU，而是基于国产加速卡完成。对此，美团始终未予置评。

但现在，随着LongCat-2.0-Preview的亮相，我们重新翻阅技术报告，许多细节突然焕发出新的解释。

那些当时看来“用力过猛”、“没必要”的工程优化，或许并非单纯炫技，而是在国产算力环境下训练超大模型时，必须跨越的现实障碍。

换句话说，那份报告的“微言大义”，实际上是一套如何用国产芯片训练超大模型的方法论。

逻辑并不复杂。

一个560B的MoE模型，训练周期为30天。如果底层运行在成熟的NVIDIA + CUDA + NVLink + InfiniBand生态中，通信、算子、调度、稳定性工具链早已高度成熟。在这样的环境下，专门花大量篇幅去讲解底层算子优化、确定性计算、稳定性套件，边际收益通常并不高。

但如果底层不是英伟达，而是国产算力，一切就瞬间变得合情合理。

第一个最微妙的信号，隐藏在措辞中。

翻阅Flash技术报告的训练章节，你会发现全文只提“accelerator”，绝口不提“GPU”；而到了推理部分，却明确写明“H800”。这种刻意区分，在学术论文中并不常见——它更像是在合规框架下，用一种近乎明示的方式告诉你：训练所用的硬件，并非英伟达。

第二个信号，是显存数字。

Flash报告第5.3节提到，经过V-ZB算法优化后，训练峰值显存被压到60GB以下。这是一个非常具体的数字。如果是H800（80GB显存），压到60GB并无太大必要；但如果是单卡显存原本就偏紧的国产芯片，这个优化就是生死线。

同样，在后来开源的DORA异步训练框架论文中，团队再次明确写道：“our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory”——60GB，这个数字反复出现，指向的不是偶然。

第三个，也是最硬核的，是算子的“确定性实现”。

技术报告专门拿出章节讲解“Determinism”。在外界看来，这只是一个工程洁癖。但知情人士透露，这背后是一场硬仗。

当训练平台从成熟的CUDA换成一个较新的国产芯片生态时，许多基础算子要么缺失，要么性能不可接受。最典型的是FlashAttention反向梯度（FAG）——它直接决定了长上下文训练的稳定性。

当时国产芯片上只有一个“确定性”实现，但为了做到计算顺序固定，它被迫退化成单核顺序执行，耗时比“非确定性”版本慢了20到70倍，在生产环境中几乎不可用。

LongCat团队没有等待。他们在国产芯片上自研了高性能的确定性FAG算子，最终将性能损失控制在5%左右——既保住了确定性，又没有牺牲效率。据我们所知，这一实现早于国产芯片厂商官方推出的确定性版本，且性能更优。

同样的自研重构还发生在Scatter类算子上。原有的单核实现效率极低，团队设计了一套确定性并行算法，将梯度聚合任务拆解到所有可用计算单元上，性能提升数十倍。

而对于GEMM这类高耗时计算模块，团队也放弃了通用实现，转而采用确定性Tiling策略，叠加深度调优，实现了“高性能+确定性”的双重目标。

正是在这些底层算子的深度自研之上，“整网确定性训练”才真正成为可能——

每一步的计算结果都能精确复现，任何一次异常都能被快速定位。这在国产芯片工具链尚不完善的阶段，不是锦上添花，而是排障的刚需。

把这些细节放在一起，Flash的技术报告，实则是一份没有点名硬件平台的国产算力训练经验总结，也是一轮提前完成的验证：

先用560B跑通工程栈，验证架构、通信、训练稳定性与工具链闭环，再把同一套方法论，放大到1.6T。

模型架构又有创新了

因此，LongCat-2.0-Preview，本质上可以看作是这一套方法论第一次被完整推到万亿参数级后的“阶段性验证”。据多位接近项目的人士透露，这一版本的技术细节含金量，似乎明显高于外界目前所看到的公开信息。

LongCat-2.0-Preview采用MoE架构，总参数规模约1.6T，平均激活参数约48B，同时支持1M级超长上下文。在国产算力环境下，同时支撑超大参数规模与百万级上下文，本身就是对显存、通信与系统稳定性的综合考验。

消息人士称，为了进一步降低底层硬件负担，同时提升整体推理与训练效率，团队在架构层面做了几个核心创新。

其中一个延续性较强的方向，是在LongCat-Flash-Lite已验证的N-gram Embedding路线基础上继续增强。

传统MoE模型通常依赖不断扩展FFN专家数量来提升能力，但随着专家规模增加，跨节点通信开销也同步上升，整体收益逐渐递减。

LongCat干脆将一部分原本位于专家层的参数前移至embedding层，并引入N-gram（词组级）建模能力，使部分高频语言模式可以直接匹配命中，而不再依赖逐层计算。

据说，在这一设计下，模型在保持1.6T参数容量的同时，在代码生成、指令理解以及专业语义任务中获得更稳定的表现，推理成本也得到明显控制。

另一个关键创新来自注意力机制层面。

长上下文能力的突破与工程挑战

Transformer 模型固有的 O(n²) 计算复杂度，依然是制约长上下文能力的主要瓶颈。针对此，LongCat-2.0-Preview 创新性地融合了轻量级稀疏注意力机制与「跨层流感知索引」设计。该设计能够在不同网络层之间精准识别关键语义路径，从而大幅削减冗余的全量注意力计算。

据称，这一组合方案使得模型能够稳定处理高达 1M Token 的上下文长度，同时将推理延迟和计算成本控制在相对合理的范围内。

5–6 万卡国产集群，如何支撑万亿参数模型？

据机器之心了解，LongCat-2.0-Preview 的训练与推理过程，已完全迁移至国产芯片平台，英伟达算力的使用占比为零。

接近项目的人士透露，训练阶段调用的国产加速卡规模已达到 5 万至 6 万张——这刷新了当前已知范围内，国产算力支撑超大规模模型训练的规模上限。

这意味着该项目已进入典型的超大规模工程系统阶段，对通信效率、算子性能以及系统稳定性提出的要求，远超外界想象。

显存与带宽：首要的硬件约束

与英伟达高端 GPU（如 H100、B200）相比，国产芯片在单卡 HBM 容量与带宽上仍存在差距，导致可用显存空间被明显压缩。要将 1.6T 级别的「专家库」在工程上落地，必须在集群侧进行极其精细的切分与调度。

换言之，研发团队必须在万卡规模下，对专家并行（EP）、张量并行（TP）与流水线并行（PP）进行重新组合与解构，才能完成整体训练部署。有接近研发的人士表示，团队围绕并行策略与显存优化，做了大量底层调整。包括前述的 N-gram Embedding 与稀疏注意力设计，本质上也是在为显存和带宽「腾空间」。

软件生态与算子效率：更隐性的难点

与 CUDA 生态在算子库和调度效率上的优势相比，国产芯片在部分核心算子（如 GEMM、注意力相关计算）上仍有优化空间。消息人士透露，为提升执行效率，团队并未完全依赖通用框架，而是对核心算子进行了针对性重写与优化，并引入了「确定性计算」机制，以确保大规模训练中的可复现性与调试能力。

系统稳定性：数万卡规模下的新变量

当训练规模扩展至数万卡级别后，系统稳定性成为另一个主要变量。在长周期训练过程中，硬件掉线、通信抖动与任务中断不再是异常情况，而是常态问题。为此，团队额外构建了一套容错与恢复体系，包括链路感知、自动重调度与多层异常检测机制，旨在降低局部故障对整体训练的影响。

最后，团队针对国产硬件的特点，对训练框架和模型结构进行了亲和设计，显著提升了计算性能。

综合来看，在国产芯片上跑通 1.6T 模型，本质上是「用软件工程的勤奋，弥补硬件生态的欠缺」。正如消息人士所言，尽管国产芯片在显存等硬指标上仍有差距，但在计算正确性、数值精度以及长周期训练稳定性这些最核心的指标上，已经能够追平国际水平，足以支撑万亿级 MoE 模型的全流程训推。

国产算力：从「能用」迈向「好用」

过去几年，关于国产芯片始终有一个现实问题：能不能做大模型？答案逐渐变成「能做」。但行业更在意的是下一个问题：能不能支撑最前沿、最高强度、最长周期的顶级任务？

在国产生态仍处于「补课期」的现实下，LongCat 团队没有选择在岸边等待水清，而是选择「边渡江边修船」。与 DeepSeek V4 相比，LongCat-2.0-Preview 走得更远——从训练到推理，全流程实现了完全国产化。

这也让它的意义超越了「又一个万亿模型」，更是一场产业级验证：国产算力，正在跨过从「可替代」到「可承担顶级任务」的关键门槛。

正如业内人士所言，将 DeepSeek V4 与 LongCat-2.0-Preview 放在一起看，国产大模型生态虽仍不完美，但已经迈出了肉眼可见的关键一步。那些踩过的坑、补齐的短板、攻克过的工程难题，最终也会沉淀成整个国产 AI 基础设施的公共能力。

当国产芯片开始承载这些前沿大模型，并获得实际验证与背书，不仅为国产生态注入了信心，也为更深层的结构性变革打开了空间。

如果说全流程国产化是「造出了车」，那么开源就是「修好了路」，邀请所有人一起跑起来。这种开放基因早已植根于 LongCat 的版图中。这一次 LongCat-2.0 Preview 大概率也将延续这一开放路线。至于具体的开源方式与时间，我们不妨拭目以待。

目前，LongCat-2.0-Preview 已开放内测，每天提供 1000 万免费 Token 额度。无论是技术发烧友想亲手跑一下这个全自研的万亿模型，还是企业开发者想评估国产算力 API 的可用性，都值得一试。

访问链接：
https://longcat.chat/platform/usage

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/32817

美团万亿参数大模型LongCat-2.0发布，完全基于国产算力训练，挑战英伟达生态

长上下文能力的突破与工程挑战

5–6 万卡国产集群，如何支撑万亿参数模型？

显存与带宽：首要的硬件约束

软件生态与算子效率：更隐性的难点

系统稳定性：数万卡规模下的新变量

国产算力：从「能用」迈向「好用」

相关推荐

空间智能第一股上市暴涨171%！群核科技成AI下半场领跑者，李飞飞、英伟达、腾讯阿里竞相押注

SonicMoE：突破细粒度MoE硬件效率瓶颈，实现高稀疏性下的极致训练加速

OpenAI财务危机深度剖析：推理成本指数级增长与收入线性增长的致命剪刀差

2025人工智能年度盘点：开源竞速、Agent崛起与产业融合的共生纪元

鸿蒙6开启A2A智能体协作时代：从“人找服务”到“服务找人”的交互革命