美团万亿参数大模型LongCat-2.0发布,完全基于国产算力训练,挑战英伟达生态

同一天,AI领域迎来两件重大事件正面交锋。

一方面,DeepSeek于2026年4月24日正式发布新一代模型DeepSeek-V4系列预览版,并同步开源。该模型总参数规模达到万亿级别,支持百万字超长上下文。

另一方面,美团低调完成了一项壮举——利用全国产算力集群,训练出万亿参数大模型LongCat-2.0系列预览版(LongCat-2.0-Preview)。

据知情人士透露,LongCat-2.0-Preview与同日发布的DeepSeek V4 Pro在总参数规模和激活参数量上基本处于同一水平,同样支持1M上下文。

但真正的看点并非第一梯队成员间的“参数对齐”,而是路径选择的分化——一个前沿万亿参数模型,从训练到推理的全流程中“零英伟达参与”,这在行业内尚属首次。即便DeepSeek V4,也只是选择国产算力进行“首发推理”,并不意味着全流程完全摆脱英伟达。

过去两年,国产大模型领域最核心、也最令人焦虑的问题,如今终于有了明确答案:

万亿参数级模型,究竟能否依靠国产芯片稳定、高效地运行?

答案是:能。

只是很多人未曾预料,在“国产算力支撑万亿级模型研发”这条高难度赛道上,率先取得关键突破的,竟是美团。

某种程度上,这呼应了王兴过去的发言:“过去一年,保障充足的GPU资源供应,是美团的首要任务”、“我们将争取把美团App率先升级成AI-powered App。”显然,这是战略预判的成果。

目前,LongCat-2.0-Preview仍处于受邀内测阶段,每天提供1000万token额度。

我们不禁好奇,他们究竟是如何做到的?

美团万亿参数大模型LongCat-2.0发布,完全基于国产算力训练,挑战英伟达生态

抽丝剥茧Flash,原来早有预兆

第一时间,我们联想到去年9月开源的LongCat-Flash大模型。

同样采用MoE架构,总参数规模达5600亿,动态激活参数在186亿至313亿之间,在性能与计算效率之间实现了相当出色的平衡,推理速度和运营成本指标也颇为亮眼。

当时,业内曾有消息传出:该模型训练阶段并未使用英伟达GPU,而是基于国产加速卡完成。对此,美团始终未予置评。

但现在,随着LongCat-2.0-Preview的亮相,我们重新翻阅技术报告,许多细节突然焕发出新的解释。

那些当时看来“用力过猛”、“没必要”的工程优化,或许并非单纯炫技,而是在国产算力环境下训练超大模型时,必须跨越的现实障碍。

换句话说,那份报告的“微言大义”,实际上是一套如何用国产芯片训练超大模型的方法论。

逻辑并不复杂。

一个560B的MoE模型,训练周期为30天。如果底层运行在成熟的NVIDIA + CUDA + NVLink + InfiniBand生态中,通信、算子、调度、稳定性工具链早已高度成熟。在这样的环境下,专门花大量篇幅去讲解底层算子优化、确定性计算、稳定性套件,边际收益通常并不高。

但如果底层不是英伟达,而是国产算力,一切就瞬间变得合情合理。

第一个最微妙的信号,隐藏在措辞中。

翻阅Flash技术报告的训练章节,你会发现全文只提“accelerator”,绝口不提“GPU”;而到了推理部分,却明确写明“H800”。这种刻意区分,在学术论文中并不常见——它更像是在合规框架下,用一种近乎明示的方式告诉你:训练所用的硬件,并非英伟达。

第二个信号,是显存数字。

Flash报告第5.3节提到,经过V-ZB算法优化后,训练峰值显存被压到60GB以下。这是一个非常具体的数字。如果是H800(80GB显存),压到60GB并无太大必要;但如果是单卡显存原本就偏紧的国产芯片,这个优化就是生死线。

同样,在后来开源的DORA异步训练框架论文中,团队再次明确写道:“our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory”——60GB,这个数字反复出现,指向的不是偶然。

第三个,也是最硬核的,是算子的“确定性实现”。

技术报告专门拿出章节讲解“Determinism”。在外界看来,这只是一个工程洁癖。但知情人士透露,这背后是一场硬仗。

当训练平台从成熟的CUDA换成一个较新的国产芯片生态时,许多基础算子要么缺失,要么性能不可接受。最典型的是FlashAttention反向梯度(FAG)——它直接决定了长上下文训练的稳定性。

当时国产芯片上只有一个“确定性”实现,但为了做到计算顺序固定,它被迫退化成单核顺序执行,耗时比“非确定性”版本慢了20到70倍,在生产环境中几乎不可用。

LongCat团队没有等待。他们在国产芯片上自研了高性能的确定性FAG算子,最终将性能损失控制在5%左右——既保住了确定性,又没有牺牲效率。据我们所知,这一实现早于国产芯片厂商官方推出的确定性版本,且性能更优。

同样的自研重构还发生在Scatter类算子上。原有的单核实现效率极低,团队设计了一套确定性并行算法,将梯度聚合任务拆解到所有可用计算单元上,性能提升数十倍。

而对于GEMM这类高耗时计算模块,团队也放弃了通用实现,转而采用确定性Tiling策略,叠加深度调优,实现了“高性能+确定性”的双重目标。

正是在这些底层算子的深度自研之上,“整网确定性训练”才真正成为可能——

每一步的计算结果都能精确复现,任何一次异常都能被快速定位。这在国产芯片工具链尚不完善的阶段,不是锦上添花,而是排障的刚需。

把这些细节放在一起,Flash的技术报告,实则是一份没有点名硬件平台的国产算力训练经验总结,也是一轮提前完成的验证:

先用560B跑通工程栈,验证架构、通信、训练稳定性与工具链闭环,再把同一套方法论,放大到1.6T。

模型架构又有创新了

因此,LongCat-2.0-Preview,本质上可以看作是这一套方法论第一次被完整推到万亿参数级后的“阶段性验证”。据多位接近项目的人士透露,这一版本的技术细节含金量,似乎明显高于外界目前所看到的公开信息。

LongCat-2.0-Preview采用MoE架构,总参数规模约1.6T,平均激活参数约48B,同时支持1M级超长上下文。在国产算力环境下,同时支撑超大参数规模与百万级上下文,本身就是对显存、通信与系统稳定性的综合考验。

消息人士称,为了进一步降低底层硬件负担,同时提升整体推理与训练效率,团队在架构层面做了几个核心创新。

其中一个延续性较强的方向,是在LongCat-Flash-Lite已验证的N-gram Embedding路线基础上继续增强。

传统MoE模型通常依赖不断扩展FFN专家数量来提升能力,但随着专家规模增加,跨节点通信开销也同步上升,整体收益逐渐递减。

LongCat干脆将一部分原本位于专家层的参数前移至embedding层,并引入N-gram(词组级)建模能力,使部分高频语言模式可以直接匹配命中,而不再依赖逐层计算。

据说,在这一设计下,模型在保持1.6T参数容量的同时,在代码生成、指令理解以及专业语义任务中获得更稳定的表现,推理成本也得到明显控制。

另一个关键创新来自注意力机制层面。

长上下文能力的突破与工程挑战

Transformer 模型固有的 O(n²) 计算复杂度,依然是制约长上下文能力的主要瓶颈。针对此,LongCat-2.0-Preview 创新性地融合了轻量级稀疏注意力机制与「跨层流感知索引」设计。该设计能够在不同网络层之间精准识别关键语义路径,从而大幅削减冗余的全量注意力计算。

据称,这一组合方案使得模型能够稳定处理高达 1M Token 的上下文长度,同时将推理延迟和计算成本控制在相对合理的范围内。


5–6 万卡国产集群,如何支撑万亿参数模型?

据机器之心了解,LongCat-2.0-Preview 的训练与推理过程,已完全迁移至国产芯片平台,英伟达算力的使用占比为零。

接近项目的人士透露,训练阶段调用的国产加速卡规模已达到 5 万至 6 万张——这刷新了当前已知范围内,国产算力支撑超大规模模型训练的规模上限。

这意味着该项目已进入典型的超大规模工程系统阶段,对通信效率、算子性能以及系统稳定性提出的要求,远超外界想象。

显存与带宽:首要的硬件约束

与英伟达高端 GPU(如 H100、B200)相比,国产芯片在单卡 HBM 容量与带宽上仍存在差距,导致可用显存空间被明显压缩。要将 1.6T 级别的「专家库」在工程上落地,必须在集群侧进行极其精细的切分与调度。

换言之,研发团队必须在万卡规模下,对专家并行(EP)、张量并行(TP)与流水线并行(PP)进行重新组合与解构,才能完成整体训练部署。有接近研发的人士表示,团队围绕并行策略与显存优化,做了大量底层调整。包括前述的 N-gram Embedding 与稀疏注意力设计,本质上也是在为显存和带宽「腾空间」。

软件生态与算子效率:更隐性的难点

与 CUDA 生态在算子库和调度效率上的优势相比,国产芯片在部分核心算子(如 GEMM、注意力相关计算)上仍有优化空间。消息人士透露,为提升执行效率,团队并未完全依赖通用框架,而是对核心算子进行了针对性重写与优化,并引入了「确定性计算」机制,以确保大规模训练中的可复现性与调试能力。

系统稳定性:数万卡规模下的新变量

当训练规模扩展至数万卡级别后,系统稳定性成为另一个主要变量。在长周期训练过程中,硬件掉线、通信抖动与任务中断不再是异常情况,而是常态问题。为此,团队额外构建了一套容错与恢复体系,包括链路感知、自动重调度与多层异常检测机制,旨在降低局部故障对整体训练的影响。

最后,团队针对国产硬件的特点,对训练框架和模型结构进行了亲和设计,显著提升了计算性能。

综合来看,在国产芯片上跑通 1.6T 模型,本质上是「用软件工程的勤奋,弥补硬件生态的欠缺」。正如消息人士所言,尽管国产芯片在显存等硬指标上仍有差距,但在计算正确性、数值精度以及长周期训练稳定性这些最核心的指标上,已经能够追平国际水平,足以支撑万亿级 MoE 模型的全流程训推。


国产算力:从「能用」迈向「好用」

过去几年,关于国产芯片始终有一个现实问题:能不能做大模型?答案逐渐变成「能做」。但行业更在意的是下一个问题:能不能支撑最前沿、最高强度、最长周期的顶级任务?

在国产生态仍处于「补课期」的现实下,LongCat 团队没有选择在岸边等待水清,而是选择「边渡江边修船」。与 DeepSeek V4 相比,LongCat-2.0-Preview 走得更远——从训练到推理,全流程实现了完全国产化。

这也让它的意义超越了「又一个万亿模型」,更是一场产业级验证:国产算力,正在跨过从「可替代」到「可承担顶级任务」的关键门槛。

正如业内人士所言,将 DeepSeek V4 与 LongCat-2.0-Preview 放在一起看,国产大模型生态虽仍不完美,但已经迈出了肉眼可见的关键一步。那些踩过的坑、补齐的短板、攻克过的工程难题,最终也会沉淀成整个国产 AI 基础设施的公共能力。

当国产芯片开始承载这些前沿大模型,并获得实际验证与背书,不仅为国产生态注入了信心,也为更深层的结构性变革打开了空间。

如果说全流程国产化是「造出了车」,那么开源就是「修好了路」,邀请所有人一起跑起来。这种开放基因早已植根于 LongCat 的版图中。这一次 LongCat-2.0 Preview 大概率也将延续这一开放路线。至于具体的开源方式与时间,我们不妨拭目以待。

目前,LongCat-2.0-Preview 已开放内测,每天提供 1000 万免费 Token 额度。无论是技术发烧友想亲手跑一下这个全自研的万亿模型,还是企业开发者想评估国产算力 API 的可用性,都值得一试。

访问链接:
https://longcat.chat/platform/usage


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32817

(0)
上一篇 1天前
下一篇 2小时前

相关推荐

  • 空间智能第一股上市暴涨171%!群核科技成AI下半场领跑者,李飞飞、英伟达、腾讯阿里竞相押注

    空间智能第一股上市暴涨171%,群核科技成AI下半场领跑者 “空间智能第一股”正式登陆资本市场。 今日,群核科技(股票代码:00068.HK)在港交所挂牌上市,开盘报20.70港元,较发行价大幅上涨171.65%。 公司董事长黄晓煌在上市仪式上表示: 15年前,群核科技以GPU上云为起点,秉持着‘让每一个空间,都成为可计算的世界’的愿景发展至今。 未来,我们…

    2026年4月17日
    25700
  • SonicMoE:突破细粒度MoE硬件效率瓶颈,实现高稀疏性下的极致训练加速

    混合专家(MoE)模型架构已成为当前大语言模型规模化扩展的关键技术路径,其通过稀疏激活机制,在保持计算成本相对稳定的前提下,实现了模型参数量的指数级增长。然而,随着技术演进,MoE模型正呈现出两个显著趋势:专家粒度不断细化(即专家中间层维度持续缩小)和模型稀疏性持续提升(在专家总数大幅增加的同时保持激活专家数基本不变)。这一趋势在近期开源的DeepSeek …

    2025年12月19日
    37600
  • OpenAI财务危机深度剖析:推理成本指数级增长与收入线性增长的致命剪刀差

    OpenAI作为人工智能领域的领军企业,其财务状况一直是行业关注的焦点。近期曝光的微软财报数据揭示了这家公司面临的严峻挑战:推理成本正以指数级速度增长,而收入仅呈现线性增长态势,两者形成的“成本-收入剪刀差”正在急剧扩大,这不仅是OpenAI的个体困境,更折射出整个大模型产业面临的系统性风险。 从微软公布的Azure服务模型推理成本数据来看,OpenAI的财…

    2025年11月29日
    33300
  • 2025人工智能年度盘点:开源竞速、Agent崛起与产业融合的共生纪元

    2025年,人工智能领域迎来了前所未有的技术爆发与产业融合。这一年,开源与闭源模型的双线竞速、AI Agent的规模化应用、世界模型的商业化落地以及具身智能的全面渗透,共同勾勒出一幅“共生无界”的智能未来图景。 **开源与闭源的边界消融** 2025年初,DeepSeek-R1的横空出世为全年技术叙事定下基调。这款模型不仅在参数规模上实现突破,更在推理效率、…

    2025年12月10日
    32200
  • 鸿蒙6开启A2A智能体协作时代:从“人找服务”到“服务找人”的交互革命

    在华为Mate80系列及MateX7发布会上,搭载鸿蒙6系统的折叠屏旗舰Mate X7展示了令人瞩目的AI交互新范式——Agent to Agent(A2A)智能体协作的商用落地。这不仅是华为在移动AI领域的一次重大突破,更标志着整个手机行业正迎来定义下一代应用交互规则的战略窗口期。 传统移动应用生态长期面临“功能孤岛”困境。APP之间相互独立、数据割裂的特…

    2025年12月6日
    48400