DeepSeek近期动作频繁。
先是5月22日,彭博社披露其正推进700亿元人民币的融资,投前估值高达450亿美元。

同一天,DeepSeek官方宣布V4-Pro API永久降价75%,将促销价格直接固化为常规售价。
一边向投资者寻求资金,一边向开发者让利。这一操作,让人颇感困惑。
那么,核心问题是:DeepSeek究竟靠什么盈利,并且要赚取巨额利润?
毕竟,AGI的实现绝非空谈。
这正是X平台博主@bookwormengr近期深入探讨的一个严峻问题。
他在长文《DeepSeek’s 10 trillion USD grand strategy》中提出了一个大胆的判断:DeepSeek的真正目标,可能不是销售编程套餐或语音助手,而是参与塑造一个价值十万亿美元级别的AI硬件生态,并在此生态中冲击万亿美元级估值。

仔细研读@bookwormengr的这篇万字长文后,你会发现:梁文锋并非异想天开,而是一位深思熟虑的棋手。
而且是高手,他正在下一盘价值十万亿美元的棋局。
英雄之旅:一场反共识的技术长征
回顾DeepSeek的发展历程,用“英雄之旅”来形容并不为过。
当所有人都在堆砌Dense模型、比拼参数量时,DeepSeek却选择攻克最难训练的MoE(混合专家模型),以更少的计算量换取更高的智能。
当别人使用PPO进行强化学习时,他们从第一性原理出发,发明了成本更低的GRPO算法。
当业界还在讨论RLHF的瓶颈时,他们已经成功运行了RLVR(基于可验证奖励的强化学习),将推理能力提升至新高度。
MLA、DSA(解耦稀疏注意力)、mHC(流形约束超连接)、CSA和HCA——这些并非论文中的花哨技巧,每一项都旨在回答同一个问题:如何在有限的硬件条件下,最大化地榨取AI算力?
英雄在启程时并不知晓自己的使命。他们在战斗中不断成长、发现,最终找到终极归宿。
DeepSeek的宿命,绝非仅仅售卖API套餐。
一道有趣的数学题:KV Cache的秘密
让我们从一个具体数字开始讲述这个故事。
打开kvcache.ai的在线计算器,输入100万token上下文、8bit KV精度、16bit索引精度,你会看到一组令人震惊的对比:DeepSeek V4 仅需 5.48GB HBM。

相比之下,其他顶级开源模型动辄需要 60GB HBM。
请注意,DeepSeek V4是一个1.6万亿参数的模型,体量远超其他开源模型,但其KV Cache占用却仅有它们的零头。
这意味着DeepSeek可以将缓存命中的价格设定到令人难以置信的低位——V4-Pro缓存命中价仅为0.025元/百万Token,不到Claude Sonnet 4.6同类价格的3%,并且可以持续缓存数小时。
永久降价后,输入缓存未命中价格为3元/百万Token,输出价格为6元/百万Token,均为原价的四分之一。

梁文锋两年前就阐述过DeepSeek的定价哲学:我们的原则是不贴钱,也不赚取暴利。
现在看来,他说的是实话——当你的KV Cache只有别人的十分之一时,你的成本就是别人的零头。
但更深层的问题是:这个红利究竟流向了哪里?
十万亿美元的棋盘:硬件生态的重构
答案隐藏在三个缩写中:SSD、LPDDR、HBM。
第一层:SSD与NAND闪存。 KV Cache被压缩到极小后,可以高效地卸载(offload)到SSD上,待需要时再快速加载回HBM。
DeepSeek在Dual Path论文中还专门优化了从SSD加载KV Cache的速度。这直接减少了对昂贵HBM的依赖。
谁是SSD和NAND闪存的主要玩家?DeepSeek每压缩一分KV Cache,就为NAND和SSD创造了一个庞大的新市场。
第二层:LPDDR内存。 SGLang团队的研究表明,LPDDR完全可以作为“权重暂存区”——模型权重先存放在LPDDR中,需要时再流式传输到HBM,大幅缓解HBM的容量压力。


DeepSeek的MoE架构天然适配此方案:专家数量多、权重可进行4bit量化,流式加载非常高效。
谁在做LPDDR?国产速度仅落后0.5代,密度落后1代,追赶的脚步已非常接近。
第三层:GPU/ASIC的减压。 Engram模块使用LPDDR中的哈希查表替代Transformer的前向传播计算,本质上是用每比特成本极低的“内存读取”替代每比特成本极高的“GPU运算”。
这对中国AI芯片意义重大——由于EUV光刻机受限,国产GPU在原始FLOPs上落后。但如果你能用更多廉价内存替代更少的昂贵算力,那么这种“换道超车”就变得合理了。
再加上TileLang——DeepSeek投资的跨硬件内核编译框架,可以使一套计算代码同时运行在多种硬件平台上,相当于绕过了“CUDA护城河”。国产芯片厂商因此可能获得生态层面的突破。
现在你明白了吗?DeepSeek的每一项技术创新,都指向同一个方向:降低对顶级硬件的依赖,让中国现有的存储、芯片、网络生态变得足够用,甚至好用。

@bookwormengr算了一笔大账:全球AI相关股票的总市值早已远超十万亿美元。
如果DeepSeek能帮助中国构建一个等量级的AI硬件生态,它自己在这盘棋中拿到1万亿美元的估值,完全合乎逻辑。

不赚快钱的逻辑
回头再看DeepSeek的所有“不做”——不做多模态(V4.1才开始试水图像和音频)、不做语音模型、不做视频模型、API一降再降——就变得合情合理了。
不是“不会赚钱”,而是“暂时不屑于赚这种钱”。
@bookwormengr提出了一个精彩的类比:OpenAI拿到了AMD和Cerebras的股权认购权证,只要达成算力采购里程碑,就可以低价买入股票。这本质上是“用承诺换股权”——你帮我造芯片,我给你订单,我们一起把蛋糕做大。

DeepSeek完全可以复制这个模式。
只不过它面对的不是AMD和Cerebras,而是整条国产AI硬件产业链。
梁文锋是量化基金出身,被称为“Jim Simmon 的忠实粉丝”。这样一个人,不可能不懂资本运作的精妙之处。
事实上,在融资消息传出前,他已于2026年4月完成了一次关键的股权调整——通过直接与间接持股控制公司约84.29%的股权,表决权100%。

宁德时代投资DeepSeek——它要锁定未来AI数据中心的储能订单。京东、网易入局,各有各的战略诉求。
国家大基金下场,更是将DeepSeek定位为国家级的AI基础设施。
这些投资者看到的,不是一个卖API的小生意。他们看到的,是一个可能重塑全球AI硬件格局的战略支点。
终极使命:大规模强化学习与AGI
但如果你以为DeepSeek的终点是“做中国AI硬件生态的发动机”,那可能还是低估了梁文锋。
据彭博社报道,梁文锋在投资者会议上明确表态:DeepSeek的主要目标是推动技术边界,追求AGI。

硬件生态是手段,AGI才是目的。
逻辑如下:当更多硬件选择变得可用、当算力需求本身被技术创新大幅压低,DeepSeek就能以更低的成本启动更大规模的训练——特别是强化学习(RL)后训练和递归自我改进(RSI)。
大规模RL意味着模型需要生成海量的推理轨迹——万亿级token的生成量,计算成本极其恐怖。而100万上下文的长程任务,要求轨迹本身也足够长。
倘若没有极致的硬件效能优化作为支撑,这样的训练过程根本无法实际展开。
RSI的设想更为激进——它让AI自主设计实验、执行实验、分析结果并持续优化自身。这种高密度试错的机制,对算力的需求近乎无底洞。
然而,一旦DeepSeek通过对硬件生态的重构成功压低算力成本,这条路径便具备了可行性。
从MoE到MLA,从DSA到CSA,从Engram到TileLang,从KV Cache压缩到LPDDR流式加载——所有这些创新最终都指向同一个核心目标:让AGI的训练从「烧不起」变成「烧得起」。
梁文锋与DeepSeek所仰望的星辰大海,从来不是海面上的浪花,而是驱动一切的洋流本身。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36304

