今早,AI圈被一则消息震撼:此前坚持不融资的DeepSeek,正寻求以不低于100亿美元的估值进行首次外部融资,目标筹集至少3亿美元。此举正值其下一代模型V4发布前夕,该模型据传将达万亿参数规模,并首次深度适配华为昇腾芯片。
融资策略的重大转变
据外媒The Information报道,DeepSeek正在寻求其首次外部融资,计划以不低于100亿美元的估值筹集至少3亿美元资金。这标志着这家由对冲基金巨头幻方量化支持的公司,打破了长期坚持的“不融资”原则。
在AI大模型开发这场极其烧钱的竞赛中,DeepSeek也需要充实资金储备。此次融资若能成功,将为其提供更多算力资源,并有助于以更具竞争力的薪酬防止顶尖研究人才流失。
此前,DeepSeek在R1模型引发全球关注后,曾多次拒绝国内顶级风投和科技巨头的投资意向。创始人梁文锋作为技术理想主义者,一直希望保持公司的独立性,避免商业压力的干扰。然而,自2025年R1发布后,DeepSeek已有一年半未推出新一代模型。面对全球顶尖模型的快速迭代以及中美科技巨头的激烈竞争,外部压力或许是促使其转变融资策略的关键因素。
V4模型:万亿参数的硬仗
备受期待的DeepSeek V4模型发布已多次推迟。据路透社4月初的消息,其最新发布时间窗口为“未来几周内”。从已知信息看,V4在规模和能力上均有巨大飞跃:
- 参数量级跃升:采用MoE(混合专家)架构,总参数约1万亿,但每个token仅激活约370亿参数,旨在保持与V3相当的推理成本。
- 超长上下文:上下文窗口扩展至100万token,并引入名为“Engram”的条件记忆架构,据称可实现恒定时间检索,在百万token长度下的信息召回率达97%。
- 原生多模态:据《金融时报》报道,V4将是DeepSeek首个原生多模态模型,支持文本、图像和视频生成。
- 代码能力强化:内部基准测试显示,其在SWE-bench上的成绩超过80%,HumanEval达到90%。据称能处理仓库级别的复杂Bug修复,长上下文代码推理能力有望超越Claude和GPT系列。
此外,爆料称V4可能分两个版本发布:完整版(超万亿参数)针对高级推理和复杂代码任务,深度适配华为昇腾芯片;轻量版(约2000亿参数)面向通用对话和API服务,可在其他国产芯片上运行。模型预计将继续以Apache 2.0协议开源。
近期,已有名为“V4 Lite”的测试版本短暂出现,且DeepSeek开始在内蒙古乌兰察布招聘服务器运维等基础设施岗位,种种迹象表明V4已进入大规模部署的最后准备阶段。
底层硬件的战略迁移
V4延期的核心挑战之一,在于其底层硬件的重大转变。据路透社报道,V4将运行在华为最新的昇腾芯片上。这意味着DeepSeek的工程师需要将模型从英伟达的CUDA生态迁移至华为的CANN架构,重写大量核心代码以解决适配问题。
这一选择既是技术决策,也具有战略意义。DeepSeek并未提前向英伟达或AMD提供V4进行优化适配,而是将早期访问权限独家给予了国产芯片厂商。如果V4能在华为芯片上展现出具有竞争力的性能,它将成为全球首个不依赖英伟达生态的前沿AI模型。
英伟达CEO黄仁勋近期在采访中对此表示担忧,称DeepSeek基于华为平台的新模型“对美国来说将是一个糟糕的结果”,暗示这可能会动摇美国芯片在AI领域的传统优势。
3亿美元赌注未来
在AI竞赛成本日益高昂的背景下,即便以高效著称的DeepSeek也难以仅靠单一股东持续输血。根据斯坦福大学2026年AI指数报告,中美顶级模型之间的性能差距已缩小至2.7个百分点,追赶的边际成本越来越高。
此次寻求的3亿美元融资,与OpenAI近期以3000亿美元估值完成的400亿美元融资相比规模较小,但其真正的赌注在于证明:前沿AI模型的开发与部署可以完全脱离原有的英伟达主导的硬件生态独立运转。
参考资料:
https://www.theinformation.com/articles/chinas-deepseek-raising-money-first-time-10-billion-plus-valuation?rc=epv9gi




关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30884

