DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

4小时前 • AI产业动态 • 阅读 613

星期五中午，本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然正式发布并开源了 V4 系列模型预览版。一上来就是王炸级别，而且双双标配百万 token 上下文：

参数量达 1.6T 的 DeepSeek-V4-Pro（49B 激活参数）
284B 参数的 DeepSeek-V4-Flash（13B 激活参数）即日起可在官网 chat.deepseek.com 或官方 App 体验，API 服务同步上线。

DeepSeek V4 登场，Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。员工的实测反馈是：用起来比 Sonnet 4.5 顺手，交付质量接近 Opus 4.6 非思考模式，和 Opus 4.6 思考模式相比还有差距。官方内部 R&D 编程基准测试也给出了类似的定位，约 200 个来自 50 余位工程师的真实工作任务里，V4-Pro-Max 的 Pass Rate 是 67%，Sonnet 4.5 是 47%，Opus 4.5 Thinking 是 73%，Opus 4.6 Thinking 是 80%。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

参与内部调研的 85 名有使用经验的开发者和研究人员中，超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配，代码任务与文档生成均有提升。工具调用方面，V4 系列引入了新的 XML 格式 tool-call schema，以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误，比上一代更可靠。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

知识与推理层面，V4-Pro 在世界知识测评中大幅领先其他开源模型。SimpleQA-Verified 得分 57.9，比最接近的开源竞争者高出约 20 个百分点，只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型，达到顶级闭源模型水准。基座模型层面，V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5，全面大幅领先参数量相近的 V3.2-Base（对应分别是 87.8、65.5、28.3、40.2）。值得一提的是，参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base，说明架构层面的改进本身带来了相当可观的效率提升。指令模型的横向对比里，V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5，Codeforces Rating 达到 3206，均为参测模型中最高。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

在 Codeforces 人类选手排行榜上，V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8，仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2，和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2，超过同场对比的所有模型。Agent 评测方面，SWE Verified Resolved 为 80.6，和 Opus-4.6 Max 的 80.8 基本持平。BrowseComp Pass@1 为 83.4，MCPAtlas Public Pass@1 为 73.6，均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实，并非只在内部框架上表现良好。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

长文本评测上，MRCR 1M MMR 为 83.5，CorpusQA 1M ACC 为 62.0，超过 Gemini-3.1-Pro 的 76.3 和 53.8，但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。从分段数据来看，128K 以内的检索能力相当稳定，128K 之后开始出现明显下滑，但 1M 时的表现依然超过大多数同类模型。中文写作同样是 V4-Pro 的强项。官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型，在包含 3170 条样本的功能性写作评测中，V4-Pro 的胜率为 62.7%，Gemini 为 34.1%。创意写作方面，V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景，Claude Opus 4.5 仍有优势，胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」，选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位，第一反应是「Flash 就是降配版」。错，大错特错。 DeepSeek 的定位逻辑要更复杂，V4-Flash 的参数量和激活量都小得多，API 价格更有竞争力。推理能力和 Pro 很接近，世界知识储备稍逊，简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务，以及思考模式的选择。在 Think Max 模式下，V4-Flash 的推理性能可以大幅追近 Pro：LiveCodeBench Flash Max 达到 91.6，Codeforces Flash Max Rating 达到 3052，GPQA Diamond Pass@1 达到 88.1，IMOAnswerBench Pass@1 达到 88.4，和 Pro Max 的差距已相当有限。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

日常任务用 Flash，遇到硬骨头开 Think Max，性价比很高。模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例，HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7，Apex Pass@1 从 0.4 提升至 38.3，BrowseComp Pass@1 跃升至 83.4。对于复杂任务，选对思考强度，比纠结选哪个版本要重要得多。两款模型均支持三种推理强度，可通过 reasoning_effort 参数切换。非思考模式响应速度快，适合日常轻量任务；Think High 开启显式逻辑推理，适合复杂问题与规划；Think Max 推理能力拉满，适合探索模型上限，官方建议上下文窗口至少设置为 384K token，复杂 Agent 场景则直接设成 max。Think Max 模式下还有一段额外注入到系统提示开头的指令，要求模型「以绝对最大力度推理，不允许走捷径」，并强制要求把每一步推理、每一个被否定的假设都显式写出来。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

这种设计的效果从数据上看相当明显，也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文，榨干每一个 token

百万 token 上下文有不少模型都在宣传，但撑起这个规模的工程代价是完全不一样的。DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

传统的注意力计算量随序列长度平方增长，上下文一长就成了最主要的计算瓶颈。V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条，再用稀疏注意力只挑其中 k 条参与核心计算；

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

HCA 则用更激进的压缩率，把更长区间的 token 压缩为一条，但保持稠密注意力。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

CSA 里还有一个闪电索引器，用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分，再挑出 top-k 个块参与后续注意力，进一步压缩计算量。为了避免压缩损失局部细节，两种注意力都额外引入了滑动窗口分支，让每个 token 能完整看到最近的若干个相邻 token。效果是显著的，在 1M 上下文场景下，V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%，KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进，同样场景下推理计算量仅为 V3.2 的 10%，KV 缓存降至 7%。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

官方表示，百万上下文从现在起将是 DeepSeek 所有官方服务的标配。真·就长长长长长长长长。除注意力机制外，V4 还引入了流形约束超连接（mHC）来强化残差连接。传统残差连接把层与层之间的信号直接相加，而 mHC 把残差流的宽度扩展若干倍，再通过三组可学习的线性映射动态控制信号的混合方式。负责残差变换的矩阵被约束在双随机矩阵集合上，保证谱范数不超过 1，让跨层信号传播更加稳定。训练层面采用 Muon 优化器，通过迭代正交化梯度矩阵来更新参数，加快收敛速度并提升稳定性，和 AdamW 混用：大多数模块用 Muon，嵌入层、预测头、RMSNorm 权重仍用 AdamW。训练过程中遇到了 Loss Spike 问题。Loss Spike（损失尖峰）是指在深度学习模型训练过程中，损失函数（Loss）突然在短时间内大幅上升的现象。原本 loss 在平稳下降或波动，但某一步/某几轮突然飙升到一个很高的值。对此，DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」，在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引，把骨干网络和路由网络的更新解耦，打破两者之间的恶性循环。第二个是对 SwiGLU 激活函数的线性分量做截断，把数值范围钳制在 [-10, 10] 以内，直接压制异常值的出现。不过，两种方法目前只知道有效，机理还不够清晰，DeepSeek 在论文中坦承这个问题留待后续研究。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

此外，两款模型均在超过 32T token 的高质量数据上完成预训练，数据构成涵盖数学、代码、网页、长文档等多个类别，中期训练阶段还额外加入了 agentic 数据来强化代码能力。训练后阶段采用两步范式，先通过 SFT 与 GRPO 强化学习独立培养领域专家，涵盖数学、代码、Agent、指令跟随等多个方向，再经在线蒸馏（OPD）将各领域能力整合进单一模型。OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计，梯度估计更稳定，知识迁移更完整，代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载，隐藏层状态也做了专门缓存以避免显存爆炸。当然，源神，依然是那个源神！目前四个权重版本均已开源，可在 HuggingFace 或 ModelScope 下载。Base 版本采用 FP8 Mixed 精度，指令版本采用 FP4 与 FP8 混合精度，MoE 专家参数使用 FP4，其余参数使用 FP8。FP4 到 FP8 的反量化是无损的，因为 FP8（E4M3）比 FP4（E2M1）多两位指数位，动态范围更大，能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。此次发布未提供 Jinja 格式 chat template，官方在 encoding 文件夹中提供了 Python 脚本与测试用例，说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串，以及如何解析模型的文本输出。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

API 接入方面，V4-Pro 与 V4-Flash 已同步上线，同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上，调用时 base_url 不变，model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后（2026 年 7 月 24 日）停止使用，当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式，开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构，DeepSeek V4 这次一个更值得关注的变化，是英伟达不再是唯一选项。

也就是说，DeepSeek 没有给英伟达或 AMD 提前优化适配的机会，而是把早期访问权限独家开放给了国产芯片厂商。这意味着，国产模型在「去英伟达化」迈出了重要的一步。

DeepSeek V4正式发布：1.6T参数模型性能对标顶级闭源，Agent能力成最大亮点

DeepSeek 选择在 V4 这个节点上做这件事，时机很精准。

V4 的性能已经比肩顶级闭源模型，如果它只能跑在英伟达芯片上，那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾，这个叙事也有所完整：算法是自己的，代码是开源的，芯片是国产的。

巧合的是，黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示，DeepSeek不是一个无足轻重的进展。

他还假设了一个情况，那就是 DeepSeek 新模型在华为平台上首发，黄仁勋表示这一天对美国来说将是一个可怕的结果，因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳，而这些模型扩散到全球之后，就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理，这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度，V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择，正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接：https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4DeepSeek-V4 技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/31878

Agent能力 DeepSeek V4 开源大模型编程模型长文本处理

赞 (0)

0 0

OpenAI发布GPT-5.5：智能体式工作模型，性能超越对手

上一篇 5小时前

GPT-5.5理性算力工程：GB200 NVL72与推理效率的全栈创新

下一篇 2小时前

AI产业动态

大模型语义向量化的信号处理原理：从信息论到Transformer的深度解析

引言本文将从信号处理的角度，解读大模型语义向量化背后的信息论原理，并从时间序列的视角分析 Transformer 架构及其与 Granger 因果性的关联。我们首先提出一个核心观点：大模型的输入是 Token 的语义嵌入（即语义向量），这一过程本质上是将自然语言处理问题转换为信号处理问题。因此，向量化对于大模型至关重要，它与信号处理、信息论有着深刻的联系…

2026年1月30日
386000
AI产业动态

Gemini 3 Pro引爆创意革命：从文本到交互式应用的AI生成新范式

在人工智能技术快速迭代的浪潮中，谷歌最新发布的Gemini 3 Pro模型以其惊人的多模态生成能力，正在重新定义创意实现的边界。这款被网友戏称为“与上一代2.5 Pro之间差出一个GPT-5.1”的模型，仅发布一天就催生了大量令人惊叹的应用实例，展现出从简单文本描述到完整交互式应用的跨越式生成能力。从技术架构层面分析，Gemini 3 Pro的核心突破在于…

2025年11月20日
269000
AI产业动态

构建可扩展、生产级的 Agentic RAG Pipeline：分层架构与六层核心设计详解

面向大型数据集、符合行业标准的 Agentic RAG Pipeline 需要基于清晰、可扩展的分层架构进行构建。我们将系统结构化，使得 Agent 能够并行地进行推理、获取上下文、使用工具以及与数据库交互。每一层都承担明确的职责，涵盖从数据摄取、模型服务到 Agent 协调的全过程。这种分层方法有助于系统实现可预测的扩展，同时为终端用户保持较低的响应延迟。…

2026年1月22日
679000
AI产业动态

Depth Anything 3：以极简Transformer架构重塑3D视觉，单目深度估计迈向通用空间感知

近期，字节跳动研究团队发布的Depth Anything 3（DA3）在计算机视觉领域引发了广泛关注。这项研究通过极简的架构设计，挑战了当前3D视觉研究中普遍存在的过度复杂化倾向，为单目深度估计技术开辟了新的可能性。 DA3的核心突破在于其方法论上的根本性简化。研究团队发现，要实现高质量的3D视觉感知，并不需要专门设计的复杂神经网络架构。相反，一个标准的Tr…

2025年11月15日
359000
AI产业动态

AI能力翻倍仅需88.6天！METR报告揭示：我们连“监视的眼睛”都跟不上AI进化速度

AI能力的进化速度有多快？AI Futures Project的研究人员给出了一个量化的答案：88.6天——这是他们计算出的AI能力翻倍所需的最新周期。不到三个月。那份未被庆祝的报告 2026年1月29日，AI研究机构METR悄然发布了一份技术报告。没有发布会，没有CEO站台，也没有科技媒体的头版头条。 METR可以被视为AI能力的“计量标准局”，专门…

2026年4月4日
267000