DeepSeek V4：一句“下半年上国产算力”，比所有发布会都重要

星海情报局
星海情报局官方账号

关注“中国制造”的星辰大海1小时前

他来了，他来了，他带着V4走来了。

500

前两天我们才聊过DeepSeek融资的事儿，今天V4就上新了，普天同庆了属于是。

上一次DeepSeek引发全球震动，是2025年初V3正式发布的时候。那一次，一个中国团队用据称不到600万美元的算力成本，训练出了一个可以和GPT-4正面竞争的模型，然后把它开源，整个硅谷集体失语了几天，英伟达股票直接一波暴跌。

之后的一年，AI圈的发布节奏快得令人眩晕。Anthropic发了Claude 4系列，Google推了Gemini-Pro-3.1，OpenAI在o系列上持续迭代，最近更是恐怖，一周时间里，我们相继见证了image 2.0和GPT-5.5的发布，全球AI领域堪称是“勃勃生机，万物竞发”的境界。

而DeepSeek那边，只发了几个不算引人注目的中间版本：V3.1、V3.2-Exp，每次跑分和前代差不多，看起来像是在原地踏步。

关于V4什么时候发的传言从2025年底就没停过。有人说是和之前一样在春节前，结果却是一直等到了四月底。

然后零帧起手，毫无预警，DeepSeek把V4放出来了。同步开源，同步上线官网和App，同步更新API。发布稿结尾引了一句荀子：「不诱于誉，不恐于诽，率道而行，端然正己。」

现在回头看那些"没什么亮点"的中间版本，才明白那是在铺路。

V4是什么

500

这次V4一口气发了两个版本。

DeepSeek-V4-Pro，总参数1.6万亿，每次推理激活490亿。定位是对标顶级闭源模型的旗舰版本。DeepSeek-V4-Flash，总参数2840亿，激活130亿，是更小更快的经济版本。

理解这两个数字需要先理解V4的架构。

V4采用的是MoE（混合专家）架构，模型内部有大量"专家"子网络，每次处理一个token时，由路由机制决定激活哪几个专家参与计算。这意味着，V4-Pro虽然有1.6万亿参数，但实际每次推理的计算量更接近一个490亿参数的稠密模型。总参数决定知识容量，激活参数决定推理成本，这是MoE架构最核心的商业逻辑。

为什么这个原理很重要呢？

因为推理成本主要由激活参数量决定，不是总参数量。

所以V4-Pro的实际推理开销更接近一个49B的稠密模型，而不是1.6T。但它的"知识容量"理论上接近1.6T，因为不同token会激活不同的专家组合。

打个简单的比方就是：一家公司有1600个员工，个个都身怀绝技，每个项目只调49人上阵，但可以按需组合不同专家。

在能力评估上，DeepSeek的官方定位有几个值得注意的地方。

首先，他们没有回避上限，这本身就是一种坦然和自信。发布稿明确写道，V4-Pro的Agent能力优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。这种有上限有下限的写法，在国内AI发布稿里相对罕见，反而增加了可信度。

其次，能力的分布是不均匀的。在数学、STEM、竞赛型代码等推理密集的任务上，V4-Pro声称超越所有开源模型，比肩顶级闭源。这和DeepSeek历来的强项一致。但在世界知识方面——也就是对事实性信息的覆盖广度——V4-Pro仅稍逊于Gemini-Pro-3.1，大幅领先其他开源模型。世界知识这块的差距来自数据，Google有Search索引和更大规模网页抓取的结构性优势，这不是算法可以短期弥补的。

V4-Flash的定位是明确的性价比选择。推理能力接近Pro，世界知识稍逊，但因为激活参数只有13B，API价格更便宜，响应更快。在Agent测评中，Flash在简单任务上和Pro旗鼓相当，复杂任务上有明显差距。对于大多数实际部署场景，Flash可能是更合理的默认选择。

1M上下文：从王牌变成“基本操作”

这是V4最值得认真对待的变化，但理解它需要一点背景。

一年前，百万token的上下文窗口是Gemini的独家特性，是Google用来区隔竞争对手的产品王牌。彼时其他所有主流模型，闭源的要么128K要么200K，开源的几乎没人能在这个量级上做到可用。1M上下文意味着可以把一整部长篇小说、一个大型代码库、几十份研究报告同时塞进模型的"工作记忆"里。这是一种质变，不只是量变。

今天，DeepSeek把1M上下文定成了所有官方服务的标配，并且开源。

问题是：为什么现在可以做到了？

传统Transformer架构有一个根本性的扩展难题：注意力机制的计算量随上下文长度平方级增长。上下文翻倍，计算量变四倍。这意味着把上下文从128K扩展到1M，理论上计算量会增长约60倍。在这个约束下，1M上下文要么需要极大的算力投入，要么速度慢到不可用，要么两者兼而有之。

V4的回答是DSA，DeepSeek Sparse Attention，稀疏注意力机制。

用大白话解释一下就是：想象你在读一本1000页的书，你要回答的问题是"第500页的观点和哪些内容有关"。笨办法是把第500页和其他999页逐一比较，一共做999次比较。页数翻倍，工作量变四倍——这就是平方增长的问题。

聪明办法分两步：

第一步（DSA）：先粗略扫一眼，判断哪些页面可能相关，只精读那几十页，其他的直接跳过。大多数页面和第500页根本没关系，不算也不会影响答案。

第二步（token压缩）：就算是那几十页"相关页面"，也不需要一字不差地读，可以先把每页压缩成一段摘要，用摘要来做比较。信息量再缩一轮。

两步叠加之后，书从1000页变成2000页，工作量不再是原来的四倍，而是大概两倍多——增长曲线被压平了。

500

这就是V4能把1M上下文做得既长又不贵的核心原因。。

这个架构的种子早在V3.2-Exp就已经种下。当时外界几乎没有人注意到DSA的引入，因为跑分变化不大，看起来像是一次无聊的中间版本。现在回头看，那是在用一个低调的版本验证新架构在生产环境下的稳定性。V3.2是V4的地基，不是一次失败的尝试。

1M上下文变成开源标配的意义，不在于数字本身，而在于成本曲线的改变。这个技术壁垒一旦被打穿并且开源，任何团队都可以在这个架构基础上继续迭代。长上下文从一个"有足够算力才能玩"的高端功能，变成了任何人都能用的基础能力。

这对Agent应用的影响尤其直接。

Agent任务的一个核心约束一直是上下文管理：任务链越长，需要维护的状态越多，有限的上下文窗口很快就成为瓶颈。1M窗口意味着Agent可以在一个更长的操作链里保持状态连贯，处理更大规模的代码库，跨越更多文档进行推理。

这也部分解释了为什么V4在Agent评测上的提升幅度如此显著——不只是模型变聪明了，底层条件也发生变化了。

03

国产算力：一条不依赖英伟达的路

发布稿里有一句话被很多人忽略了：下半年批量上国产算力。

500

这句话的分量，需要放在过去两年的地缘政治背景里才能看清楚。

2023年以来，美国对华芯片出口管制持续升级，英伟达H100、H800、A100相继被限制出口中国。这对中国AI公司的算力供给构成了实质性压力。训练和部署大型语言模型需要大量高端GPU，而可以合法获得的选项越来越少。

DeepSeek此前的训练主要依赖英伟达算力，V3的训练用的是H800集群。但随着出口管制收紧，这条路的可持续性越来越存疑。

昇腾系列是目前国内最成熟的替代方案。这次发布稿里，昇腾方面提供了相当详细的技术数据。昇腾950超节点上，V4-Pro的推理延迟可以达到TPOT 20毫秒，V4-Flash达到10毫秒。

当然，这些数字都是在离线推理模式下采集的，不包含实际服务调度的负载，现实部署中的数字会有折扣。但方向是明确的：昇腾已经能够支撑V4系列模型的量产部署，不再只是实验室里的备选方案。

"下半年批量上国产算力"意味着什么？至少有两个层面的含义。

第一层是供给安全。如果DeepSeek能在昇腾上实现和英伟达相近的推理性能，那么算力供给就不再是一个单点风险。出口管制的影响会被部分对冲。

第二层是生态信号。DeepSeek是中国最具影响力的开源模型之一，如果它正式在昇腾上规模部署，会带动整个开源社区和下游应用去适配昇腾生态。这对国产算力来说是一个远比单纯硬件销售更有价值的背书。

不过，无论如何吧，DeepSeek和国产算力的深度绑定，是这次发布里最具长期战略意义的一笔——算是从底子上开辟新格局，有自己的生态了。

虽然说现在还是有一定的遗憾，但能看出来，时期

V4发布稿结尾引的那句荀子的话，放在整个故事的语境里有点意味深长：

不诱于誉，不恐于诽，

率道而行，端然正己。

走自己的路，让他们说去吧！

这个节奏本身，也许就是他们最想传递的信息。

科技举报

星海情报局

关注“中国制造”的星辰大海 |

491篇文章 | 1313人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

DeepSeek V4：一句“下半年上国产算力”，比所有发布会都重要

星海情报局
星海情报局官方账号

星海情报局

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

DeepSeek V4：一句“下半年上国产算力”，比所有发布会都重要

星海情报局 星海情报局官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

星海情报局
星海情报局官方账号