一、导语:开源大模型的新里程碑
昨天上午,DeepSeek-V4正式发布并开源。
和以往单一模型不同,这次V4分为两个版本:V4-Pro(1.6T总参、49B激活)和V4-Flash(284B总参、13B激活)。两者都支持100万Token上下文,都采用MIT协议开源。
作为国产开源大模型的代表作,V4不仅在传统强项(数学推理、代码生成)上继续保持领先,更在长上下文处理和Agent能力上实现了质的飞跃。今天,我们就来深度解析V4背后的技术突破。
二、核心能力:四个维度全面提升
2.1 Agent能力:开源模型首次比肩顶级闭源
V4-Pro在Agentic Coding评测中已达到当前开源最佳水平。
根据DeepSeek官方披露,V4已经取代V3成为公司内部员工默认使用的Agentic Coding模型。使用体验优于Claude Sonnet 4.5,交付质量接近Claude Opus 4.6的非思考模式。
这次还专门针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了适配优化,在代码任务和文档生成任务上均有显著提升。
2.2 世界知识:仅次于Gemini-Pro-3.1
在知识评测中,V4-Pro大幅领先其他开源模型:
| 模型 | SimpleQA-Verified得分 |
|---|---|
| V4-Pro | 57.9 |
| Opus-4.6-Max | 46.2 |
| GPT-5.4-xHigh | 45.3 |
| Gemini-Pro-3.1 | 60.2(仅供参考) |
可以看到,V4-Pro的世界知识水平已经非常接近Gemini-Pro-3.1,远超其他顶级闭源模型。
2.3 推理性能:开源最佳
在数学、STEM、竞赛代码三类评测中,V4-Pro超过所有已公开评测的开源模型:
- LiveCodeBench Pass@1:93.5
- Codeforces Rating:3206
这两个指标都是对比组中的最高分,证明V4在复杂推理任务上的能力已经进入全球第一梯队。
2.4 长文本:1M上下文成为标配
以前DeepSeek网页版最多128K,1M只是灰度测试。从V4发布开始,1M上下文成为DeepSeek所有官方服务的默认配置,包括Chat、API、网页和App。
这个变化背后,是全新的注意力机制在支撑。
三、技术解析:混合注意力架构的三大创新
V4的架构创新集中在三个方向:
3.1 Hybrid Attention:CSA + HCA
V4引入了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)两种注意力层,通过交错使用实现长短通吃。
**CSA(Compressed Sparse Attention)**的做法是先把每m个token的KV压成一个entry,再跑稀疏注意力。Flash版本里,m=4,indexer query head 64个,head dim 128,sparse attention top-k=512。
**HCA(Heavily Compressed Attention)**更激进,每m’个token压一个,m’远大于m。Flash里m’=128,保持稠密注意力,专门处理超长距离依赖。
两者共用几个关键设计:
- query和KV entry的最后64维加RoPE,做partial rotary位置编码
- core attention用attention sink技巧,给每个head加可学习的sink logit
- 同时各自挂一个sliding window attention分支处理近邻token
3.2 mHC:流形约束的残差连接
mHC全称Manifold-Constrained Hyper-Connections,核心思想是用流形约束强化残差连接,把残差映射矩阵约束在双随机矩阵流形上。
这个约束保证了:
- 映射矩阵的谱范数有界
- 传播非膨胀
- 深层堆叠也不跑飞
实现上,mHC把残差宽度和hidden size解耦,用一个比hidden size小得多的expansion factor控制额外开销。参数动态生成,分输入相关和输入无关两部分。
3.3 Muon优化器:收敛更快更稳
DeepSeek把大部分模块的优化器从AdamW换成了Muon。
Muon的核心是用Newton-Schulz迭代做矩阵正交化,DeepSeek在此基础上做了改进,叫Hybrid Newton-Schulz。再叠加Nesterov trick和RMS rescaling,让AdamW的超参数可以直接复用。
实际效果:收敛更快,稳定性更好。
四、效率革命:1M上下文的算力代价
这是V4最值得关注的地方。
在1M上下文下,V4-Pro的:
- 单token推理FLOPs:仅为V3.2的27%
- KV cache:仅为V3.2的10%
V4-Flash更极致:
- 单token推理FLOPs:仅为V3.2的10%
- KV cache:仅为V3.2的7%
这意味着什么?意味着以前处理100万Token需要付出的算力和显存代价,现在只需要十分之一左右。
对于一百万token来说,一次性塞入《三体》三部曲还绰绰有余。再叠加V4在多轮对话里保留全部reasoning历史,长程Agent任务的连贯性也有了保障。
五、版本选择:Pro还是Flash?
V4给出了两个版本,该怎么选?
| 维度 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| Agent能力 | 开源最佳 | 简单任务接近Pro |
| 推理能力 | 顶级 | 接近Pro |
| 世界知识 | 领先开源 | 稍逊Pro |
| 成本 | 稍高 | 显著更低 |
简单来说:
- 追求极致性能:选V4-Pro
- 追求性价比:选V4-Flash(尤其适合简单Agent任务)
六、结语:开源生态的又一次突破
DeepSeek-V4的发布,再次证明了一个趋势:开源模型与闭源模型的差距正在快速收敛。
从2023年的”望其项背”,到2024年的”并驾齐驱”,再到2026年的”部分超越”,国产开源大模型走过了一条令人惊叹的追赶之路。
而V4带来的百万上下文支持,标志着长上下文处理正式进入”普惠时代”。当每一家企业、每一个开发者都能低成本地使用超长上下文能力,AI应用的可能性将被极大拓展。
法律文档分析、金融报告解读、多轮客户对话……这些过去受限于上下文窗口的场景,如今开始变得可行。

发表回复