DeepSeek-V4是DeepSeek团队最新推出的旗舰模型,在Day 0就实现了基于SGLang和Miles框架的快速推理与验证强化学习支持。
主要特性包括:
- **混合稀疏注意力机制**:每层混合滑动窗口注意力与两种压缩机制(4:1 top-k 或 128:1密集),保持1M-token上下文窗口的可处理性
- **mHC(流形约束超连接)**:标准残差连接的泛化,改善梯度流动和表示质量
- **FP4专家权重**:针对最新Blackwell硬件优化的原生FP4 MoE专家
性能优化亮点:
- **ShadowRadix前缀缓存**:为混合注意力设计的本地前缀缓存机制
- **HiSparse分层内存**:将非活跃KV缓存卸载到CPU内存,提升长上下文服务吞吐量达3倍
- **快速内核集成**:FlashMLA、FlashInfer TRTLLM-Gen MoE、DeepGEMM Mega MoE等优化
- **全并行支持**:DP/TP/SP/EP/PP/CP六维并行训练架构
- **FP8训练支持**:支持FP8 rollout和FP8/BF16混合精度训练
该模型已在32个GB300 GPU上完成285B参数规模的DAPO训练,训练动态稳定,rollout/training log-prob漂移控制在~0.023。
原文链接:https://www.lmsys.org/blog/2026-04-25-deepseek-v4/
🕐 发布于: 2026年04月26日 18:04
发表回复