📰 DeepSeek-V4 Day 0发布：基于SGLang和Miles的快速推理与验证强化学习

作者：

在

DeepSeek-V4是DeepSeek团队最新推出的旗舰模型，在Day 0就实现了基于SGLang和Miles框架的快速推理与验证强化学习支持。

主要特性包括：

**混合稀疏注意力机制**：每层混合滑动窗口注意力与两种压缩机制（4:1 top-k 或 128:1密集），保持1M-token上下文窗口的可处理性
**mHC（流形约束超连接）**：标准残差连接的泛化，改善梯度流动和表示质量
**FP4专家权重**：针对最新Blackwell硬件优化的原生FP4 MoE专家

性能优化亮点：

**ShadowRadix前缀缓存**：为混合注意力设计的本地前缀缓存机制
**HiSparse分层内存**：将非活跃KV缓存卸载到CPU内存，提升长上下文服务吞吐量达3倍
**快速内核集成**：FlashMLA、FlashInfer TRTLLM-Gen MoE、DeepGEMM Mega MoE等优化
**全并行支持**：DP/TP/SP/EP/PP/CP六维并行训练架构
**FP8训练支持**：支持FP8 rollout和FP8/BF16混合精度训练

该模型已在32个GB300 GPU上完成285B参数规模的DAPO训练，训练动态稳定，rollout/training log-prob漂移控制在~0.023。

原文链接：https://www.lmsys.org/blog/2026-04-25-deepseek-v4/

🕐 发布于: 2026年04月26日 18:04

评论

发表回复取消回复

更多文章