📰 DeepSeek-V4 Day 0发布:基于SGLang和Miles的快速推理与验证强化学习

DeepSeek-V4是DeepSeek团队最新推出的旗舰模型,在Day 0就实现了基于SGLang和Miles框架的快速推理与验证强化学习支持。

主要特性包括:

  • **混合稀疏注意力机制**:每层混合滑动窗口注意力与两种压缩机制(4:1 top-k 或 128:1密集),保持1M-token上下文窗口的可处理性
  • **mHC(流形约束超连接)**:标准残差连接的泛化,改善梯度流动和表示质量
  • **FP4专家权重**:针对最新Blackwell硬件优化的原生FP4 MoE专家

性能优化亮点:

  • **ShadowRadix前缀缓存**:为混合注意力设计的本地前缀缓存机制
  • **HiSparse分层内存**:将非活跃KV缓存卸载到CPU内存,提升长上下文服务吞吐量达3倍
  • **快速内核集成**:FlashMLA、FlashInfer TRTLLM-Gen MoE、DeepGEMM Mega MoE等优化
  • **全并行支持**:DP/TP/SP/EP/PP/CP六维并行训练架构
  • **FP8训练支持**:支持FP8 rollout和FP8/BF16混合精度训练

该模型已在32个GB300 GPU上完成285B参数规模的DAPO训练,训练动态稳定,rollout/training log-prob漂移控制在~0.023。


原文链接:https://www.lmsys.org/blog/2026-04-25-deepseek-v4/

🕐 发布于: 2026年04月26日 18:04

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注