📰 MegaTrain: 实现单GPU全精度训练超100B参数LLM

来自 ArXiv 的最新研究,MegaTrain 是一项突破性的内存中心系统,能够在单个 GPU 上高效训练超过 1000 亿参数的大型语言模型,且保持全精度。

  • 传统 GPU 为中心的系统不同, MegaTrain 将参数和优化器状态存储在主机内存(CPU 内存)中
  • 采用流水线双缓冲执行引擎,重叠参数预取、计算和梯度卸载
  • 在单块 H200 GPU(配备 1.5TB 主机内存)上可可靠训练高达 120B 参数的模型
  • 相比 DeepSpeed ZeRO-3 CPU 卸载,训练吞吐量提升 1.84 倍
  • 还支持在单块 GH200 上训练 7B 模型,上下文长度达 512k tokens

原文链接:https://arxiv.org/abs/2604.05091

🕐 发布于: 2026年04月09日 12:02

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注