📰 3970亿参数大模型笔电运行:Flash-MoE技术突破

一个纯C/Metal推理引擎成功在MacBook Pro (48GB RAM)上运行3970亿参数的MoE大模型:

  • 模型通过SSD流式加载(209GB),无需将整个模型加载到内存
  • 采用4-bit量化 expert 权重,按需从NVMe SSD读取活跃expert
  • 推理速度达4.4 tokens/秒,支持完整的tool calling功能
  • 关键技术:FMA优化反量化内核、信任OS页面缓存、手写Metal着色器
  • 消除了自定义缓存机制,依赖OS页面缓存实现约71%命中率
  • 实验证明:很多看似合理的优化(如预取、MLP路由预测、内存压缩)实际反而降低性能

原文链接:https://github.com/danveloper/flash-moe

🕐 发布于: 2026年03月23日 08:08

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注