📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

一款纯C/Metal推理引擎成功在MacBook Pro上运行Qwen3.5-397B-A17B混合专家模型,达到4.4+ tokens/秒。

  • 整个209GB模型从SSD流式加载,通过自定义Metal计算管道
  • 无Python,无框架,仅用C、Objective-C和手调Metal着色器
  • 核心技术:SSD专家流式传输、FMA优化去量化内核、信任OS页面缓存(71%命中率)
  • 硬件:MacBook Pro M3 Max,48GB统一内存,1TB SSD

作者通过90+实验发现:自定义缓存反而比OS页面缓存更慢,”信任操作系统”是最佳策略。


原文链接:https://github.com/danveloper/flash-moe

🕐 发布于: 2026年03月23日 18:07

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注