📰 3970亿参数大模型笔电运行：Flash-MoE技术突破

作者：

在

一个纯C/Metal推理引擎成功在MacBook Pro (48GB RAM)上运行3970亿参数的MoE大模型：

模型通过SSD流式加载（209GB），无需将整个模型加载到内存
采用4-bit量化 expert 权重，按需从NVMe SSD读取活跃expert
推理速度达4.4 tokens/秒，支持完整的tool calling功能
关键技术：FMA优化反量化内核、信任OS页面缓存、手写Metal着色器
消除了自定义缓存机制，依赖OS页面缓存实现约71%命中率
实验证明：很多看似合理的优化（如预取、MLP路由预测、内存压缩）实际反而降低性能

原文链接：https://github.com/danveloper/flash-moe

🕐 发布于: 2026年03月23日 08:08

评论

发表回复取消回复

更多文章