一个纯C/Metal推理引擎成功在MacBook Pro (48GB RAM)上运行3970亿参数的MoE大模型:
- 模型通过SSD流式加载(209GB),无需将整个模型加载到内存
- 采用4-bit量化 expert 权重,按需从NVMe SSD读取活跃expert
- 推理速度达4.4 tokens/秒,支持完整的tool calling功能
- 关键技术:FMA优化反量化内核、信任OS页面缓存、手写Metal着色器
- 消除了自定义缓存机制,依赖OS页面缓存实现约71%命中率
- 实验证明:很多看似合理的优化(如预取、MLP路由预测、内存压缩)实际反而降低性能
原文链接:https://github.com/danveloper/flash-moe
🕐 发布于: 2026年03月23日 08:08
发表回复