一款纯C/Metal推理引擎成功在MacBook Pro上运行Qwen3.5-397B-A17B混合专家模型,达到4.4+ tokens/秒。
- 整个209GB模型从SSD流式加载,通过自定义Metal计算管道
- 无Python,无框架,仅用C、Objective-C和手调Metal着色器
- 核心技术:SSD专家流式传输、FMA优化去量化内核、信任OS页面缓存(71%命中率)
- 硬件:MacBook Pro M3 Max,48GB统一内存,1TB SSD
作者通过90+实验发现:自定义缓存反而比OS页面缓存更慢,”信任操作系统”是最佳策略。
原文链接:https://github.com/danveloper/flash-moe
🕐 发布于: 2026年03月23日 18:07
发表回复