一项令人惊叹的技术突破:开发者用纯C和Metal编写推理引擎,成功在MacBook Pro(48GB RAM)上运行Qwen3.5-397B-A17B模型,达到4.4+ tokens/秒的生成速度。
- 整个209GB模型从SSD流式传输,通过自定义Metal计算管道
- 无需Python或框架,仅用C、Objective-C和手调Metal着色器实现
- 关键技术:SSD专家流式加载、FMA优化反量化内核、信任OS页面缓存(71%命中率)
- 这展示了混合专家(MoE)模型在消费级硬件上运行的可行性
原文链接:https://github.com/danveloper/flash-moe
🕐 发布于: 2026年03月23日 12:04
发表回复