📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

作者：

在

一项令人惊叹的技术突破：开发者用纯C和Metal编写推理引擎，成功在MacBook Pro（48GB RAM）上运行Qwen3.5-397B-A17B模型，达到4.4+ tokens/秒的生成速度。

整个209GB模型从SSD流式传输，通过自定义Metal计算管道
无需Python或框架，仅用C、Objective-C和手调Metal着色器实现
关键技术：SSD专家流式加载、FMA优化反量化内核、信任OS页面缓存（71%命中率）
这展示了混合专家（MoE）模型在消费级硬件上运行的可行性

原文链接：https://github.com/danveloper/flash-moe

🕐 发布于: 2026年03月23日 12:04

评论

发表回复取消回复

更多文章