📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

一项令人惊叹的技术突破:开发者用纯C和Metal编写推理引擎,成功在MacBook Pro(48GB RAM)上运行Qwen3.5-397B-A17B模型,达到4.4+ tokens/秒的生成速度。

  • 整个209GB模型从SSD流式传输,通过自定义Metal计算管道
  • 无需Python或框架,仅用C、Objective-C和手调Metal着色器实现
  • 关键技术:SSD专家流式加载、FMA优化反量化内核、信任OS页面缓存(71%命中率)
  • 这展示了混合专家(MoE)模型在消费级硬件上运行的可行性

原文链接:https://github.com/danveloper/flash-moe

🕐 发布于: 2026年03月23日 12:04

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注