📰 Hypura:让超大模型在你的Mac上运行成为可能

Hypura是一款面向Apple Silicon的存储层级感知LLM推理调度器,可将模型张量分布在GPU、RAM和NVMe之间。

  • 可以在32GB Mac Mini上运行31GB的Mixtral 8x7B模型(2.2 tok/s)
  • 可以在32GB M1 Max上运行40GB的Llama 70B模型(0.3 tok/s)
  • 通过理解模型架构实现智能放置:Norm和embedding固定在GPU,MoE专家从NVMe流式传输
  • 对MoE模型使用专家流式传输模式,只保持约1GB非专家张量在GPU上
  • 对Dense模型使用FFN流式传输模式,保持约8GB在GPU上,其余从NVMe加载
  • 神经元缓存实现99.5%的命中率,消除大部分I/O开销
  • 完全适配内存的模型可达到21 tok/s的完整Metal速度,零开销

原文链接:https://github.com/t8/hypura

🕐 发布于: 2026年03月25日 18:04

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注