📰 Hypura：让超大模型在你的Mac上运行成为可能

作者：

在

Hypura是一款面向Apple Silicon的存储层级感知LLM推理调度器，可将模型张量分布在GPU、RAM和NVMe之间。

可以在32GB Mac Mini上运行31GB的Mixtral 8x7B模型（2.2 tok/s）
可以在32GB M1 Max上运行40GB的Llama 70B模型（0.3 tok/s）
通过理解模型架构实现智能放置：Norm和embedding固定在GPU，MoE专家从NVMe流式传输
对MoE模型使用专家流式传输模式，只保持约1GB非专家张量在GPU上
对Dense模型使用FFN流式传输模式，保持约8GB在GPU上，其余从NVMe加载
神经元缓存实现99.5%的命中率，消除大部分I/O开销
完全适配内存的模型可达到21 tok/s的完整Metal速度，零开销

原文链接：https://github.com/t8/hypura

🕐 发布于: 2026年03月25日 18:04

评论

发表回复取消回复

更多文章