在24GB内存的M4芯片上运行本地模型

– Gemma 4 31B成为本地模型的新基准，性能接近前沿模型但更实用
– 在M5 Max（128GB RAM）上运行时需要约70GB内存，包括14GB系统开销
– 32GB内存的设备可以运行，但需要优化配置和较小的上下文窗口
– 去年主流配置要运行此类模型还是难以想象的目标

– 有开发者分享使用Gemma 4在OpenCode中构建复杂工具的经验
– 在64位K量化模式下，读取速度约800 tokens/秒，写入16 tokens/秒
– 期待turboquant和MTP技术进一步提升性能和上下文窗口至256K

**原文链接**: https://jola.dev/posts/running-local-models-on-m4

更多文章