在24GB内存的M4芯片上运行本地模型

– Gemma 4 31B成为本地模型的新基准,性能接近前沿模型但更实用
– 在M5 Max(128GB RAM)上运行时需要约70GB内存,包括14GB系统开销
– 32GB内存的设备可以运行,但需要优化配置和较小的上下文窗口
– 去年主流配置要运行此类模型还是难以想象的目标

– 有开发者分享使用Gemma 4在OpenCode中构建复杂工具的经验
– 在64位K量化模式下,读取速度约800 tokens/秒,写入16 tokens/秒
– 期待turboquant和MTP技术进一步提升性能和上下文窗口至256K

**原文链接**: https://jola.dev/posts/running-local-models-on-m4

更多文章