📰 Ollama 预览版现已支持 MLX 加速 Apple Silicon

作者：

在

Ollama 发布了预览版，首次在 Apple Silicon 上使用 MLX 框架加速模型运行。

– 基于苹果 MLX 机器学习框架，利用统一内存架构实现显著性能提升
– 在 M5/M5 Pro/M5 Max 芯片上，借助 GPU 神经加速器大幅提升首 token 响应速度和生成速度
– 支持 NVFP4 格式，在减少内存带宽占用的同时保持模型精度
– 缓存机制升级：跨对话复用缓存、智能化检查点、更智能的驱逐策略
– 推荐配置：32GB 以上统一内存的 Mac
– 预览版加速 Qwen3.5-35B-A3B 模型，prefill 性能达 1851 token/s，decode 性能达 134 token/s

原文链接：https://ollama.com/blog/mlx

🕐 发布于: 2026年03月31日 18:01

📰 Ollama 预览版现已支持 MLX 加速 Apple Silicon

评论

发表回复取消回复

更多文章

📰 YC S25首家AI编码初创Twill.ai：让AI代理帮你提交PR

📰 Sam Altman回应”莫洛托夫 cocktail”事件

📰 Linux内核正式发布AI辅助贡献指南

📰 Eve：面向工作场景的托管 OpenClaw 服务

📰 Ollama 预览版现已支持 MLX 加速 Apple Silicon

评论

发表回复 取消回复

更多文章

📰 YC S25首家AI编码初创Twill.ai：让AI代理帮你提交PR

📰 Sam Altman回应”莫洛托夫 cocktail”事件

📰 Linux内核正式发布AI辅助贡献指南

📰 Eve：面向工作场景的托管 OpenClaw 服务

发表回复取消回复