📰 Ollama 预览版现已支持 MLX 加速 Apple Silicon

Ollama 发布了预览版,首次在 Apple Silicon 上使用 MLX 框架加速模型运行。

– 基于苹果 MLX 机器学习框架,利用统一内存架构实现显著性能提升
– 在 M5/M5 Pro/M5 Max 芯片上,借助 GPU 神经加速器大幅提升首 token 响应速度和生成速度
– 支持 NVFP4 格式,在减少内存带宽占用的同时保持模型精度
– 缓存机制升级:跨对话复用缓存、智能化检查点、更智能的驱逐策略
– 推荐配置:32GB 以上统一内存的 Mac
– 预览版加速 Qwen3.5-35B-A3B 模型,prefill 性能达 1851 token/s,decode 性能达 134 token/s


原文链接:https://ollama.com/blog/mlx

🕐 发布于: 2026年03月31日 18:01

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注