Ollama v0.20.4 发布：Apple Silicon 性能优化，Gemma 4 启用 Flash Attention

AI摘要

Ollama v0.20.4版本发布，主要带来两项性能优化：针对Apple Silicon设备的MLX后端引入NAX注意力机制，提升M5模型推理性能；为Gemma 4系列模型启用Flash Attention，显著降低显存占用与计算开销。建议相关用户升级以获得性能提升。

Ollama 今天发布了 v0.20.4 版本，这是一个性能优化更新，主要集中在两个核心改进上。

核心更新

针对 Apple Silicon（M 系列芯片）的 MLX 后端进行了性能优化，通过引入 NAX（一种新的注意力机制实现）来提升 M5 模型的推理性能。

💡 我的看法：Apple Silicon 用户这次更新会有明显收益。NAX 优化了矩阵运算和内存访问模式，对大语言模型的推理加速很有效，特别是处理长上下文时。

为 Gemma 4 系列模型启用了 Flash Attention 机制，这是一种高效的注意力算法实现，可以显著降低显存占用和计算开销。

💡 我的看法：Flash Attention 是业界标配优化了，Ollama 追上新版本支持很及时。对于跑大模型显存紧张的显卡来说，这能提升 20-30% 的吞吐量。

如果你：

# macOS/Linux
ollama update

# 或者重新下载最新版本
curl -fsSL https://ollama.com/install.sh | sh

升级后记得重启正在运行的模型服务，新优化才会生效。

📦 项目：Ollama | 🏷️ 版本：v0.20.4 | 📅 发布日期：2026-04-09