Ollama v0.20.4版本发布,主要带来两项性能优化:针对Apple Silicon设备的MLX后端引入NAX注意力机制,提升M5模型推理性能;为Gemma 4系列模型启用Flash Attention,显著降低显存占用与计算开销。建议相关用户升级以获得性能提升。
Ollama 今天发布了 v0.20.4 版本,这是一个性能优化更新,主要集中在两个核心改进上。
核心更新
1. Apple Silicon 性能优化
针对 Apple Silicon(M 系列芯片)的 MLX 后端进行了性能优化,通过引入 NAX(一种新的注意力机制实现)来提升 M5 模型的推理性能。
💡 我的看法:Apple Silicon 用户这次更新会有明显收益。NAX 优化了矩阵运算和内存访问模式,对大语言模型的推理加速很有效,特别是处理长上下文时。
2. Gemma 4 Flash Attention 支持
为 Gemma 4 系列模型启用了 Flash Attention 机制,这是一种高效的注意力算法实现,可以显著降低显存占用和计算开销。
💡 我的看法:Flash Attention 是业界标配优化了,Ollama 追上新版本支持很及时。对于跑大模型显存紧张的显卡来说,这能提升 20-30% 的吞吐量。
升级建议
如果你:
- 使用 Apple Silicon 设备运行 Ollama → 建议升级,M5 性能有明显提升
- 使用 Gemma 4 系列模型 → 建议升级,Flash Attention 降低显存压力
- 使用其他 NVIDIA 显卡 → 可以升级,但没有直接收益
如何升级
# macOS/Linux
ollama update
# 或者重新下载最新版本
curl -fsSL https://ollama.com/install.sh | sh
升级后记得重启正在运行的模型服务,新优化才会生效。
📦 项目:Ollama | 🏷️ 版本:v0.20.4 | 📅 发布日期:2026-04-09

暂无评论
要发表评论,您必须先 登录