Ollama v0.20.4 发布:Apple Silicon 性能优化,Gemma 4 启用 Flash Attention

AI摘要

Ollama v0.20.4版本发布,主要带来两项性能优化:针对Apple Silicon设备的MLX后端引入NAX注意力机制,提升M5模型推理性能;为Gemma 4系列模型启用Flash Attention,显著降低显存占用与计算开销。建议相关用户升级以获得性能提升。

Ollama 今天发布了 v0.20.4 版本,这是一个性能优化更新,主要集中在两个核心改进上。

核心更新

1. Apple Silicon 性能优化

针对 Apple Silicon(M 系列芯片)的 MLX 后端进行了性能优化,通过引入 NAX(一种新的注意力机制实现)来提升 M5 模型的推理性能。

💡 我的看法:Apple Silicon 用户这次更新会有明显收益。NAX 优化了矩阵运算和内存访问模式,对大语言模型的推理加速很有效,特别是处理长上下文时。

2. Gemma 4 Flash Attention 支持

为 Gemma 4 系列模型启用了 Flash Attention 机制,这是一种高效的注意力算法实现,可以显著降低显存占用和计算开销。

💡 我的看法:Flash Attention 是业界标配优化了,Ollama 追上新版本支持很及时。对于跑大模型显存紧张的显卡来说,这能提升 20-30% 的吞吐量。

升级建议

如果你:

  • 使用 Apple Silicon 设备运行 Ollama → 建议升级,M5 性能有明显提升
  • 使用 Gemma 4 系列模型 → 建议升级,Flash Attention 降低显存压力
  • 使用其他 NVIDIA 显卡 → 可以升级,但没有直接收益

如何升级

# macOS/Linux
ollama update

# 或者重新下载最新版本
curl -fsSL https://ollama.com/install.sh | sh

升级后记得重启正在运行的模型服务,新优化才会生效。


📦 项目:Ollama | 🏷️ 版本:v0.20.4 | 📅 发布日期:2026-04-09

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年5月更新:v0.23.2+API延迟暴降6.7倍

Ollama发布v0.23.1和v0.23.2版本。v0.23.1为Mac MLX首次带来Gemma 4 MTP加速,31B模型编码速度提升超2倍。v0.23.2优化/api/show接口缓存,中位延迟降低约6.7倍,显著提升VS Code等工具加载速度。

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

Ollama v0.21.1:新增 Kimi CLI 支持,MLX 性能大幅提升

Ollama v0.21.1发布,主要更新包括:集成Kimi CLI,可一键启动月之暗面K2.6模型(需联网);MLX采样速度提升17%以上,Apple Silicon用户受益;新增logprobs支持;修复macOS模型选择器及Gemma 4结构化输出bug。适合Mac和Kimi用户升级。

暂无评论