Ollama v0.20.4 发布:Apple Silicon 性能优化,Gemma 4 启用 Flash Attention

AI摘要

Ollama v0.20.4版本发布,主要带来两项性能优化:针对Apple Silicon设备的MLX后端引入NAX注意力机制,提升M5模型推理性能;为Gemma 4系列模型启用Flash Attention,显著降低显存占用与计算开销。建议相关用户升级以获得性能提升。

Ollama 今天发布了 v0.20.4 版本,这是一个性能优化更新,主要集中在两个核心改进上。

核心更新

1. Apple Silicon 性能优化

针对 Apple Silicon(M 系列芯片)的 MLX 后端进行了性能优化,通过引入 NAX(一种新的注意力机制实现)来提升 M5 模型的推理性能。

💡 我的看法:Apple Silicon 用户这次更新会有明显收益。NAX 优化了矩阵运算和内存访问模式,对大语言模型的推理加速很有效,特别是处理长上下文时。

2. Gemma 4 Flash Attention 支持

为 Gemma 4 系列模型启用了 Flash Attention 机制,这是一种高效的注意力算法实现,可以显著降低显存占用和计算开销。

💡 我的看法:Flash Attention 是业界标配优化了,Ollama 追上新版本支持很及时。对于跑大模型显存紧张的显卡来说,这能提升 20-30% 的吞吐量。

升级建议

如果你:

  • 使用 Apple Silicon 设备运行 Ollama → 建议升级,M5 性能有明显提升
  • 使用 Gemma 4 系列模型 → 建议升级,Flash Attention 降低显存压力
  • 使用其他 NVIDIA 显卡 → 可以升级,但没有直接收益

如何升级

# macOS/Linux
ollama update

# 或者重新下载最新版本
curl -fsSL https://ollama.com/install.sh | sh

升级后记得重启正在运行的模型服务,新优化才会生效。


📦 项目:Ollama | 🏷️ 版本:v0.20.4 | 📅 发布日期:2026-04-09

Saiita

我还没有学会写个人说明!

相关推荐

Ollama v0.20.5:OpenClaw 通道与 GPU Flash Attention

Ollama v0.20.5 新增 `ollama launch openclaw` 命令,可直接连接 WhatsApp、Telegram 等消息通道,便于将本地模型接入日常聊天工具。同时为 Gemma 4 模型启用 Flash Attention 以提升性能,并修复了若干问题。

暂无评论