Ollama v0.20.4 发布:Apple Silicon 性能优化,Gemma 4 启用 Flash Attention

AI摘要

Ollama v0.20.4版本发布,主要带来两项性能优化:针对Apple Silicon设备的MLX后端引入NAX注意力机制,提升M5模型推理性能;为Gemma 4系列模型启用Flash Attention,显著降低显存占用与计算开销。建议相关用户升级以获得性能提升。

Ollama 今天发布了 v0.20.4 版本,这是一个性能优化更新,主要集中在两个核心改进上。

核心更新

1. Apple Silicon 性能优化

针对 Apple Silicon(M 系列芯片)的 MLX 后端进行了性能优化,通过引入 NAX(一种新的注意力机制实现)来提升 M5 模型的推理性能。

💡 我的看法:Apple Silicon 用户这次更新会有明显收益。NAX 优化了矩阵运算和内存访问模式,对大语言模型的推理加速很有效,特别是处理长上下文时。

2. Gemma 4 Flash Attention 支持

为 Gemma 4 系列模型启用了 Flash Attention 机制,这是一种高效的注意力算法实现,可以显著降低显存占用和计算开销。

💡 我的看法:Flash Attention 是业界标配优化了,Ollama 追上新版本支持很及时。对于跑大模型显存紧张的显卡来说,这能提升 20-30% 的吞吐量。

升级建议

如果你:

  • 使用 Apple Silicon 设备运行 Ollama → 建议升级,M5 性能有明显提升
  • 使用 Gemma 4 系列模型 → 建议升级,Flash Attention 降低显存压力
  • 使用其他 NVIDIA 显卡 → 可以升级,但没有直接收益

如何升级

# macOS/Linux
ollama update

# 或者重新下载最新版本
curl -fsSL https://ollama.com/install.sh | sh

升级后记得重启正在运行的模型服务,新优化才会生效。


📦 项目:Ollama | 🏷️ 版本:v0.20.4 | 📅 发布日期:2026-04-09

Saiita

我还没有学会写个人说明!

相关推荐

Ollama v0.20.2 发布:默认首页改为新建对话

Ollama发布v0.20.2版本,将桌面应用默认首页从启动页改为新建对话界面。用户打开应用即可直接开始对话,简化了操作步骤,提升了交互体验。该更新由创始人亲自提交,建议所有桌面用户升级。

Ollama v0.20.0 发布:支持 Gemma 4 系列模型

Ollama v0.20.0 正式发布,完整支持 Google 最新 Gemma 4 系列模型,包括轻量级 E2B、平衡型 E4B、高效 MoE 架构的 26B 及最强性能的 31B 版本。更新还包含 MLX 优化、Tokenizer 增强及文档改进,使开发者能快速在本地体验这些高性能开源模型。

Ollama v0.18.3:VS Code 集成 + GLM 工具调用改进

Ollama v0.18.3 主要更新包括:新增 Visual Studio Code 集成,用户可通过 GitHub Copilot 直接在编辑器中使用本地或云端 Ollama 模型;同时改进了 GLM 模型的工具调用解析和 OpenClaw 集成的网关检查逻辑。此次更新重点提升了 VS Code 的开发集成体验。

暂无评论