Ollama v0.31.1:Gemma 4 在 Mac 上快近 90%,MTP 多Token预测零配置加速

AI摘要

Ollama v0.31.1发布,核心改进:Gemma 4在Apple Silicon上推理速度提升近90%,得益于多token预测技术。底层MLX和llama.cpp引擎同步更新,所有平台获性能优化。Mac用户跑Gemma 4升级必备。

⏰ 发布:2026-07-01

⭐ 版本:v0.31.1

🆓 费用:免费开源

Ollama 这次更新短小精悍——一个核心改动:Gemma 4 在 Apple Silicon 上的推理速度提升了近 90%。如果你是 M 系列芯片用户,跑 Gemma 4 写代码或聊天,这次升级几乎是必须的。

🔥 这次更新了什么?

1. ⚡ Gemma 4 在 Mac 上快了近 90%

这是本次更新的核心亮点。Ollama 在 Apple Silicon(M1/M2/M3/M4 系列)上为 Gemma 4 启用了多 token 预测(MTP,Multi-Token Prediction)技术。

通俗讲:传统模型一次预测一个 token(相当于一个字),MTP 一次预测多个 token。不是生成内容变了,而是预测效率提高了。Ollama 会自动调整每次"草稿"多少个 token,不需要手动配置。

官方数据显示,编码代理(coding agent)基准测试下平均快约 90%。这是什么概念?以前跑 Gemma 4 写代码等 10 秒,现在大概等 5 秒。

2. 🔧 底层引擎更新

  • MLX 引擎升级到最新版本,新增了小批量矩阵乘法(matmul)内核
  • llama.cpp 引擎更新到 build 9840
  • Gemma 4 MoE(混合专家模型)在 MLX 引擎中的加载更紧凑
  • MTP 性能进一步优化

这些底层改进对非 Apple Silicon 用户也有帮助——MoE 加载优化和 llama.cpp 引擎更新对所有平台都有性能提升。

✅ 适合哪些人?

  • ✅ Mac M 系列芯片用户跑 Gemma 4 —— 速度提升近一倍,几乎感觉不到等待
  • ✅ 用 Gemma 4 做代码补全、agent 任务的开发者 —— 延迟降低对交互体验影响很大
  • ✅ 所有 Ollama 用户 —— llama.cpp 引擎更新对通用推理也有优化
  • ⚠️ 不用 Gemma 4 也不用 Mac 的用户 —— 更新无害,但体验差别不大

🛠️ 快速上手

升级 Ollama:

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

升级后拉取最新 Gemma 4 模型(MTP 需要新版模型文件):

ollama pull gemma4:latest

不需要额外配置,MTP 自动开启。

❓ 常见问题

Q:MTP 会影响模型输出质量吗?
A:不会。MTP 只是加速 token 生成,不改变模型权重和推理逻辑。输出内容和之前完全一样,只是更快。

Q:非 Mac 用户能用 MTP 吗?
A:目前 MTP 优化仅在 MLX 引擎(Apple Silicon)上生效。CUDA/NVIDIA 用户等后续更新。

Q:需要重新下载模型吗?
A:建议 ollama pull 更新一下模型文件,不过模型本身不需要重新下载全部权重,增量更新即可。

📝 写在最后

v0.31.1 是个"小而美"的版本。一个技术上很精巧的改进——MTP 多 token 预测——在实际使用中能带来近一倍的加速。这种不改变模型输出质量、不影响兼容性、零配置的性能提升,是我最喜欢的优化类型。

简单说:Mac 用户跑 Gemma 4,升就对了。

👉 GitHub Release

#Ollama #Gemma4 #AppleSilicon #版本更新

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

暂无评论