Ollama v0.31.1：Gemma 4 在 Mac 上快近 90%，MTP 多Token预测零配置加速

AI摘要

Ollama v0.31.1发布，核心改进：Gemma 4在Apple Silicon上推理速度提升近90%，得益于多token预测技术。底层MLX和llama.cpp引擎同步更新，所有平台获性能优化。Mac用户跑Gemma 4升级必备。

⏰ 发布：2026-07-01

⭐ 版本：v0.31.1

🆓 费用：免费开源

Ollama 这次更新短小精悍——一个核心改动：Gemma 4 在 Apple Silicon 上的推理速度提升了近 90%。如果你是 M 系列芯片用户，跑 Gemma 4 写代码或聊天，这次升级几乎是必须的。

🔥 这次更新了什么？

1. ⚡ Gemma 4 在 Mac 上快了近 90%

这是本次更新的核心亮点。Ollama 在 Apple Silicon（M1/M2/M3/M4 系列）上为 Gemma 4 启用了多 token 预测（MTP，Multi-Token Prediction）技术。

通俗讲：传统模型一次预测一个 token（相当于一个字），MTP 一次预测多个 token。不是生成内容变了，而是预测效率提高了。Ollama 会自动调整每次"草稿"多少个 token，不需要手动配置。

官方数据显示，编码代理（coding agent）基准测试下平均快约 90%。这是什么概念？以前跑 Gemma 4 写代码等 10 秒，现在大概等 5 秒。

2. 🔧 底层引擎更新

MLX 引擎升级到最新版本，新增了小批量矩阵乘法（matmul）内核
llama.cpp 引擎更新到 build 9840
Gemma 4 MoE（混合专家模型）在 MLX 引擎中的加载更紧凑
MTP 性能进一步优化

这些底层改进对非 Apple Silicon 用户也有帮助——MoE 加载优化和 llama.cpp 引擎更新对所有平台都有性能提升。

✅ 适合哪些人？

✅ Mac M 系列芯片用户跑 Gemma 4 —— 速度提升近一倍，几乎感觉不到等待
✅ 用 Gemma 4 做代码补全、agent 任务的开发者 —— 延迟降低对交互体验影响很大
✅ 所有 Ollama 用户 —— llama.cpp 引擎更新对通用推理也有优化
⚠️ 不用 Gemma 4 也不用 Mac 的用户 —— 更新无害，但体验差别不大

🛠️ 快速上手

升级 Ollama：

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

升级后拉取最新 Gemma 4 模型（MTP 需要新版模型文件）：

ollama pull gemma4:latest

不需要额外配置，MTP 自动开启。

❓ 常见问题

Q：MTP 会影响模型输出质量吗？
A：不会。MTP 只是加速 token 生成，不改变模型权重和推理逻辑。输出内容和之前完全一样，只是更快。

Q：非 Mac 用户能用 MTP 吗？
A：目前 MTP 优化仅在 MLX 引擎（Apple Silicon）上生效。CUDA/NVIDIA 用户等后续更新。

Q：需要重新下载模型吗？
A：建议 ollama pull 更新一下模型文件，不过模型本身不需要重新下载全部权重，增量更新即可。

📝 写在最后

v0.31.1 是个"小而美"的版本。一个技术上很精巧的改进——MTP 多 token 预测——在实际使用中能带来近一倍的加速。这种不改变模型输出质量、不影响兼容性、零配置的性能提升，是我最喜欢的优化类型。

简单说：Mac 用户跑 Gemma 4，升就对了。

👉 GitHub Release

#Ollama #Gemma4 #AppleSilicon #版本更新

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Ollama v0.31.1：Gemma 4 在 Mac 上快近 90%，MTP 多Token预测零配置加速

🔥 这次更新了什么？

1. ⚡ Gemma 4 在 Mac 上快了近 90%

2. 🔧 底层引擎更新

✅ 适合哪些人？

🛠️ 快速上手

❓ 常见问题

📝 写在最后

Open WebUI v0.10.2：推理过程实时可视，知识库文件夹上传，记忆系统变聪明了

Saiita

暂无评论

🔥 这次更新了什么？

1. ⚡ Gemma 4 在 Mac 上快了近 90%

2. 🔧 底层引擎更新

✅ 适合哪些人？

🛠️ 快速上手

❓ 常见问题

📝 写在最后

Open WebUI v0.10.2：推理过程实时可视，知识库文件夹上传，记忆系统变聪明了

Saiita

相关推荐

暂无评论

搜索

Ollama v0.31.1：Gemma 4 在 Mac 上快近 90%，MTP 多Token预测零配置加速