Ollama v0.31.1发布,核心改进:Gemma 4在Apple Silicon上推理速度提升近90%,得益于多token预测技术。底层MLX和llama.cpp引擎同步更新,所有平台获性能优化。Mac用户跑Gemma 4升级必备。
⏰ 发布:2026-07-01
⭐ 版本:v0.31.1
🆓 费用:免费开源
Ollama 这次更新短小精悍——一个核心改动:Gemma 4 在 Apple Silicon 上的推理速度提升了近 90%。如果你是 M 系列芯片用户,跑 Gemma 4 写代码或聊天,这次升级几乎是必须的。
🔥 这次更新了什么?
1. ⚡ Gemma 4 在 Mac 上快了近 90%
这是本次更新的核心亮点。Ollama 在 Apple Silicon(M1/M2/M3/M4 系列)上为 Gemma 4 启用了多 token 预测(MTP,Multi-Token Prediction)技术。
通俗讲:传统模型一次预测一个 token(相当于一个字),MTP 一次预测多个 token。不是生成内容变了,而是预测效率提高了。Ollama 会自动调整每次"草稿"多少个 token,不需要手动配置。
官方数据显示,编码代理(coding agent)基准测试下平均快约 90%。这是什么概念?以前跑 Gemma 4 写代码等 10 秒,现在大概等 5 秒。
2. 🔧 底层引擎更新
- MLX 引擎升级到最新版本,新增了小批量矩阵乘法(matmul)内核
- llama.cpp 引擎更新到 build 9840
- Gemma 4 MoE(混合专家模型)在 MLX 引擎中的加载更紧凑
- MTP 性能进一步优化
这些底层改进对非 Apple Silicon 用户也有帮助——MoE 加载优化和 llama.cpp 引擎更新对所有平台都有性能提升。
✅ 适合哪些人?
- ✅ Mac M 系列芯片用户跑 Gemma 4 —— 速度提升近一倍,几乎感觉不到等待
- ✅ 用 Gemma 4 做代码补全、agent 任务的开发者 —— 延迟降低对交互体验影响很大
- ✅ 所有 Ollama 用户 —— llama.cpp 引擎更新对通用推理也有优化
- ⚠️ 不用 Gemma 4 也不用 Mac 的用户 —— 更新无害,但体验差别不大
🛠️ 快速上手
升级 Ollama:
# macOS
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
升级后拉取最新 Gemma 4 模型(MTP 需要新版模型文件):
ollama pull gemma4:latest
不需要额外配置,MTP 自动开启。
❓ 常见问题
Q:MTP 会影响模型输出质量吗?
A:不会。MTP 只是加速 token 生成,不改变模型权重和推理逻辑。输出内容和之前完全一样,只是更快。
Q:非 Mac 用户能用 MTP 吗?
A:目前 MTP 优化仅在 MLX 引擎(Apple Silicon)上生效。CUDA/NVIDIA 用户等后续更新。
Q:需要重新下载模型吗?
A:建议 ollama pull 更新一下模型文件,不过模型本身不需要重新下载全部权重,增量更新即可。
📝 写在最后
v0.31.1 是个"小而美"的版本。一个技术上很精巧的改进——MTP 多 token 预测——在实际使用中能带来近一倍的加速。这种不改变模型输出质量、不影响兼容性、零配置的性能提升,是我最喜欢的优化类型。
简单说:Mac 用户跑 Gemma 4,升就对了。
#Ollama #Gemma4 #AppleSilicon #版本更新

暂无评论
要发表评论,您必须先 登录