Ollama发布v0.23.1和v0.23.2版本。v0.23.1为Mac MLX首次带来Gemma 4 MTP加速,31B模型编码速度提升超2倍。v0.23.2优化/api/show接口缓存,中位延迟降低约6.7倍,显著提升VS Code等工具加载速度。
⏰ 发布时间:2026-05-05 / 2026-05-08
⭐ 版本:v0.23.1 / v0.23.2
🆓 费用:免费开源
🔥 Mac 用户尖叫!Gemma 4 终于支持 MTP 加速了,coding 任务速度直接翻倍 💪
📅 v0.23.1 — Gemma 4 MTP 加速,Mac 编码速度翻倍
🔥 这次更新了什么?
- Gemma 4 MTP 加速 — 在 Mac 的 MLX 上首次支持多词元预测推理,31B 模型 coding 速度提升 超 2 倍
- MLX 线程优化 — 修复了之前版本的部分线程问题,更稳定
- Go 1.26 升级 — 底层依赖更新,性能和兼容性更好
✅ 适合哪些人?
- ✅ Mac 用户 — MTP 加速专门为苹果芯片优化,必升
- ✅ 代码写手 — coding 任务速度翻倍,效率提升明显
- ⚠️ Windows/Linux 用户 — 标准 CUDA 版本暂无 MTP,但影响不大
🛠️ 快速上手
ollama run gemma4:31b-coding-mtp-bf16
老规矩,先拉取模型:
ollama pull gemma4:31b-coding-mtp-bf16
❓ 常见问题
Q:MTP 是什么?
A:Multi-token Prediction,一次性预测多个词元,减少推理延迟 🍎
Q:只有 Mac 能用吗?
A:目前 MTP 加速仅支持 Mac MLX 版本,CUDA 版本暂未上线
📅 v0.23.2 — API 延迟暴降 6.7 倍,VS Code 用户狂喜
📅 发布日期:2026-05-08
v0.23.2 虽然没有 v0.23.1 那么炸裂的 MTP 加速,但有一个非常实用的优化:/api/show 接口加了缓存,中位延迟直接降了 6.7 倍!如果你用 VS Code + Ollama 插件,加载模型信息时会明显感觉到变快了 ⚡
🔥 这次更新了什么?
- /api/show 缓存加速 — 模型信息接口加了缓存,中位延迟降低 ~6.7 倍,VS Code 等集成工具加载速度显著提升
- Claude Desktop 分离 —
ollama launch不再默认包含 Claude Desktop(第三方集成仅限 Anthropic 模型)。需要恢复的话:ollama launch claude-desktop --restore - 备份流程优化 — 管理 launch 集成时的备份流程更清晰了
- MLX 图片生成布局优化 — MLX runner 的图片生成界面更整洁
✅ 适合哪些人?
- ✅ VS Code + Ollama 用户 — API 缓存加速,模型信息加载快了 6 倍多
- ✅ 用第三方集成工具的 — 所有调用 /api/show 的工具都会受益
- ⚠️ Claude Desktop 用户 — 注意 launch 行为变了,可能需要手动恢复
🛠️ 快速上手
curl -fsSL https://ollama.com/install.sh | sh
如果你之前通过 ollama launch 集成了 Claude Desktop,恢复方式:
ollama launch claude-desktop --restore
❓ 常见问题
Q:6.7 倍延迟降低是什么概念?
A:之前 VS Code 打开 Ollama 模型信息可能要等 1-2 秒,现在基本是瞬间返回 🚀
Q:为什么要把 Claude Desktop 从 launch 里去掉?
A:因为 Claude Desktop 的第三方集成只支持 Anthropic 自家模型,放在 Ollama 的 launch 里容易让用户误解,所以单独分出来了
📝 写在最后
Ollama 5 月连续发了两个版本,v0.23.1 给 Mac 用户带来 MTP 加速的大惊喜,v0.23.2 则在 API 性能上做了实用优化。如果你是 VS Code + Ollama 的组合用户,v0.23.2 的缓存加速真的能感受到差异 👍

暂无评论
要发表评论,您必须先 登录