Ollama 2026年5月更新:v0.23.2+API延迟暴降6.7倍

AI摘要

Ollama发布v0.23.1和v0.23.2版本。v0.23.1为Mac MLX首次带来Gemma 4 MTP加速,31B模型编码速度提升超2倍。v0.23.2优化/api/show接口缓存,中位延迟降低约6.7倍,显著提升VS Code等工具加载速度。

发布时间:2026-05-05 / 2026-05-08

版本:v0.23.1 / v0.23.2

🆓 费用:免费开源

🔥 Mac 用户尖叫!Gemma 4 终于支持 MTP 加速了,coding 任务速度直接翻倍 💪


📅 v0.23.1 — Gemma 4 MTP 加速,Mac 编码速度翻倍

🔥 这次更新了什么?

  1. Gemma 4 MTP 加速 — 在 Mac 的 MLX 上首次支持多词元预测推理,31B 模型 coding 速度提升 超 2 倍
  2. MLX 线程优化 — 修复了之前版本的部分线程问题,更稳定
  3. Go 1.26 升级 — 底层依赖更新,性能和兼容性更好

✅ 适合哪些人?

  • ✅ Mac 用户 — MTP 加速专门为苹果芯片优化,必升
  • ✅ 代码写手 — coding 任务速度翻倍,效率提升明显
  • ⚠️ Windows/Linux 用户 — 标准 CUDA 版本暂无 MTP,但影响不大

🛠️ 快速上手

ollama run gemma4:31b-coding-mtp-bf16

老规矩,先拉取模型:

ollama pull gemma4:31b-coding-mtp-bf16

❓ 常见问题

Q:MTP 是什么?

A:Multi-token Prediction,一次性预测多个词元,减少推理延迟 🍎

Q:只有 Mac 能用吗?

A:目前 MTP 加速仅支持 Mac MLX 版本,CUDA 版本暂未上线


📅 v0.23.2 — API 延迟暴降 6.7 倍,VS Code 用户狂喜

📅 发布日期:2026-05-08

v0.23.2 虽然没有 v0.23.1 那么炸裂的 MTP 加速,但有一个非常实用的优化:/api/show 接口加了缓存,中位延迟直接降了 6.7 倍!如果你用 VS Code + Ollama 插件,加载模型信息时会明显感觉到变快了 ⚡

🔥 这次更新了什么?

  1. /api/show 缓存加速 — 模型信息接口加了缓存,中位延迟降低 ~6.7 倍,VS Code 等集成工具加载速度显著提升
  2. Claude Desktop 分离ollama launch 不再默认包含 Claude Desktop(第三方集成仅限 Anthropic 模型)。需要恢复的话:ollama launch claude-desktop --restore
  3. 备份流程优化 — 管理 launch 集成时的备份流程更清晰了
  4. MLX 图片生成布局优化 — MLX runner 的图片生成界面更整洁

✅ 适合哪些人?

  • ✅ VS Code + Ollama 用户 — API 缓存加速,模型信息加载快了 6 倍多
  • ✅ 用第三方集成工具的 — 所有调用 /api/show 的工具都会受益
  • ⚠️ Claude Desktop 用户 — 注意 launch 行为变了,可能需要手动恢复

🛠️ 快速上手

curl -fsSL https://ollama.com/install.sh | sh

如果你之前通过 ollama launch 集成了 Claude Desktop,恢复方式:

ollama launch claude-desktop --restore

❓ 常见问题

Q:6.7 倍延迟降低是什么概念?

A:之前 VS Code 打开 Ollama 模型信息可能要等 1-2 秒,现在基本是瞬间返回 🚀

Q:为什么要把 Claude Desktop 从 launch 里去掉?

A:因为 Claude Desktop 的第三方集成只支持 Anthropic 自家模型,放在 Ollama 的 launch 里容易让用户误解,所以单独分出来了

📝 写在最后

Ollama 5 月连续发了两个版本,v0.23.1 给 Mac 用户带来 MTP 加速的大惊喜,v0.23.2 则在 API 性能上做了实用优化。如果你是 VS Code + Ollama 的组合用户,v0.23.2 的缓存加速真的能感受到差异 👍

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

Ollama v0.21.1:新增 Kimi CLI 支持,MLX 性能大幅提升

Ollama v0.21.1发布,主要更新包括:集成Kimi CLI,可一键启动月之暗面K2.6模型(需联网);MLX采样速度提升17%以上,Apple Silicon用户受益;新增logprobs支持;修复macOS模型选择器及Gemma 4结构化输出bug。适合Mac和Kimi用户升级。

暂无评论