Ollama 2026年5月更新:v0.24.0+Codex App桌面体验+MLX采样器重构

AI摘要

Ollama v0.24.0大版本更新,新增Codex App支持,提供内置浏览器、Review模式和多模型并行功能。MLX采样器重构,提升Apple Silicon生成质量。推荐模型包括kimi-k2.6、glm-5.1等,本地模型免费使用。

发布时间:2026-05-14

版本:v0.24.0

🆓 费用:免费开源

重磅!Ollama 直接从 v0.23.x 跳到 v0.24.0,这次是大版本更新——新增 Codex App 支持,OpenAI 的桌面编码体验终于能跟 Ollama 联动了。内置浏览器、Review 模式、多模型并行,这波升级太香了 🔥

🔥 这次更新了什么?

🚀 Codex App 桌面体验

Ollama 0.24 首次支持 Codex App——OpenAI 的桌面编码工具。一行命令启动:

ollama launch codex-app

功能亮点:

  1. 内置浏览器 — Codex 可以直接加载本地服务器和网站,你可以直接在页面上标注来请求代码修改。前端开发者的福音!
  2. Review 模式 — 在应用内审阅代码、留评论、迭代修改,不用离开工作区
  3. 并行线程 — 支持同时处理多个 Codex 线程,配合内置的 worktree 和 git 功能

🧠 推荐模型(按场景)

高难度编码和 Agent 任务:

  • kimi-k2.6 — 支持视觉,综合能力最强
  • glm-5.1 — 代码能力出色

本地使用(无需 Ollama Cloud 订阅):

  • nemotron-3-super — NVIDIA 出品,性价比高
  • gemma4:31b — Google 出品,Mac MTP 加速
  • qwen3.6 — 阿里出品,中文友好

🍎 MLX 采样器重构

Apple Silicon 用户注意!MLX 采样器完全重写,生成质量显著提升。之前可能遇到的重复输出、断句不自然等问题应该改善不少。

🔄 恢复旧配置

如果升级后想恢复之前的 Codex App 配置:

ollama launch codex-app --restore

✅ 适合哪些人?

✅ 用 Codex 的开发者 — 桌面体验大升级,内置浏览器和 Review 模式太方便了

✅ Mac 用户 — MLX 采样器重构,生成质量提升

✅ 多任务并行需求 — Codex App 支持多线程同时处理

⚠️ 纯本地轻度使用 — Codex App 需要 Ollama Cloud 订阅才能用高级模型,本地模型也够用

🛠️ 快速上手

# 升级 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 启动 Codex App
ollama launch codex-app

# 拉取推荐模型
ollama pull gemma4:31b
ollama pull qwen3.6

❓ 常见问题

Q:Codex App 是免费的吗?

A:Codex App 本身免费,但使用 kimi-k2.6、glm-5.1 等高级模型需要 Ollama Cloud 订阅。本地模型(gemma4:31b、qwen3.6 等)完全免费。

Q:MLX 采样器重构对生成质量有什么影响?

A:主要是减少了重复输出和断句不自然的问题,整体生成更流畅、更连贯。Apple Silicon 用户体感最明显。

Q:v0.23.x 直接跳到 v0.24.0,中间版本怎么办?

A:正常升级即可,Ollama 会自动处理版本跳跃。建议升级后重新拉取常用模型以获得最佳体验。

写在最后

Ollama v0.24.0 是今年最大的一次更新,Codex App 的支持让 Ollama 从一个"本地模型运行工具"进化成了"完整的编码工作台"。内置浏览器标注 + Review 模式 + 多线程并行,这个组合拳打得太漂亮了。Mac 用户还有 MLX 采样器重构的额外惊喜。强烈建议升级 🚀


发布时间:2026-05-05 / 2026-05-08

版本:v0.23.1 / v0.23.2

🆓 费用:免费开源

🔥 Mac 用户尖叫!Gemma 4 终于支持 MTP 加速了,coding 任务速度直接翻倍 💪


📅 v0.23.1 — Gemma 4 MTP 加速,Mac 编码速度翻倍

🔥 这次更新了什么?

  1. Gemma 4 MTP 加速 — 在 Mac 的 MLX 上首次支持多词元预测推理,31B 模型 coding 速度提升 超 2 倍
  2. MLX 线程优化 — 修复了之前版本的部分线程问题,更稳定
  3. Go 1.26 升级 — 底层依赖更新,性能和兼容性更好

✅ 适合哪些人?

  • ✅ Mac 用户 — MTP 加速专门为苹果芯片优化,必升
  • ✅ 代码写手 — coding 任务速度翻倍,效率提升明显
  • ⚠️ Windows/Linux 用户 — 标准 CUDA 版本暂无 MTP,但影响不大

🛠️ 快速上手

ollama run gemma4:31b-coding-mtp-bf16

老规矩,先拉取模型:

ollama pull gemma4:31b-coding-mtp-bf16

❓ 常见问题

Q:MTP 是什么?

A:Multi-token Prediction,一次性预测多个词元,减少推理延迟 🍎

Q:只有 Mac 能用吗?

A:目前 MTP 加速仅支持 Mac MLX 版本,CUDA 版本暂未上线


📅 v0.23.2 — API 延迟暴降 6.7 倍,VS Code 用户狂喜

📅 发布日期:2026-05-08

v0.23.2 虽然没有 v0.23.1 那么炸裂的 MTP 加速,但有一个非常实用的优化:/api/show 接口加了缓存,中位延迟直接降了 6.7 倍!如果你用 VS Code + Ollama 插件,加载模型信息时会明显感觉到变快了 ⚡

🔥 这次更新了什么?

  1. /api/show 缓存加速 — 模型信息接口加了缓存,中位延迟降低 ~6.7 倍,VS Code 等集成工具加载速度显著提升
  2. Claude Desktop 分离ollama launch 不再默认包含 Claude Desktop(第三方集成仅限 Anthropic 模型)。需要恢复的话:ollama launch claude-desktop --restore
  3. 备份流程优化 — 管理 launch 集成时的备份流程更清晰了
  4. MLX 图片生成布局优化 — MLX runner 的图片生成界面更整洁

✅ 适合哪些人?

  • ✅ VS Code + Ollama 用户 — API 缓存加速,模型信息加载快了 6 倍多
  • ✅ 用第三方集成工具的 — 所有调用 /api/show 的工具都会受益
  • ⚠️ Claude Desktop 用户 — 注意 launch 行为变了,可能需要手动恢复

🛠️ 快速上手

curl -fsSL https://ollama.com/install.sh | sh

如果你之前通过 ollama launch 集成了 Claude Desktop,恢复方式:

ollama launch claude-desktop --restore

❓ 常见问题

Q:6.7 倍延迟降低是什么概念?

A:之前 VS Code 打开 Ollama 模型信息可能要等 1-2 秒,现在基本是瞬间返回 🚀

Q:为什么要把 Claude Desktop 从 launch 里去掉?

A:因为 Claude Desktop 的第三方集成只支持 Anthropic 自家模型,放在 Ollama 的 launch 里容易让用户误解,所以单独分出来了

📝 写在最后

Ollama 5 月连续发了两个版本,v0.23.1 给 Mac 用户带来 MTP 加速的大惊喜,v0.23.2 则在 API 性能上做了实用优化。如果你是 VS Code + Ollama 的组合用户,v0.23.2 的缓存加速真的能感受到差异 👍

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

暂无评论