Ollama v0.24.0大版本更新,新增Codex App支持,提供内置浏览器、Review模式和多模型并行功能。MLX采样器重构,提升Apple Silicon生成质量。推荐模型包括kimi-k2.6、glm-5.1等,本地模型免费使用。
⏰ 发布时间:2026-05-14
⭐ 版本:v0.24.0
🆓 费用:免费开源
重磅!Ollama 直接从 v0.23.x 跳到 v0.24.0,这次是大版本更新——新增 Codex App 支持,OpenAI 的桌面编码体验终于能跟 Ollama 联动了。内置浏览器、Review 模式、多模型并行,这波升级太香了 🔥
🔥 这次更新了什么?
🚀 Codex App 桌面体验
Ollama 0.24 首次支持 Codex App——OpenAI 的桌面编码工具。一行命令启动:
ollama launch codex-app
功能亮点:
- 内置浏览器 — Codex 可以直接加载本地服务器和网站,你可以直接在页面上标注来请求代码修改。前端开发者的福音!
- Review 模式 — 在应用内审阅代码、留评论、迭代修改,不用离开工作区
- 并行线程 — 支持同时处理多个 Codex 线程,配合内置的 worktree 和 git 功能
🧠 推荐模型(按场景)
高难度编码和 Agent 任务:
- kimi-k2.6 — 支持视觉,综合能力最强
- glm-5.1 — 代码能力出色
本地使用(无需 Ollama Cloud 订阅):
- nemotron-3-super — NVIDIA 出品,性价比高
- gemma4:31b — Google 出品,Mac MTP 加速
- qwen3.6 — 阿里出品,中文友好
🍎 MLX 采样器重构
Apple Silicon 用户注意!MLX 采样器完全重写,生成质量显著提升。之前可能遇到的重复输出、断句不自然等问题应该改善不少。
🔄 恢复旧配置
如果升级后想恢复之前的 Codex App 配置:
ollama launch codex-app --restore
✅ 适合哪些人?
✅ 用 Codex 的开发者 — 桌面体验大升级,内置浏览器和 Review 模式太方便了
✅ Mac 用户 — MLX 采样器重构,生成质量提升
✅ 多任务并行需求 — Codex App 支持多线程同时处理
⚠️ 纯本地轻度使用 — Codex App 需要 Ollama Cloud 订阅才能用高级模型,本地模型也够用
🛠️ 快速上手
# 升级 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Codex App
ollama launch codex-app
# 拉取推荐模型
ollama pull gemma4:31b
ollama pull qwen3.6
❓ 常见问题
Q:Codex App 是免费的吗?
A:Codex App 本身免费,但使用 kimi-k2.6、glm-5.1 等高级模型需要 Ollama Cloud 订阅。本地模型(gemma4:31b、qwen3.6 等)完全免费。
Q:MLX 采样器重构对生成质量有什么影响?
A:主要是减少了重复输出和断句不自然的问题,整体生成更流畅、更连贯。Apple Silicon 用户体感最明显。
Q:v0.23.x 直接跳到 v0.24.0,中间版本怎么办?
A:正常升级即可,Ollama 会自动处理版本跳跃。建议升级后重新拉取常用模型以获得最佳体验。
写在最后
Ollama v0.24.0 是今年最大的一次更新,Codex App 的支持让 Ollama 从一个"本地模型运行工具"进化成了"完整的编码工作台"。内置浏览器标注 + Review 模式 + 多线程并行,这个组合拳打得太漂亮了。Mac 用户还有 MLX 采样器重构的额外惊喜。强烈建议升级 🚀
⏰ 发布时间:2026-05-05 / 2026-05-08
⭐ 版本:v0.23.1 / v0.23.2
🆓 费用:免费开源
🔥 Mac 用户尖叫!Gemma 4 终于支持 MTP 加速了,coding 任务速度直接翻倍 💪
📅 v0.23.1 — Gemma 4 MTP 加速,Mac 编码速度翻倍
🔥 这次更新了什么?
- Gemma 4 MTP 加速 — 在 Mac 的 MLX 上首次支持多词元预测推理,31B 模型 coding 速度提升 超 2 倍
- MLX 线程优化 — 修复了之前版本的部分线程问题,更稳定
- Go 1.26 升级 — 底层依赖更新,性能和兼容性更好
✅ 适合哪些人?
- ✅ Mac 用户 — MTP 加速专门为苹果芯片优化,必升
- ✅ 代码写手 — coding 任务速度翻倍,效率提升明显
- ⚠️ Windows/Linux 用户 — 标准 CUDA 版本暂无 MTP,但影响不大
🛠️ 快速上手
ollama run gemma4:31b-coding-mtp-bf16
老规矩,先拉取模型:
ollama pull gemma4:31b-coding-mtp-bf16
❓ 常见问题
Q:MTP 是什么?
A:Multi-token Prediction,一次性预测多个词元,减少推理延迟 🍎
Q:只有 Mac 能用吗?
A:目前 MTP 加速仅支持 Mac MLX 版本,CUDA 版本暂未上线
📅 v0.23.2 — API 延迟暴降 6.7 倍,VS Code 用户狂喜
📅 发布日期:2026-05-08
v0.23.2 虽然没有 v0.23.1 那么炸裂的 MTP 加速,但有一个非常实用的优化:/api/show 接口加了缓存,中位延迟直接降了 6.7 倍!如果你用 VS Code + Ollama 插件,加载模型信息时会明显感觉到变快了 ⚡
🔥 这次更新了什么?
- /api/show 缓存加速 — 模型信息接口加了缓存,中位延迟降低 ~6.7 倍,VS Code 等集成工具加载速度显著提升
- Claude Desktop 分离 —
ollama launch不再默认包含 Claude Desktop(第三方集成仅限 Anthropic 模型)。需要恢复的话:ollama launch claude-desktop --restore - 备份流程优化 — 管理 launch 集成时的备份流程更清晰了
- MLX 图片生成布局优化 — MLX runner 的图片生成界面更整洁
✅ 适合哪些人?
- ✅ VS Code + Ollama 用户 — API 缓存加速,模型信息加载快了 6 倍多
- ✅ 用第三方集成工具的 — 所有调用 /api/show 的工具都会受益
- ⚠️ Claude Desktop 用户 — 注意 launch 行为变了,可能需要手动恢复
🛠️ 快速上手
curl -fsSL https://ollama.com/install.sh | sh
如果你之前通过 ollama launch 集成了 Claude Desktop,恢复方式:
ollama launch claude-desktop --restore
❓ 常见问题
Q:6.7 倍延迟降低是什么概念?
A:之前 VS Code 打开 Ollama 模型信息可能要等 1-2 秒,现在基本是瞬间返回 🚀
Q:为什么要把 Claude Desktop 从 launch 里去掉?
A:因为 Claude Desktop 的第三方集成只支持 Anthropic 自家模型,放在 Ollama 的 launch 里容易让用户误解,所以单独分出来了
📝 写在最后
Ollama 5 月连续发了两个版本,v0.23.1 给 Mac 用户带来 MTP 加速的大惊喜,v0.23.2 则在 API 性能上做了实用优化。如果你是 VS Code + Ollama 的组合用户,v0.23.2 的缓存加速真的能感受到差异 👍

暂无评论
要发表评论,您必须先 登录