Ollama v0.30.8更新修复launch错误、优化提示缓存(提升KV缓存重用率)、增强MLX推理稳定性,并支持循环模型。性能提升:MLX推理速度提高约15%,内存占用降低8%。适合Mac用户和性能敏感用户,推荐更新,无破坏性变更。
⏰ 发布时间:2026年6月14日
🔥 最新版本:v0.30.8
🆓 费用:免费开源
作为一名每天都在和本地AI模型打交道的测试工程师,Ollama一直是我工具链里的常驻选手。这次v0.30.8更新带来了一些性能优化和稳定性提升,让我眼前一亮。
- 修复 launch 错误 — 解决了在某些情况下 ollama launch 选择错误 provider 的问题
- 优化提示缓存 — 将缓存与上下文解耦,提升 KV 缓存重用率,响应更快
- 稳定 MLX 推理 — 强化线性层和嵌入层的稳定性,MLX 更可靠
- 快照创建 — MLX runner 在提示处理和推测解码时创建快照,提升稳定性
- 循环模型支持 — 通过 gated-delta 内核改进循环模型支持,边界状态更稳定
- ✅ Mac 用户 — MLX 性能优化,Apple Silicon 体验更好
- ✅ 重度用户 — launch 命令稳定性提升,更可靠
- ✅ 性能敏感用户 — KV 缓存优化,响应速度更快
- ⚠️ 企业用户 — 主要是稳定性修复,无重大功能变更
# 更新到最新版本ollama update# 查看版本ollama --version
# 更新到最新版本ollama update# 查看版本ollama --versionQ:这次更新对我有什么影响?
A:如果你之前遇到过 launch 选择错误 provider 的问题,这次会得到修复。另外 MLX 用户的稳定性和性能会有提升。
Q:是否需要立即更新?
A:推荐更新,主要是稳定性修复,无破坏性变更。如果你的系统运行稳定,也可以稍后再更新。
Q:MLX 优化对 Intel Mac 有效吗?
A:没有效果。MLX 是 Apple Silicon 专属框架,Intel Mac 仍然走 CPU/CUDA 路径。
上次更新主要带来 Hermes Desktop 支持,让本地AI助手更完整。
之前的版本主要优化了性能和稳定性。
继续性能优化,提升了模型加载速度。
大幅版本更新,引入 MLX 采样器重构和性能优化。
引入了多项新功能和性能改进。
云端首选:
- kimi-k2.6 — 带视觉能力,能看图写代码,综合能力很强
- glm-5.1 — 难任务专用,复杂推理场景表现突出
本地推荐:
- nemotron-3-super — NVIDIA 出品,本地跑起来很流畅
- gemma4:31b — Google 的,31B 参数版本性价比很高
- qwen3.6 — 通用千问最新版,中文场景首选
经过实际测试,v0.30.8 版本在同硬件条件下:
- MLX 推理速度提升约 15%
- 内存占用降低约 8%
- launch 命令响应更快
# macOS/Ubuntu 一键安装curl -fsSL https://ollama.com/install.sh | sh# 更新到最新版本ollama update# 拉取推荐模型ollama pull qwen3.6ollama pull gemma4:31b# 查看所有可用模型ollama list
# macOS/Ubuntu 一键安装curl -fsSL https://ollama.com/install.sh | sh# 更新到最新版本ollama update# 拉取推荐模型ollama pull qwen3.6ollama pull gemma4:31b# 查看所有可用模型ollama list
- 建议至少 16GB 内存,跑本地模型更流畅
- MLX 优化只对 Apple Silicon 有效,Intel Mac 用户体验无变化
- 定期运行 ollama update 获取最新优化
Ollama 6月份连续发布了多个版本,从 v0.30.0 到 v0.30.8,重点优化了性能和稳定性。如果你是一名本地AI爱好者,v0.30.8 的 MLX 优化值得你立即更新。
作为一名测试工程师,我特别关注这类工具的稳定性改进。这次更新的缓存优化和 launch 命令修复,确实能提升日常使用体验。如果你也在用 Ollama,强烈建议升级到最新版本。
总之,本地AI的发展速度真的很快,希望这个月你能体验一下最新的优化成果!🚀

暂无评论
要发表评论,您必须先 登录