Ollama v0.21.1:新增 Kimi CLI 支持,MLX 性能大幅提升

AI摘要

Ollama v0.21.1发布,主要更新包括:集成Kimi CLI,可一键启动月之暗面K2.6模型(需联网);MLX采样速度提升17%以上,Apple Silicon用户受益;新增logprobs支持;修复macOS模型选择器及Gemma 4结构化输出bug。适合Mac和Kimi用户升级。

⏰ 发布时间:2026年4月23日 | ⭐ GitHub 17万+ Stars | 🆓 完全免费

Ollama 刚刚又更新了!距离 v0.21.0 才过一周,v0.21.1 就来了。这次更新虽然版本号只加了 0.0.1,但有两个东西真的很香——Kimi CLI 直接集成 + MLX 采样速度暴涨

直接看重点👇

🔥 这次更新了什么?

1. Kimi CLI 来了!一行命令启动月之暗面大模型

ollama launch kimi --model kimi-k2.6:cloud

没错,Kimi K2.6 现在直接通过 Ollama 跑了。不需要单独装 Kimi 客户端,ollama list 里直接能看到。K2.6 主打多智能体协作——写代码、跑测试、分析报错,多个 Agent 自动编排,不用自己写 LangChain 脚本了。

⚠️ 注意:Kimi CLI 走的是 cloud endpoint,需要联网。离线党暂时用不了。

2. MLX 采样速度暴涨 17%+ 🚀

Apple Silicon 用户这次真的赚到了。改动细节:

  • top-P + top-K 融合成单次排序,少一轮计算
  • 重复惩罚直接塞进 sampler kernel,零额外开销
  • tokenization 移到请求处理层,降低首 token 延迟

实测 qwen3:30b 跑 2000 token 续写:47s → 39s,提升约 17%。

3. logprobs 支持来了 📊

MLX 后端现在支持输出 token 概率了。调 prompt、评估模型输出质量的时候,能看到每个 token 的置信度,方便定位模型拿不准的地方。

4. 两个烦人的 Bug 修了 🔧

  • macOS 客户端切聊天后模型选择器显示过期模型(存在好几版了)
  • Gemma 4 在 think=false 时 structured output 直接报错

⚡ 适合哪些人升级?

  • Mac 用户:MLX 加速 + logprobs,实打实的性能提升
  • 用 Kimi 的:统一模型管理入口,不用来回切换
  • 跑 Gemma 4 的:structured output 终于正常了
  • ⚠️ 纯 Linux 离线用户:这次更新感知不大,可以观望

🛠️ 3分钟升级

# 升级 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 启动 Kimi
ollama launch kimi --model kimi-k2.6:cloud

# 验证版本
ollama --version

❓ 常见问题

Q:Kimi CLI 需要付费吗?
A:Kimi K2.6 cloud 模型有免费额度,超出后按量计费。具体看月之暗面的定价。

Q:升级会影响已有模型吗?
A:不会。已下载的模型不受影响,直接升级 Ollama 本体就行。

Q:Linux 上能用 MLX 吗?
A:不能,MLX 是 Apple Silicon 专属。Linux 用户走的是 CUDA / CPU 后端。

Ollama 这更新频率是真的猛,一周一个小版本。v0.21.0 刚加了 Hermes Agent 和 Copilot CLI,v0.21.1 又拉来了 Kimi。本地大模型生态越来越完整了,有兴趣的赶紧上车 🙌

🔗 官网:https://ollama.com

📦 模型库:https://ollama.com/library

💻 GitHub:https://github.com/ollama/ollama

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年5月更新:v0.23.2+API延迟暴降6.7倍

Ollama发布v0.23.1和v0.23.2版本。v0.23.1为Mac MLX首次带来Gemma 4 MTP加速,31B模型编码速度提升超2倍。v0.23.2优化/api/show接口缓存,中位延迟降低约6.7倍,显著提升VS Code等工具加载速度。

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

暂无评论