Ollama v0.23.1 发布:Gemma 4 MTP 加速,Mac 编码速度翻倍

AI摘要

Gemma 4 发布 v0.23.1 版本,免费开源。Mac 用户首次获得 MTP 加速支持,31B 模型 coding 任务速度提升超 2 倍。同时优化 MLX 线程并升级 Go 1.26。仅限 Mac MLX 版本,Windows/Linux 暂无影响。

发布时间:2026-05-05

版本:v0.23.1

🆓 费用:免费开源

🔥 Mac 用户尖叫!Gemma 4 终于支持 MTP 加速了,coding 任务速度直接翻倍 💪


🔥 这次更新了什么?

  1. Gemma 4 MTP 加速 — 在 Mac 的 MLX 上首次支持多词元预测推理,31B 模型 coding 速度提升 超 2 倍
  2. MLX 线程优化 — 修复了之前版本的部分线程问题,更稳定
  3. Go 1.26 升级 — 底层依赖更新,性能和兼容性更好

✅ 适合哪些人?

  • ✅ Mac 用户 — MTP 加速专门为苹果芯片优化,必升
  • ✅ 代码写手 — coding 任务速度翻倍,效率提升明显
  • ⚠️ Windows/Linux 用户 — 标准 CUDA 版本暂无 MTP,但影响不大

🛠️ 快速上手

ollama run gemma4:31b-coding-mtp-bf16

老规矩,先拉取模型:

ollama pull gemma4:31b-coding-mtp-bf16

❓ 常见问题

Q:MTP 是什么?

A:Multi-token Prediction,一次性预测多个词元,减少推理延迟 🍎

Q:只有 Mac 能用吗?

A:目前 MTP 加速仅支持 Mac MLX 版本,CUDA 版本暂未上线

📝 写在最后

这次最让我兴奋的是 Gemma 4 终于在 Mac 上跑出满意的速度了 🏃‍♂️ 之前用 31B coding 感觉还是有点慢,现在 MTP 加速后体验应该会好很多。如果你也是 Mac + Ollama 用户,建议更新试试!

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

Ollama v0.21.1:新增 Kimi CLI 支持,MLX 性能大幅提升

Ollama v0.21.1发布,主要更新包括:集成Kimi CLI,可一键启动月之暗面K2.6模型(需联网);MLX采样速度提升17%以上,Apple Silicon用户受益;新增logprobs支持;修复macOS模型选择器及Gemma 4结构化输出bug。适合Mac和Kimi用户升级。

暂无评论