Ollama 2026年6月更新汇总

AI摘要

Ollama v0.30.0集成llama.cpp引擎,支持NVIDIA/AMD等硬件;新增Hugging Face GGUF及自定义微调模型;v0.30.3支持Gemma 4 12B;v0.30.4升级llama.cpp;v0.30.6集成Oh My Pi、优化Apple Silicon量化;修复浮点崩溃及Windows问题。


📦 v0.30.6 - 2026年6月6日

⚡ Oh My Pi 集成

ollama launch omp 命令现在与 Oh My Pi 深度集成。Oh My Pi 是一个 AI 编程助手,支持 IDE 集成,让开发者可以在熟悉的编辑环境中直接使用 Ollama 模型进行代码辅助。一条命令启动完整的 AI 编程环境,无需复杂配置。

🍎 Apple Silicon 量化优化

MLX 嵌入层现在使用 NVFP4 全局缩放来改进量化效果。针对 Apple Silicon 芯片(M1/M2/M3/M4 系列),带来更高效的内存使用、更快的推理速度和更好的量化精度。


📦 v0.30.5 - 2026年6月5日

🔧 修复 Gemma 4 12B 浮点异常崩溃

解决了 Gemma 4 12B 模型在运行时出现的浮点数除零异常导致的崩溃问题,确保该模型能够稳定运行。

🪟 Windows 集成安装改进

修复了 Hermes 在 Windows 系统上的安装流程,提升了跨平台兼容性。


📦 v0.30.4 - 2026年6月4日

🔧 llama.cpp 升级

升级了底层 llama.cpp 库到最新版本,带来性能改进和 bug 修复。

🪟 Windows 清理改进

Windows 系统清理过程中现在会正确终止 llama-server 进程,避免残留进程问题。


📦 v0.30.3 - 2026年6月4日

🤖 新增 Gemma 4 12B 模型支持

新增了对 gemma4:12b 模型的支持。Gemma 4 是 Google 推出的新一代开源大语言模型,12B 参数版本在性能和资源消耗之间取得了良好平衡,适合在消费级硬件上运行。

使用方式:ollama pull gemma4:12b


📅 v0.30.2 更新 | 2026年6月3日

🚀 Cline CLI 自动安装

Ollama 现在会自动检测并安装 Cline CLI,这是 VS Code 中非常流行的 AI 编程助手。升级后,你可以直接在 Ollama 中启动 Cline,无需手动配置。对于使用 VS Code 进行 AI 辅助编程的开发者来说,这大大简化了工作流。

🤗 Qwen Code 集成

新增 Qwen Code 集成支持!这是阿里云通义千问团队推出的 AI 编程工具。现在可以直接在 Ollama 中配置和使用 Qwen Code,享受国产大模型的编程辅助能力。对于国内开发者来说,这是一个非常实用的功能。

🎮 Radeon 8060S iGPU 支持

新增对 AMD Radeon 8060S iGPU 的默认支持。这意味着搭载这款集成显卡的设备现在可以直接运行 Ollama,无需额外配置。AMD 的集成显卡在很多笔记本上都有搭载,这让 Ollama 的适用范围进一步扩大。

🏗️ Laguna (Poolside) 架构支持

通过 llama.cpp 补丁新增了 Laguna (Poolside) 架构支持。这是 Poolside AI 团队开发的模型架构,现在可以直接在 Ollama 中运行。模型生态持续扩大中。

🔒 安全性加固

对 App 的 Markdown URL 处理进行了多次安全加固,防止潜在的安全漏洞。同时修复了 llama-server 的 SSE ping 注释处理问题,提升了稳定性。

🔥 这次更新了什么?

Ollama v0.30.0 是一次架构级的重大更新。核心变化是集成了 llama.cpp 引擎,与 Apple Silicon 上的 MLX 引擎形成双引擎架构。这意味着 Ollama 现在可以在更广泛的硬件上运行,包括 NVIDIA GPU、AMD GPU 以及各种 CPU 架构。

⚡ llama.cpp 引擎集成

这是本次更新的核心。llama.cpp 的集成让 Ollama 突破了 Apple Silicon 的限制,可以在 NVIDIA、AMD 等硬件上运行。对于开发者来说,这意味着你可以在服务器、工作站甚至树莓派上运行 Ollama,不再受限于特定平台。

🤗 Hugging Face GGUF 模型支持

现在可以直接加载 Hugging Face 上的 GGUF 格式模型了!这意味着你可以使用社区微调的各种模型,而不仅限于 Ollama 官方库中的模型。对于需要定制化模型的用户来说,这是一个巨大的便利。

🚀 NVIDIA 硬件性能提升

在 NVIDIA GPU 上的推理性能得到了显著提升。llama.cpp 对 CUDA 的优化让 Ollama 在 NVIDIA 硬件上的表现更加出色。如果你有 NVIDIA 显卡,升级后应该能感受到明显的速度提升。

🔧 自定义微调模型支持

除了 Hugging Face 模型,Ollama 现在也支持加载你自己的微调模型。只需要将模型转换为 GGUF 格式,就可以通过 Ollama 运行。这大大扩展了 Ollama 的应用场景。

✅ 适合哪些人?

NVIDIA/AMD GPU 用户:llama.cpp 引擎让你们的硬件终于能被充分利用

模型开发者:可以直接加载 Hugging Face 上的 GGUF 模型和自己的微调模型

服务器部署者:不再局限于 Apple Silicon,可以在各种 Linux 服务器上运行

⚠️ Apple Silicon 用户:MLX 引擎仍然是默认,但可以切换到 llama.cpp 以获得更多模型支持

🛠️ 快速上手

升级 Ollama:

# macOS/Linux 升级
curl -fsSL https://ollama.com/install.sh | sh

# 或者下载最新版本
# https://ollama.com/download

# 运行模型
ollama run llama3.2

# 加载 Hugging Face 模型
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF

升级后,Ollama 会自动根据你的硬件选择最合适的引擎(MLX 或 llama.cpp)。

❓ 常见问题

Q: 升级后我的模型会丢失吗?

A: 不会。模型数据存储在独立目录,升级不会影响已下载的模型。

Q: 如何选择使用哪个引擎?

A: Ollama 会自动选择最合适的引擎。在 Apple Silicon 上默认使用 MLX,其他硬件使用 llama.cpp。你也可以通过环境变量强制指定。

Q: Hugging Face 模型需要转换格式吗?

A: 需要 GGUF 格式。大多数热门模型已经有 GGUF 版本,直接使用即可。如果是其他格式,需要先用 llama.cpp 的转换工具处理。

🙌 写在最后

Ollama v0.30.0 的发布标志着它从"Apple Silicon 专属"进化为"全平台本地 AI 运行时"。llama.cpp 的集成让它可以在几乎所有硬件上运行,Hugging Face 模型支持则让它接入了庞大的开源模型生态。

如果你一直在等 Ollama 支持你的 NVIDIA 显卡,现在就是升级的最佳时机。

#Ollama #本地AI #llama.cpp #HuggingFace #开源

Saiita

我还没有学会写个人说明!

相关推荐

Ollama 2026年4月更新:v0.22.0+NVIDIA Nemotron 3支持

Ollama v0.22.0新增两款开源模型:NVIDIA Nemotron 3 Omni多模态大模型(支持文本、代码、图像,需8GB+显存)和Poolside Laguna XS.2编程专用模型(轻量约3-4GB,4GB显存可运行)。适合需要本地多模态能力或代码补全的开发者,可通过ollama pull命令快速部署。

Ollama v0.21.1:新增 Kimi CLI 支持,MLX 性能大幅提升

Ollama v0.21.1发布,主要更新包括:集成Kimi CLI,可一键启动月之暗面K2.6模型(需联网);MLX采样速度提升17%以上,Apple Silicon用户受益;新增logprobs支持;修复macOS模型选择器及Gemma 4结构化输出bug。适合Mac和Kimi用户升级。

暂无评论