Ollama v0.30.0集成llama.cpp引擎,支持NVIDIA/AMD等硬件;新增Hugging Face GGUF及自定义微调模型;v0.30.3支持Gemma 4 12B;v0.30.4升级llama.cpp;v0.30.6集成Oh My Pi、优化Apple Silicon量化;修复浮点崩溃及Windows问题。
📦 v0.30.6 - 2026年6月6日
⚡ Oh My Pi 集成
ollama launch omp 命令现在与 Oh My Pi 深度集成。Oh My Pi 是一个 AI 编程助手,支持 IDE 集成,让开发者可以在熟悉的编辑环境中直接使用 Ollama 模型进行代码辅助。一条命令启动完整的 AI 编程环境,无需复杂配置。
🍎 Apple Silicon 量化优化
MLX 嵌入层现在使用 NVFP4 全局缩放来改进量化效果。针对 Apple Silicon 芯片(M1/M2/M3/M4 系列),带来更高效的内存使用、更快的推理速度和更好的量化精度。
📦 v0.30.5 - 2026年6月5日
🔧 修复 Gemma 4 12B 浮点异常崩溃
解决了 Gemma 4 12B 模型在运行时出现的浮点数除零异常导致的崩溃问题,确保该模型能够稳定运行。
🪟 Windows 集成安装改进
修复了 Hermes 在 Windows 系统上的安装流程,提升了跨平台兼容性。
📦 v0.30.4 - 2026年6月4日
🔧 llama.cpp 升级
升级了底层 llama.cpp 库到最新版本,带来性能改进和 bug 修复。
🪟 Windows 清理改进
Windows 系统清理过程中现在会正确终止 llama-server 进程,避免残留进程问题。
📦 v0.30.3 - 2026年6月4日
🤖 新增 Gemma 4 12B 模型支持
新增了对 gemma4:12b 模型的支持。Gemma 4 是 Google 推出的新一代开源大语言模型,12B 参数版本在性能和资源消耗之间取得了良好平衡,适合在消费级硬件上运行。
使用方式:ollama pull gemma4:12b
📅 v0.30.2 更新 | 2026年6月3日
🚀 Cline CLI 自动安装
Ollama 现在会自动检测并安装 Cline CLI,这是 VS Code 中非常流行的 AI 编程助手。升级后,你可以直接在 Ollama 中启动 Cline,无需手动配置。对于使用 VS Code 进行 AI 辅助编程的开发者来说,这大大简化了工作流。
🤗 Qwen Code 集成
新增 Qwen Code 集成支持!这是阿里云通义千问团队推出的 AI 编程工具。现在可以直接在 Ollama 中配置和使用 Qwen Code,享受国产大模型的编程辅助能力。对于国内开发者来说,这是一个非常实用的功能。
🎮 Radeon 8060S iGPU 支持
新增对 AMD Radeon 8060S iGPU 的默认支持。这意味着搭载这款集成显卡的设备现在可以直接运行 Ollama,无需额外配置。AMD 的集成显卡在很多笔记本上都有搭载,这让 Ollama 的适用范围进一步扩大。
🏗️ Laguna (Poolside) 架构支持
通过 llama.cpp 补丁新增了 Laguna (Poolside) 架构支持。这是 Poolside AI 团队开发的模型架构,现在可以直接在 Ollama 中运行。模型生态持续扩大中。
🔒 安全性加固
对 App 的 Markdown URL 处理进行了多次安全加固,防止潜在的安全漏洞。同时修复了 llama-server 的 SSE ping 注释处理问题,提升了稳定性。
🔥 这次更新了什么?
Ollama v0.30.0 是一次架构级的重大更新。核心变化是集成了 llama.cpp 引擎,与 Apple Silicon 上的 MLX 引擎形成双引擎架构。这意味着 Ollama 现在可以在更广泛的硬件上运行,包括 NVIDIA GPU、AMD GPU 以及各种 CPU 架构。
⚡ llama.cpp 引擎集成
这是本次更新的核心。llama.cpp 的集成让 Ollama 突破了 Apple Silicon 的限制,可以在 NVIDIA、AMD 等硬件上运行。对于开发者来说,这意味着你可以在服务器、工作站甚至树莓派上运行 Ollama,不再受限于特定平台。
🤗 Hugging Face GGUF 模型支持
现在可以直接加载 Hugging Face 上的 GGUF 格式模型了!这意味着你可以使用社区微调的各种模型,而不仅限于 Ollama 官方库中的模型。对于需要定制化模型的用户来说,这是一个巨大的便利。
🚀 NVIDIA 硬件性能提升
在 NVIDIA GPU 上的推理性能得到了显著提升。llama.cpp 对 CUDA 的优化让 Ollama 在 NVIDIA 硬件上的表现更加出色。如果你有 NVIDIA 显卡,升级后应该能感受到明显的速度提升。
🔧 自定义微调模型支持
除了 Hugging Face 模型,Ollama 现在也支持加载你自己的微调模型。只需要将模型转换为 GGUF 格式,就可以通过 Ollama 运行。这大大扩展了 Ollama 的应用场景。
✅ 适合哪些人?
✅ NVIDIA/AMD GPU 用户:llama.cpp 引擎让你们的硬件终于能被充分利用
✅ 模型开发者:可以直接加载 Hugging Face 上的 GGUF 模型和自己的微调模型
✅ 服务器部署者:不再局限于 Apple Silicon,可以在各种 Linux 服务器上运行
⚠️ Apple Silicon 用户:MLX 引擎仍然是默认,但可以切换到 llama.cpp 以获得更多模型支持
🛠️ 快速上手
升级 Ollama:
# macOS/Linux 升级
curl -fsSL https://ollama.com/install.sh | sh
# 或者下载最新版本
# https://ollama.com/download
# 运行模型
ollama run llama3.2
# 加载 Hugging Face 模型
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF
升级后,Ollama 会自动根据你的硬件选择最合适的引擎(MLX 或 llama.cpp)。
❓ 常见问题
Q: 升级后我的模型会丢失吗?
A: 不会。模型数据存储在独立目录,升级不会影响已下载的模型。
Q: 如何选择使用哪个引擎?
A: Ollama 会自动选择最合适的引擎。在 Apple Silicon 上默认使用 MLX,其他硬件使用 llama.cpp。你也可以通过环境变量强制指定。
Q: Hugging Face 模型需要转换格式吗?
A: 需要 GGUF 格式。大多数热门模型已经有 GGUF 版本,直接使用即可。如果是其他格式,需要先用 llama.cpp 的转换工具处理。
🙌 写在最后
Ollama v0.30.0 的发布标志着它从"Apple Silicon 专属"进化为"全平台本地 AI 运行时"。llama.cpp 的集成让它可以在几乎所有硬件上运行,Hugging Face 模型支持则让它接入了庞大的开源模型生态。
如果你一直在等 Ollama 支持你的 NVIDIA 显卡,现在就是升级的最佳时机。
#Ollama #本地AI #llama.cpp #HuggingFace #开源

暂无评论
要发表评论,您必须先 登录