Mac 党喜讯！Ollama 接入 Apple MLX：推理提速翻倍，M5 性能拉满

拥抱AI，AIGC最佳实践者

569

在 Mac 上折腾本地大模型的朋友们看过来，Ollama刚推出的一波“性能升级”绝对值得上手。

3 月 31 日，本地大模型运行方案Ollama发布更新，正式接入苹果自研的机器学习框架 MLX。这一次底层架构的升级，让搭载 Apple 芯片的 Mac 直接迎来明显的速度飞跃，本地 AI 的响应更快、更顺滑。

核心提升：响应速度最高翻倍，M5 表现亮眼

根据官方数据，整合 MLX 之后的Ollama在两个关键阶段都有大幅提速：

预填阶段（Prefill）快 1.6 倍： 处理提示词更迅速，等待时间更短。
生成阶段（Decode）接近翻倍： 输出文字几乎快了一倍，回复“嗖”地就出来。
新机型特供： 对配备 M5 系列芯片的最新机型而言，受益尤其明显。由于苹果在硬件上加入了全新的 GPU Neural Accelerator（神经加速器），推理体验更接近“即时响应”。

内存管理优化：长对话更稳不“掉链子”

这次更新不仅更快，还带来了更聪明的内存策略：

更灵活的调度： 新版本更好地利用 Mac 的系统统一内存（Unified Memory），即使长时间、多轮对话也能保持顺畅。
实用建议： 官方建议在 32GB 或更高内存 的 Mac 上运行，可获得更理想的推理表现。

首发支持：阿里 Qwen 3.5 抢先适配

在预览阶段，基于 MLX 加速的版本（Ollama 0.19 预览版）率先对 阿里旗下的Qwen 3.5 模型做了优化适配。Ollama同时表示，后续会逐步覆盖更多常用模型。

行业观察：本地 AI 助手迈向“毫秒级”

对依赖Ollama驱动本地 AI 工具（如 OpenClaw）或代码助手（如 Claude Code、Codex）的开发者来说，这轮升级让工作流更闭环。当延迟降到亚秒级，本地大模型不再只是“试验品”，而是可以和云端服务掰手腕的高效生产力工具。

结语：苹果生态的算力闭环正在成形

从芯片到框架，苹果持续把 AI 开发关键环节握在自己手中。而Ollama对 MLX 的拥抱，不仅让 Mac 更像是“本地 AI 开发首选装备”，也让开发者切身感受到软硬协同带来的极致红利。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐