Mac 党喜讯!Ollama 接入 Apple MLX:推理提速翻倍,M5 性能拉满

在 Mac 上折腾本地大模型的朋友们看过来,Ollama刚推出的一波“性能升级”绝对值得上手。

3 月 31 日,本地大模型运行方案Ollama发布更新,正式接入苹果自研的机器学习框架 MLX。这一次底层架构的升级,让搭载 Apple 芯片的 Mac 直接迎来明显的速度飞跃,本地 AI 的响应更快、更顺滑。

核心提升:响应速度最高翻倍,M5 表现亮眼

根据官方数据,整合 MLX 之后的Ollama在两个关键阶段都有大幅提速:

  • 预填阶段(Prefill)快 1.6 倍: 处理提示词更迅速,等待时间更短。

  • 生成阶段(Decode)接近翻倍: 输出文字几乎快了一倍,回复“嗖”地就出来。

  • 新机型特供 对配备 M5 系列芯片的最新机型而言,受益尤其明显。由于苹果在硬件上加入了全新的 GPU Neural Accelerator(神经加速器),推理体验更接近“即时响应”。

内存管理优化:长对话更稳不“掉链子”

这次更新不仅更快,还带来了更聪明的内存策略:

  • 更灵活的调度: 新版本更好地利用 Mac 的系统统一内存(Unified Memory),即使长时间、多轮对话也能保持顺畅。

  • 实用建议: 官方建议在 32GB 或更高内存 的 Mac 上运行,可获得更理想的推理表现。

首发支持:阿里 Qwen 3.5 抢先适配

在预览阶段,基于 MLX 加速的版本(Ollama 0.19 预览版)率先对 阿里旗下的Qwen 3.5 模型做了优化适配。Ollama同时表示,后续会逐步覆盖更多常用模型。

行业观察:本地 AI 助手迈向“毫秒级”

对依赖Ollama驱动本地 AI 工具(如 OpenClaw)或代码助手(如 Claude Code、Codex)的开发者来说,这轮升级让工作流更闭环。当延迟降到亚秒级,本地大模型不再只是“试验品”,而是可以和云端服务掰手腕的高效生产力工具。

结语:苹果生态的算力闭环正在成形

从芯片到框架,苹果持续把 AI 开发关键环节握在自己手中。而Ollama对 MLX 的拥抱,不仅让 Mac 更像是“本地 AI 开发首选装备”,也让开发者切身感受到软硬协同带来的极致红利。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享