在 Mac 上折腾本地大模型的朋友们看过来,
3 月 31 日,本地大模型运行方案
核心提升:响应速度最高翻倍,M5 表现亮眼
根据官方数据,整合 MLX 之后的
-
预填阶段(Prefill)快 1.6 倍: 处理提示词更迅速,等待时间更短。
-
生成阶段(Decode)接近翻倍: 输出文字几乎快了一倍,回复“嗖”地就出来。
-
新机型特供: 对配备 M5 系列芯片的最新机型而言,受益尤其明显。由于苹果在硬件上加入了全新的 GPU Neural Accelerator(神经加速器),推理体验更接近“即时响应”。
内存管理优化:长对话更稳不“掉链子”
这次更新不仅更快,还带来了更聪明的内存策略:
-
更灵活的调度: 新版本更好地利用 Mac 的系统统一内存(Unified Memory),即使长时间、多轮对话也能保持顺畅。
-
实用建议: 官方建议在 32GB 或更高内存 的 Mac 上运行,可获得更理想的推理表现。
首发支持:阿里 Qwen 3.5 抢先适配
在预览阶段,基于 MLX 加速的版本(Ollama 0.19 预览版)率先对 阿里旗下的
行业观察:本地 AI 助手迈向“毫秒级”
对依赖
结语:苹果生态的算力闭环正在成形
从芯片到框架,苹果持续把 AI 开发关键环节握在自己手中。而

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?