4000 亿参数“硬扛”达成！iPhone 17 Pro 本地跑超大模型，但速度仅 0.6 token-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

智能手机的算力天花板在哪？苹果的最新旗舰iPhone17Pro刚交出一份既让人惊叹又略显尴尬的答卷。

3月23日，拥有 4000亿参数 的大语言模型在iPhone17Pro上被成功跑通。要知道，即便做了量化压缩，这类模型通常也得至少 200GB 内存才能运行，而iPhone17Pro的硬件配置只有 12GB LPDDR5X 内存。

技术“奇招”: 闪存流转与混合专家模型

SSD 强行“扩容”: 借助 Flash-MoE 开源方案，设备把数据直接从固态硬盘（SSD）以流式方式喂给 GPU，突破了物理内存上限。

MoE 架构优势: “MoE”指混合专家模型（Mixture of Experts），意味着在生成每个词时，只需调用 4000 亿参数中的一小部分，而不是全量参与。

速度短板: 平均两秒冒出一个词

虽然“跑起来了”，但距离“好用”还有很大差距。实测显示:

生成速度: 仅有 0.6Token/秒。也就是说，大约每 1.5 到 2 秒才能生成一个单词。

功耗压力: 这种高强度本地运算会迅速消耗电量，发热也相当明显。

行业启示:本地大模型的“奇点”将至?

尽管当前的生成速度让人“抓狂”，这次演示的象征意义远大于实际用途。它证明了在手机端本地运行顶级规模大模型并非死路一条。

隐私护城河: 本地运行意味着数据无需上传云端，能带来极高的隐私保护。

离线可行性: 在无网络环境下获取顶级 AI 的回复正在成为可能。

业内普遍认为，“能跑起来”和“能流畅使用”是两码事。但随着算法优化与硬件迭代，当 0.6 token 提升到 60 token 时，智能手机将有望真正进化为随身携带的“超级大脑”。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

4000 亿参数“硬扛”达成！iPhone 17 Pro 本地跑超大模型，但速度仅 0.6 token