智能手机的算力天花板在哪?
3月23日,拥有 4000亿参数 的大语言模型在
技术“奇招”: 闪存流转与混合专家模型
SSD 强行“扩容”: 借助 Flash-MoE 开源方案,设备把数据直接从固态硬盘(SSD)以流式方式喂给 GPU,突破了物理内存上限。
MoE 架构优势: “MoE”指混合专家模型(Mixture of Experts),意味着在生成每个词时,只需调用 4000 亿参数中的一小部分,而不是全量参与。
速度短板: 平均两秒冒出一个词
虽然“跑起来了”,但距离“好用”还有很大差距。实测显示:
生成速度: 仅有 0.6Token/秒。也就是说,大约每 1.5 到 2 秒才能生成一个单词。
功耗压力: 这种高强度本地运算会迅速消耗电量,发热也相当明显。
行业启示:本地大模型的“奇点”将至?
尽管当前的生成速度让人“抓狂”,这次演示的象征意义远大于实际用途。它证明了在手机端本地运行顶级规模大模型并非死路一条。
隐私护城河: 本地运行意味着数据无需上传云端,能带来极高的隐私保护。
离线可行性: 在无网络环境下获取顶级 AI 的回复正在成为可能。
业内普遍认为,“能跑起来”和“能流畅使用”是两码事。但随着算法优化与硬件迭代,当 0.6 token 提升到 60 token 时,智能手机将有望真正进化为随身携带的“超级大脑”。

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?