谷歌推出 Gemma 4，E2B 架构让手机本地运行 AI 迎来新突破-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

开源大模型生态正在迎来底层架构上的一次重要升级。谷歌Google DeepMind近日正式推出了迄今为止最强的开放模型 Gemma 4。虽然这款模型在参数规模上与上一代基本一致，仍然保持在约300亿的水平，但它在“单位参数智能密度”方面有了明显提升，在多项关键任务中的表现已经可以比肩一年半前的顶尖闭源大模型。

这次 Gemma 4 最受关注的技术亮点，是首次采用了全新的“E2B”（参数卸载）架构。在传统 Transformer 架构里，体量庞大的嵌入层通常会占据大量显存资源。而这一新架构通过在每一层中加入嵌入表，借助查找表方式替代了沉重的全矩阵乘法运算。以其中一款50亿参数模型为例，在 E2B 架构支持下，真正需要放入 GPU 显存中的“有效参数”只有20亿，剩余30亿参数则可以稳定卸载到 CPU 甚至磁盘里。这也意味着，该模型只要2GB 显存就能实现高速推理，真正打破了移动设备、智能手机以及树莓派等端侧硬件的部署限制。

作为一次规模颇大的复杂发布，Google DeepMind团队联动了包括 Hugging Face、llama.cpp、Ollama、英伟达和 AMD 在内的近50家外部合作伙伴。目前，Gemma 4 已经完成与 Android Studio 的深度结合，开发者在 Agent 模式下不需要把任何代码上传到云端 API，就能在本地离线环境中安全调用 AI 来编写 Android 代码，这对于数据隐私和离线办公需求较强的职场场景来说意义很大。

在多模态能力和核心体验方面，Gemma 4 延续了与 Gemini 3 相同的研究成果。哪怕只是2B 或4B 规模的端侧小模型，也已经拥有很强的多语言能力（支持140种语言）以及多模态理解能力，能够较为轻松地完成语音识别、语音提问和30到60秒短视频分析等任务。虽然目前这款模型在知识储备的绝对规模上与超大模型相比还有差距，而且在文本扩散（Diffusion Transformer）等前沿实验探索，以及专家混合模型（MoE）微调方面，依旧面对行业普遍认可的难题，但它所展现出的高密度智能水平已经不能被低估。

随着大模型开箱即用能力持续提升，垂直领域的开发生态也在发生深度重塑，过去单纯依赖传统微调的热度正在慢慢降温。面向未来，Google DeepMind给出了一个具有里程碑意义的判断：在未来1到2年内，用户的智能手机将可以直接在本地顺畅运行达到 Gemini 3 Pro 级别性能的强大模型。到那时，大多数复杂的智能体代理任务都能直接在设备端完成，不再需要依赖云端算力，这无疑会给下一代消费级应用整合方式和用户体验带来颠覆性变化。