谷歌发布全新 Gemma 4 12B 模型：可直接理解图像和音频，无需额外编码器-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，谷歌正式推出了全新的统一多模态模型 ——Gemma 4 12B。这款模型拥有 120 亿参数，最突出的特点是无需传统多模态编码器，就可以直接处理视觉和音频内容。为了更适合消费级硬件使用，Gemma 4 12B 只需要 16GB 显存或统一内存，用户在高配笔记本电脑上就能本地运行，不一定要依赖云端算力。

Gemma 4 12B 的创新之处，在于去掉了传统多模态模型里常见的编码器模块。过去，多模态模型通常要先通过独立的视觉编码器和音频编码器，把图像和声音转换后再处理，而 Gemma 4 12B 使用了一种更轻量的嵌入层来完成视觉输入处理。它只需一次矩阵乘法，再加上位置嵌入和归一化操作，就能完成相关处理，明显降低了计算复杂度。同时，音频信号会被直接映射到文本 token 的维度空间，因此也不再需要单独的音频编码器。这样的无编码器设计，让 Gemma 4 12B 在推理时步骤更少，整体结构也更加紧凑。

在性能方面，Gemma 4 12B 已经接近谷歌更大规模的 26B MoE 模型，在多项基准测试中表现出了很强的多步推理能力和代理工作流能力。另外，这款模型还加入了 Multi-Token Prediction（MTP）drafters，可以一次预测多个 token，从而进一步提升推理速度。截至目前，Gemma 4 系列累计下载量已经超过 1.5 亿次，说明开发者社区对这款开源模型给予了很高关注。

Gemma 4 12B 采用 Apache 2.0 许可证开源，权重文件已经上线 Hugging Face 和 Kaggle 等平台，并支持多种推理框架，包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。同时，谷歌自己的 AI Edge Gallery 也提供了端侧部署支持，开发者还可以借助 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模生产部署。