最近,谷歌正式推出了全新的统一多模态模型 ——Gemma 4 12B。这款模型拥有 120 亿参数,最突出的特点是无需传统多模态编码器,就可以直接处理视觉和音频内容。为了更适合消费级硬件使用,Gemma 4 12B 只需要 16GB 显存或统一内存,用户在高配笔记本电脑上就能本地运行,不一定要依赖云端算力。

Gemma 4 12B 的创新之处,在于去掉了传统多模态模型里常见的编码器模块。过去,多模态模型通常要先通过独立的视觉编码器和音频编码器,把图像和声音转换后再处理,而 Gemma 4 12B 使用了一种更轻量的嵌入层来完成视觉输入处理。它只需一次矩阵乘法,再加上位置嵌入和归一化操作,就能完成相关处理,明显降低了计算复杂度。同时,音频信号会被直接映射到文本 token 的维度空间,因此也不再需要单独的音频编码器。这样的无编码器设计,让 Gemma 4 12B 在推理时步骤更少,整体结构也更加紧凑。
在性能方面,Gemma 4 12B 已经接近谷歌更大规模的 26B MoE 模型,在多项基准测试中表现出了很强的多步推理能力和代理工作流能力。另外,这款模型还加入了 Multi-Token Prediction(MTP)drafters,可以一次预测多个 token,从而进一步提升推理速度。截至目前,Gemma 4 系列累计下载量已经超过 1.5 亿次,说明开发者社区对这款开源模型给予了很高关注。
Gemma 4 12B 采用 Apache 2.0 许可证开源,权重文件已经上线 Hugging Face 和 Kaggle 等平台,并支持多种推理框架,包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。同时,谷歌自己的 AI Edge Gallery 也提供了端侧部署支持,开发者还可以借助 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模生产部署。
划重点:
🌟 Gemma 4 12B 不需要传统编码器,就能直接处理图像和音频数据,而且运行门槛更低。
⚡ 借助轻量级嵌入层,模型明显减少了计算复杂度,整体性能接近谷歌更大的 26B MoE 模型。
📈 系列累计下载量已突破 1.5 亿次,并支持多种推理框架和端侧部署,受到开发者广泛关注。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?