谷歌携手英伟达推出开源模型DiffusionGemma：融入扩散机制，单卡推理速度提升约4倍-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌在2026年6月10日正式上线了实验性的开源语言模型DiffusionGemma，突破了传统大模型按字逐步生成的自回归方式，首次把图像AI里的扩散机制带入到文本生成场景中。这款模型通过从随机噪声出发进行多轮迭代优化，能够一次并行生成256个标记组成的词块。

在硬件性能方面，经过英伟达的深度调优，这一模型在单GPU、单用户场景下的运行效率相比同类传统模型提升了接近4倍。在H100显卡上处理单次请求时，输出速度最高可达到每秒1000个标记；即便是在RTX5090这类高端消费级显卡上，也可以超过每秒700个标记。

DiffusionGemma参数规模为260亿，采用混合专家（MoE）架构设计，每一步实际激活的参数只有38亿。虽然在常见基准测试里，它的文本生成效果和准确性相比传统Gemma4系列模型稍弱一些，但其特别的“全块感知”能力突破了自回归模型只能按顺序向后推理的限制。因为所有标记在生成时都能彼此参考，这款模型在文本补全、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中表现出了明显优势。

目前，这款模型的权重已经按照Apache2.0协议在Hugging Face平台开源，同时完整兼容vLLM、MLX等主流推理框架。这项尝试不仅突破了内存带宽对GPU算力发挥的限制，也为未来AI处理复杂逻辑和非线性文本生成任务提供了新的技术方向。