谷歌携手英伟达推出开源模型DiffusionGemma:融入扩散机制,单卡推理速度提升约4倍

谷歌在2026年6月10日正式上线了实验性的开源语言模型DiffusionGemma,突破了传统大模型按字逐步生成的自回归方式,首次把图像AI里的扩散机制带入到文本生成场景中。这款模型通过从随机噪声出发进行多轮迭代优化,能够一次并行生成256个标记组成的词块。

QQ20260611-102527.jpg

在硬件性能方面,经过英伟达的深度调优,这一模型在单GPU、单用户场景下的运行效率相比同类传统模型提升了接近4倍。在H100显卡上处理单次请求时,输出速度最高可达到每秒1000个标记;即便是在RTX5090这类高端消费级显卡上,也可以超过每秒700个标记。

DiffusionGemma参数规模为260亿,采用混合专家(MoE)架构设计,每一步实际激活的参数只有38亿。虽然在常见基准测试里,它的文本生成效果和准确性相比传统Gemma4系列模型稍弱一些,但其特别的“全块感知”能力突破了自回归模型只能按顺序向后推理的限制。因为所有标记在生成时都能彼此参考,这款模型在文本补全、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中表现出了明显优势。

QQ20260611-102535.jpg

目前,这款模型的权重已经按照Apache2.0协议在Hugging Face平台开源,同时完整兼容vLLM、MLX等主流推理框架。这项尝试不仅突破了内存带宽对GPU算力发挥的限制,也为未来AI处理复杂逻辑和非线性文本生成任务提供了新的技术方向。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享