阿里巴巴通义实验室近期宣布开源全新图像生成模型 Z-Image。该模型仅有 6B 参数,却能高效完成图像生成与编辑,整体视觉效果接近国际领先商业模型的三倍参数级别(约20B)。Z-Image 在生成速度与资源占用方面表现突出,有望推动 AI 图像工具加速走向更普及的消费级应用。
轻量架构与高效表现
Z-Image 采用单流 DiT(Diffusion Transformer)架构,包含 Z-Image-Turbo(侧重极速推理)、Z-Image-Base(基础开发)和 Z-Image-Edit(图像编辑)三大核心版本,覆盖不同使用场景。
借助对 DMD 与 DMDR 的解耦等创新设计,模型仅需 8个采样步骤 就能生成清晰逼真的画面,显存占用控制在 16GB 以下。在 NVIDIA RTX30 系列等消费级显卡上即可流畅运行;在 H800GPU 上甚至可达到亚秒级生成速度。

复杂指令理解与双语渲染突破
Z-Image 的核心优势是强大的提示增强与推理能力,不仅能理解表面描述,还能结合“世界知识”进行语义对齐,让光影自然、细节丰富。它支持复杂指令与多模态编辑任务,在中英双语文字渲染方面准确度高,明显缓解了传统图像模型在文本生成上的难题。
行业测试显示,Z-Image 在人像生成、场景构图及编辑一致性上表现亮眼;在 ComfyUI 框架下的对比中,超过了部分 SDXL 基线模型,尤其在中文海报渲染与 NSFW 内容处理上更为稳定。
开源策略引领新一轮变革
此次 Z-Image 发布恰逢全球图像生成模型竞争加剧,其轻量高效的路线,与不久前黑森林实验室推出的 32B 参数大模型 Flux.2 形成鲜明对比,展现了中国 AI 企业在资源优化与降本增效上的创新思路。
分析人士认为,Z-Image 采用 Apache2.0 开源许可,并已在 GitHub、Hugging Face 及 ModelScope 全面上架,显著降低了开发者与创作者的微调门槛。随着此类高效模型持续迭代,AI 图像工具预计将在 2026年加速渗透至移动端和边缘设备,为电商、影视、游戏等行业提供更强助力。
- 项目官网:https://tongyi-mai.github.io/Z-Image-homepage/
- GitHub仓库:https://github.com/Tongyi-MAI/Z-Image


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?