通义千问发布 Qwen-Image-Layered 模型，解锁图片“分层精修”新能力-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

通义千问团队今日推出全新的图像生成模型 Qwen-Image-Layered。依托自研的创新架构，它突破了传统 AI 修图的限制，通过“图层拆解”让原本静态的图片具备可编辑性，实现真正的“指哪儿改哪儿”的精准修改体验。

目前 AI 图片编辑普遍存在两大难点：做全局调整时容易破坏未改动区域的一致性；用掩码做局部修改时，遇到遮挡和边缘不清会很难处理。Qwen-Image-Layered 提出“图像解耦”的新思路，把图片自动拆分为语义独立的 RGBA 图层，像把蛋糕一层层分开。每一层都拥有自己的颜色信息（RGB）和透明度（Alpha），可以单独操作而不影响其他层。

该模型的核心亮点十分突出：全新的 RGBA-VAE 让 RGB 整图与 RGBA 图层共享同一潜在空间，缓解图层分布不均、边界模糊等问题；VLD-MMDiT 架构可灵活处理 3 层到 10 层以上的内容，图层之间通过注意力机制协同，不需要低效的递归拆解；训练路径经历“生成单张图 → 生成多图层 → 分解任意 RGB 图片”的多阶段进化，实现从生成能力到理解与拆解能力的转化。

在实际应用中，模型可以完成重新上色、替换物体、修改文字、删除元素、缩放与移动等操作。更值得一提的是，它支持可变数量的图层拆分：同一张图片既可按需拆成 3 层，也能拆成 8 层；并且任意图层都能继续递归分解，实现层级不限的细粒度编辑。

目前，Qwen-Image-Layered 的技术报告、代码仓库及在线 Demo 已在 arXiv、GitHub、ModelScope 等平台上线。通义千问团队表示，希望借助该模型将图片重构为可组合的图层，为用户提供直观、精准且稳定可靠的编辑能力。

技术报告:

https://arxiv.org/abs/2512.15603

Github:

https://github.com/QwenLM/Qwen-Image-Layered

ModelScope:

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face:

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo:

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered