通义千问发布 Qwen-Image-Layered：让静态图片实现“图层级编辑”的新突破-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

通义千问团队今日宣布上线全新图像生成模型 Qwen-Image-Layered。它基于自研的创新架构，突破传统 AI 修图的限制，用“图层拆分”能力让静态图也能被自由编辑，把“想改哪里就改哪里”的精准编辑变成现实。

目前的 AI 修图主要有两大难题：一是做全局修改时，常把原本不需要改的区域也带乱了；二是用掩码做局部编辑时，遮挡和不清晰的边界很难处理。Qwen-Image-Layered 用“图像解耦”的新思路解决这个问题，把图片像“剥洋葱”一样自动拆成含义独立的 RGBA 图层。每一层都有自己的颜色（RGB）和透明度（Alpha），可以单独编辑而不牵动其他层。

核心能力一目了然：全新的 RGBA-VAE 让 RGB 整图与 RGBA 各图层在同一潜空间建立“沟通”，缓解图层分布不均与边界不清的问题；VLD-MMDiT 架构可灵活处理 3 层到 10 层以上，层与层通过注意力机制协作，无需低效的递归拆分；模型经历“生成单张—生成多层—对任意 RGB 图像做拆解”的多阶段训练，把生成能力进一步转化为理解与分解能力。

落地能力方面，模型能做重新着色、替换物体、改文字、删除元素、缩放与移动等常见编辑。更重要的是，它支持可变层数的拆解：同一张图可以按需要拆成 3 层或 8 层；并且任意图层都能继续递归拆分，做到层级无限细化。

目前，Qwen-Image-Layered 的论文、开源代码与在线演示已在 arXiv、GitHub、ModelScope 等平台发布。通义千问团队称，期望把图像重构成可组合的图层，为用户带来直观、精准、稳定可靠的编辑体验。

技术报告:

https://arxiv.org/abs/2512.15603

Github:

https://github.com/QwenLM/Qwen-Image-Layered

ModelScope:

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face:

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo:

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered