通义千问团队今日宣布上线全新图像生成模型 Qwen-Image-Layered。它基于自研的创新架构,突破传统 AI 修图的限制,用“图层拆分”能力让静态图也能被自由编辑,把“想改哪里就改哪里”的精准编辑变成现实。

目前的 AI 修图主要有两大难题:一是做全局修改时,常把原本不需要改的区域也带乱了;二是用掩码做局部编辑时,遮挡和不清晰的边界很难处理。Qwen-Image-Layered 用“图像解耦”的新思路解决这个问题,把图片像“剥洋葱”一样自动拆成含义独立的 RGBA 图层。每一层都有自己的颜色(RGB)和透明度(Alpha),可以单独编辑而不牵动其他层。

核心能力一目了然:全新的 RGBA-VAE 让 RGB 整图与 RGBA 各图层在同一潜空间建立“沟通”,缓解图层分布不均与边界不清的问题;VLD-MMDiT 架构可灵活处理 3 层到 10 层以上,层与层通过注意力机制协作,无需低效的递归拆分;模型经历“生成单张—生成多层—对任意 RGB 图像做拆解”的多阶段训练,把生成能力进一步转化为理解与分解能力。

落地能力方面,模型能做重新着色、替换物体、改文字、删除元素、缩放与移动等常见编辑。更重要的是,它支持可变层数的拆解:同一张图可以按需要拆成 3 层或 8 层;并且任意图层都能继续递归拆分,做到层级无限细化。
目前,Qwen-Image-Layered 的论文、开源代码与在线演示已在 arXiv、GitHub、ModelScope 等平台发布。通义千问团队称,期望把图像重构成可组合的图层,为用户带来直观、精准、稳定可靠的编辑体验。
技术报告:
https://arxiv.org/abs/2512.15603
Github:
https://github.com/QwenLM/Qwen-Image-Layered
ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face:
https://huggingface.co/Qwen/Qwen-Image-Layered
Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?