通义千问发布 Qwen-Image-Layered 模型,解锁图片“分层精修”新能力

通义千问团队今日推出全新的图像生成模型 Qwen-Image-Layered。依托自研的创新架构,它突破了传统 AI 修图的限制,通过“图层拆解”让原本静态的图片具备可编辑性,实现真正的“指哪儿改哪儿”的精准修改体验。

QQ20251222-155312.png

目前 AI 图片编辑普遍存在两大难点:做全局调整时容易破坏未改动区域的一致性;用掩码做局部修改时,遇到遮挡和边缘不清会很难处理。Qwen-Image-Layered 提出“图像解耦”的新思路,把图片自动拆分为语义独立的 RGBA 图层,像把蛋糕一层层分开。每一层都拥有自己的颜色信息(RGB)和透明度(Alpha),可以单独操作而不影响其他层。

QQ20251222-155351.png

该模型的核心亮点十分突出:全新的 RGBA-VAE 让 RGB 整图与 RGBA 图层共享同一潜在空间,缓解图层分布不均、边界模糊等问题;VLD-MMDiT 架构可灵活处理 3 层到 10 层以上的内容,图层之间通过注意力机制协同,不需要低效的递归拆解;训练路径经历“生成单张图 → 生成多图层 → 分解任意 RGB 图片”的多阶段进化,实现从生成能力到理解与拆解能力的转化。

QQ20251222-155357.png

在实际应用中,模型可以完成重新上色、替换物体、修改文字、删除元素、缩放与移动等操作。更值得一提的是,它支持可变数量的图层拆分:同一张图片既可按需拆成 3 层,也能拆成 8 层;并且任意图层都能继续递归分解,实现层级不限的细粒度编辑。

目前,Qwen-Image-Layered 的技术报告、代码仓库及在线 Demo 已在 arXiv、GitHub、ModelScope 等平台上线。通义千问团队表示,希望借助该模型将图片重构为可组合的图层,为用户提供直观、精准且稳定可靠的编辑能力。

技术报告:

https://arxiv.org/abs/2512.15603

Github: 

https://github.com/QwenLM/Qwen-Image-Layered 

ModelScope: 

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face: 

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo: 

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享