通义千问发布 Qwen-Image-Layered:让静态图片实现“图层级编辑”的新突破

通义千问团队今日宣布上线全新图像生成模型 Qwen-Image-Layered。它基于自研的创新架构,突破传统 AI 修图的限制,用“图层拆分”能力让静态图也能被自由编辑,把“想改哪里就改哪里”的精准编辑变成现实。

QQ20251222-155312.png

目前的 AI 修图主要有两大难题:一是做全局修改时,常把原本不需要改的区域也带乱了;二是用掩码做局部编辑时,遮挡和不清晰的边界很难处理。Qwen-Image-Layered 用“图像解耦”的新思路解决这个问题,把图片像“剥洋葱”一样自动拆成含义独立的 RGBA 图层。每一层都有自己的颜色(RGB)和透明度(Alpha),可以单独编辑而不牵动其他层。

QQ20251222-155351.png

核心能力一目了然:全新的 RGBA-VAE 让 RGB 整图与 RGBA 各图层在同一潜空间建立“沟通”,缓解图层分布不均与边界不清的问题;VLD-MMDiT 架构可灵活处理 3 层到 10 层以上,层与层通过注意力机制协作,无需低效的递归拆分;模型经历“生成单张—生成多层—对任意 RGB 图像做拆解”的多阶段训练,把生成能力进一步转化为理解与分解能力。

QQ20251222-155357.png

落地能力方面,模型能做重新着色、替换物体、改文字、删除元素、缩放与移动等常见编辑。更重要的是,它支持可变层数的拆解:同一张图可以按需要拆成 3 层或 8 层;并且任意图层都能继续递归拆分,做到层级无限细化。

目前,Qwen-Image-Layered 的论文、开源代码与在线演示已在 arXiv、GitHub、ModelScope 等平台发布。通义千问团队称,期望把图像重构成可组合的图层,为用户带来直观、精准、稳定可靠的编辑体验。

技术报告:

https://arxiv.org/abs/2512.15603

Github: 

https://github.com/QwenLM/Qwen-Image-Layered 

ModelScope: 

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face: 

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo: 

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享