小红书开源 InstanceAssemble：轻量布局可控生成框架，让复杂多实例图像更准更稳-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

小红书开源 InstanceAssemble：轻量布局可控生成框架，让复杂多实例图像更准更稳

拥抱AI，AIGC最佳实践者

2413

当AIGC从“自由发挥”走向“精细可控”的关键阶段，小红书AIGC团队正式开源全新布局可控图像生成框架——InstanceAssemble，专门面向高密度、多对象、复杂空间关系的Layout-to-Image任务。该框架在参数几乎不增加（最低仅0.84%）的情况下，显著提升空间对齐和语义一致效果，为电商、设计、游戏等高要求场景提供可落地的工业级方案。

级联建模 + Assemble-Attention，专治“多对象堆叠”难题

传统的Layout-to-Image在遇到“多个商品图标+文字标签+复杂背景”等密集布局时，常见错位、遮挡、语义不匹配等问题。InstanceAssemble引入级联的两阶段设计：

1. 语义理解阶段：对文本描述与布局指令进行关联解析；

2. 空间组装阶段：通过自研Assemble-Attention，动态建模实例间的相对位置、遮挡与层级关系，确保每个元素准确落位。

实验结果显示，在密集商品陈列、多角色插画、UI界面生成等场景中，InstanceAssemble在对象定位准确率与边缘清晰度上，均明显优于现有方法。

超轻量适配，兼容主流底模

为降低使用门槛，框架采用超轻量LoRA适配：

– 适配Stable Diffusion3-Medium仅需3.46%额外参数；

– 适配Flux.1模型低至0.84%。

这意味着无需从零训练大模型，就能在保留原模型生成能力的同时，灵活加入布局控制能力，支持“文本+参考图+边界框”的多模态指令。

自建DenseLayout基准，带动评测标准化

为更好评估布局对齐质量，小红书同步推出DenseLayout数据集与可解释指标LGS（Layout Grounding Score）。LGS从位置、尺度、语义三个维度量化效果，弥补传统指标（如IoU）在高密度场景下容易失真的问题。

业内普遍认为，InstanceAssemble的开源，意味着AIGC正从“像不像”迈向“摆得准”。当模型不仅能画得好看，还能严格按布局指令把元素放到位，才具备嵌入专业生产流程的能力。本次开源将帮助更多创作者，也将推动行业走向更可控、更可靠、更易商用的生成式AI。

论文链接:https://arxiv.org/abs/2509.16691

项目主页:https://github.com/FireRedTeam/InstanceAssemble

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐