小红书开源InstanceAssemble！轻量布局可控生成框架，复杂多实例生成更精准-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

小红书开源InstanceAssemble！轻量布局可控生成框架，复杂多实例生成更精准

拥抱AI，AIGC最佳实践者

3214

在AIGC从“自由发挥”走向“精确掌控”的关键阶段，小红书AIGC团队正式开源全新布局可控图像生成框架——InstanceAssemble，专为高密度、多对象、复杂空间关系的Layout-to-Image任务打造。该框架在保持极低参数增量（最少仅0.84%）的同时，显著提升生成图像的空间对齐与语义一致性，为电商、设计、游戏等高标准场景提供工业级解决方案。

级联架构 + Assemble-Attention，解决“多物堆叠”痛点

传统的Layout-to-Image模型在遇到“10个商品图标+文字标签+背景层”等复杂布局时，常会出现对象错位、重叠或语义错配。InstanceAssemble采用创新的级联双阶段设计：

1. 语义解析阶段：理解文本与布局指令之间的语义关联；

2. 空间组装阶段：借助自研Assemble-Attention机制，动态建模实例间的相对位置、遮挡关系与层级结构，确保每个元素“准确到位”。

实验结果表明，在密集商品陈列、多角色插画、UI界面生成等场景中，InstanceAssemble的对象定位准确率与边缘清晰度均明显领先于现有方法。

超轻量适配，兼容主流底模

为降低使用门槛，框架采用轻量级LoRA适配器：

– 适配Stable Diffusion3-Medium仅需3.46%额外参数；

– 适配Flux.1模型更低至0.84%。

这意味着无需重新训练大模型，即可在保留底模强大生成能力的基础上，灵活加入布局控制能力，并支持文本、参考图、边界框等多模态指令。

自建DenseLayout基准，推动评估更标准化

为更准确地评估布局对齐质量，小红书同步发布DenseLayout评测数据集与LGS（Layout Grounding Score）可解释指标。LGS从位置精度、尺度匹配、语义一致性三方面量化生成效果，弥补传统指标（如IoU）在密集场景下易失真的问题。

在AIbase看来，InstanceAssemble的推出，标志着AIGC从“画得像”迈向“摆得准”。当AI不仅能生成精美画面，还能按设计师的精确布局要求“放置”每个元素，AIGC才真正具备融入专业生产流程的能力。此次开源不仅赋能社区创作者，也将推动行业向可控、可靠、可商用的生成式AI加速前进。

论文链接:https://arxiv.org/abs/2509.16691

项目主页:https://github.com/FireRedTeam/InstanceAssemble

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐