小红书携复旦开源 InstanceAssemble:AI 图像布局实现精细化排版控制

 近期,小红书与复旦大学共同推出了布局可控生成(Layout-to-Image)方向的全新研究成果——InstanceAssemble。该技术直面 AI 绘图长期存在的“构图难”问题,通过创新机制让复杂与简单场景都能实现精准生成。据悉,相关论文已被人工智能权威会议 NeurIPS2025 收录。

image.png

当前的 AI 作图中,“文生图”已较为成熟,但在“按布局生成”方面,模型往往难以严格遵守用户给定的空间约束(如边界框或分割掩码),容易出现位置对不齐或语义脱节。InstanceAssemble 的发布意味着 AI 绘图进入“精准构图”新阶段。该方法基于主流的扩散变换器架构,核心提出了“实例拼装注意力”机制。

用户使用时,只需为各个物体提供具体位置(边界框)与文本描述,模型即可在指定区域生成符合要求的图像内容。无论是只有少量元素的简洁画面,还是实例密集的复杂场景,InstanceAssemble 都能保持非常高的排版准确度与语义一致性。

值得一提的是,InstanceAssemble 采用轻量化适配方案。无需重训整个大模型,只需极少的额外参数即可与现有模型兼容。例如,适配 Stable Diffusion3-Medium 仅需约 3.46% 的附加参数;在适配 Flux.1 模型时,参数占比更是低至 0.84%。

为全面评估技术效果,研究团队同步发布了包含 9 万个实例的 “Denselayout” 基准测试集及全新评估指标。目前,InstanceAssemble已在 GitHub 开源,代码与预训练模型均可下载使用,预计将为设计、广告与内容创意等行业带来助力。

github:https://github.com/FireRedTeam/InstanceAssemble

划重点:

  • 🎯 精细版式控制: 通过“实例拼装注意力”机制,模型能严格按照用户设定的位置生成物体,覆盖从稀疏到密集的复杂布局。

  • 低成本适配: 采用轻量设计,无需重训全模型,仅需约 1% 至 4% 的额外参数即可适配 Flux.1 或 SD3 等主流模型。

  • 🔓 完整开源提供: 项目已在 GitHub 开源并附预训练模型,同时推出全新的测试基准集 Denselayout,促进行业评测标准化。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享