苹果重磅推出多模态 AI 模型 UniGen1.5：集图像理解、生成与编辑于一体-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，苹果研究团队重磅发布最新多模态 AI 模型 UniGen1.5，为图像处理带来重要突破。该模型把图像理解、图像生成与图像编辑三大能力统一到同一套系统中，显著提升了整体使用效率。

与传统的分散式方案不同，UniGen1.5采用统一架构，可同时完成理解、生成与编辑。研究人员表示，这种一体化设计让模型在生成图像时能充分调用其强大的理解能力，从而输出更高质量的视觉效果。

在图像编辑方面，UniGen1.5创新引入“编辑指令对齐”技术。该方法要求模型先根据原图与指令生成更细致的文本描述，以准确捕捉用户的编辑意图，而不是立刻对图像动手。这种“先想后画”的流程，有效提高了模型处理复杂修改请求时的理解与执行准确度。

此外，UniGen1.5在强化学习上也取得新进展。研究团队设计了统一的奖励机制，可同时用于图像生成和编辑训练，解决了编辑任务中评价标准不一致的问题，使模型在多种视觉场景下都能保持稳定而出色的表现。

在多项行业基准测试中，UniGen1.5展现强劲竞争力：在 GenEval 与 DPG-Bench 测试中分别取得 0.89 和 86.83 的高分，远超 BAGEL 与 BLIP3o 等热门模型；在专门的图像编辑测试 ImgEdit 中得分 4.31，不仅领先开源模型 OminiGen2，也与部分闭源模型（如 GPT-Image-1）表现相当。

尽管 UniGen1.5表现突出，研究人员也指出仍有改进空间。例如，模型在生成图像文字时容易出现错误；在特定编辑场景中，主体特征可能出现轻微漂移，如动物毛发纹理与颜色偏差。后续苹果团队将持续优化这些问题。

论文：https://arxiv.org/abs/2511.14760