苹果上线统一多模态 AI 模型 UniGen1.5,一体化支持图像理解、生成与编辑

近日,苹果研究团队宣布发布名为 UniGen1.5 的最新多模态 AI 模型,被视为图像处理的一次重要升级。它既能理解图片,也能生成与编辑图像,把这三项能力融合到一个系统中,显著提高了效率。

不同于传统方案,UniGen1.5采用统一框架,可并行完成图像理解、生成和编辑。研究者表示,这种一体化设计让模型在生成时能充分利用强大的理解能力,从而产出更高质量的视觉结果。

image.png

在图像编辑方面,UniGen1.5首创“编辑指令对齐”方法。模型会先依据原图与用户指令生成详细的文字描述,准确捕捉编辑意图,而不是直接动手改图。这种“先想后画”的流程,能更好地处理复杂编辑请求,提高理解与执行的准确度。

在强化学习训练中,UniGen1.5也有所突破。团队设计了一个统一的奖励机制,既适用于生成任务也适用于编辑任务,解决了编辑场景中评价标准不一致的问题,让模型在多类视觉任务上保持稳定、优异的表现。

在多项行业评测中,UniGen1.5成绩亮眼:在 GenEval 与 DPG-Bench 测试中分别拿到0.89和86.83的高分,明显领先于 BAGEL、BLIP3o 等热门模型。在专注图像编辑的 ImgEdit 测试里,UniGen1.5 得分为4.31,不仅超过开源模型 OminiGen2,也与部分闭源产品如 GPT-Image-1 表现相当。

尽管 UniGen1.5表现突出,研究团队也指出仍有改进空间:比如在生成图像中的文字时容易出现错误;在某些编辑场景下可能发生主体特征漂移,如动物毛发纹理与颜色偏差。未来,苹果团队将持续优化这些问题。

论文:https://arxiv.org/abs/2511.14760

划重点:  

🌟 UniGen1.5 是苹果最新推出的多模态 AI 模型,集成图像理解、生成与编辑三大功能。  

🛠️ 通过“编辑指令对齐”技术,模型更精准把握用户意图,显著提升编辑效果。  

📊 在多项行业评测中表现强劲,综合实力优于多款热门模型。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享