苹果重磅推出多模态 AI 模型 UniGen1.5:集图像理解、生成与编辑于一体

近日,苹果研究团队重磅发布最新多模态 AI 模型 UniGen1.5,为图像处理带来重要突破。该模型把图像理解、图像生成与图像编辑三大能力统一到同一套系统中,显著提升了整体使用效率。

与传统的分散式方案不同,UniGen1.5采用统一架构,可同时完成理解、生成与编辑。研究人员表示,这种一体化设计让模型在生成图像时能充分调用其强大的理解能力,从而输出更高质量的视觉效果。

image.png

在图像编辑方面,UniGen1.5创新引入“编辑指令对齐”技术。该方法要求模型先根据原图与指令生成更细致的文本描述,以准确捕捉用户的编辑意图,而不是立刻对图像动手。这种“先想后画”的流程,有效提高了模型处理复杂修改请求时的理解与执行准确度。

此外,UniGen1.5在强化学习上也取得新进展。研究团队设计了统一的奖励机制,可同时用于图像生成和编辑训练,解决了编辑任务中评价标准不一致的问题,使模型在多种视觉场景下都能保持稳定而出色的表现。

在多项行业基准测试中,UniGen1.5展现强劲竞争力:在 GenEval 与 DPG-Bench 测试中分别取得 0.89 和 86.83 的高分,远超 BAGEL 与 BLIP3o 等热门模型;在专门的图像编辑测试 ImgEdit 中得分 4.31,不仅领先开源模型 OminiGen2,也与部分闭源模型(如 GPT-Image-1)表现相当。

尽管 UniGen1.5表现突出,研究人员也指出仍有改进空间。例如,模型在生成图像文字时容易出现错误;在特定编辑场景中,主体特征可能出现轻微漂移,如动物毛发纹理与颜色偏差。后续苹果团队将持续优化这些问题。

论文:https://arxiv.org/abs/2511.14760

划重点:  

🌟 UniGen1.5 是苹果最新推出的多模态 AI 模型,整合了图像理解、生成与编辑三大功能。  

🛠️ 借助“编辑指令对齐”技术,编辑更准确,能更好地抓住用户意图。  

📊 行业测试成绩亮眼,整体表现优于多款热门模型,竞争力十足。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享