苹果推出多模态模型 Manzano:跨越“看图”和“画图”的边界

在人工智能领域,一个老问题一直困扰业界:既能“看懂图片”又能“高质量出图”的模型很难两全。通常擅长理解图像内容的模型,在从零生成精美图片时会显得乏力;反过来,擅长绘制的模型又常常理解不到位。苹果公司最新发布的研究论文提出了多模态模型“Manzano”,试图直面并解决这一矛盾。

image.png

Manzano 的关键突破在于其别具一格的“双修”架构。研究团队指出,视觉理解更偏向连续的数据表达,而图像生成更依赖离散的符号化表示,两者硬拼往往会“打架”。为解决这一冲突,Manzano 引入了“混合视觉分词器”,可同时输出连续与离散的视觉表征;随后由大语言模型负责推断图像语义,最终交由扩散式解码器完成像素级的细致渲染。

image.png

在实际评测中,Manzano 展现出亮眼的逻辑与空间理解力。面对“⼀只鸟在⼤象下⽅飞翔”这类反常识的复杂指令,它的表现与 GPT-4o 等顶尖模型相当。此外,该模型不仅会“画图”,还支持深度估计、风格迁移、图像修复等多种任务。

尽管 Manzano 目前仍在研究阶段,但不少业内观点认为,这项底层技术的成熟将推动苹果未来的 AI 能力再上台阶。它很可能被整合进苹果的“图乐园”(Image Playground)等工具中,为用户带来更智能、更具创意的图像生成与编辑体验。

项目:https://machinelearning.apple.com/research/manzano

划重点:

  • 👁️ 全能架构: Manzano采用创新的三段式流程,顺畅融合“视觉理解”和“图像生成”,化解传统模型两者难以兼顾的矛盾。

  • 🧠 逻辑领先: 面对反直觉指令与复杂空间关系,Manzano 的逻辑准确度达到行业顶尖水平,可与GPT-4o等主流模型比肩。

  • 🚀 潜力巨大: 支持从3亿到300亿参数的灵活扩展,未来有望显著增强 iPhone 与 Mac 等端侧设备的 AI 作图与修图能力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享