苹果推出多模态新模型 Manzano:打通“看图”与“做图”的界限

在 AI 领域,一个难题一直存在:让模型既能“看懂图片”又能“高质量出图”很难同时做到。通常,擅长视觉理解的模型在从零创作精美图片时表现一般;而擅长生成的模型,又常在细致分析图片内容上显得乏力。如今,苹果公司最新发布的研究论文带来多模态模型“Manzano”,意在正面解决这个痛点。

image.png

Manzano 的核心亮点是它的“二合一”设计。研究团队指出,视觉理解偏好连续型数据,而图像生成依赖离散化表示,导致单一模型难以两头兼顾。为此,Manzano 引入“混合视觉分词器”,可同时输出连续与离散两类视觉表征;接着由大语言模型推断图像语义,最后用扩散式解码器进行像素级的精细还原。

image.png

在多项测试中,Manzano 展现出强劲的逻辑与空间理解力。即使面对如“一只鸟在大象下方飞翔”这类反常识的复杂指令,它的效果也不输 GPT-4o 等顶尖模型。此外,该模型不仅能画图,还能完成深度估计、风格迁移、图像修复等多种任务。

虽然 Manzano 目前仍处于研究阶段,但 AIbase 认为,这项底层技术的成熟,意味着苹果未来的 AI 功能会更加强悍。它很可能被整合进苹果的“图乐园”(Image Playground)等工具,为用户带来更聪明、更有创意的图像玩法。

项目:https://machinelearning.apple.com/research/manzano

划重点:

  • 👁️ 全能架构: Manzano采用创新的三阶段设计,把“视觉理解”与“图像生成”顺畅结合,缓解传统模型两项能力互相牵制的问题。

  • 🧠 逻辑领先: 处理反直觉、复杂空间关系的指令时,Manzano 的逻辑准确性已达行业顶尖水平,表现可与GPT-4o等主流模型比肩。

  • 🚀 潜力巨大: 支持从3亿到300亿参数的灵活扩展,未来有望显著提升 iPhone 和 Mac 等端侧设备的 AI 绘图与修图能力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享