苹果推出多模态模型 Manzano：跨越“看图”和“画图”的边界-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在人工智能领域，一个老问题一直困扰业界：既能“看懂图片”又能“高质量出图”的模型很难两全。通常擅长理解图像内容的模型，在从零生成精美图片时会显得乏力；反过来，擅长绘制的模型又常常理解不到位。苹果公司最新发布的研究论文提出了多模态模型“Manzano”，试图直面并解决这一矛盾。

Manzano 的关键突破在于其别具一格的“双修”架构。研究团队指出，视觉理解更偏向连续的数据表达，而图像生成更依赖离散的符号化表示，两者硬拼往往会“打架”。为解决这一冲突，Manzano 引入了“混合视觉分词器”，可同时输出连续与离散的视觉表征；随后由大语言模型负责推断图像语义，最终交由扩散式解码器完成像素级的细致渲染。

在实际评测中，Manzano 展现出亮眼的逻辑与空间理解力。面对“⼀只鸟在⼤象下⽅飞翔”这类反常识的复杂指令，它的表现与 GPT-4o 等顶尖模型相当。此外，该模型不仅会“画图”，还支持深度估计、风格迁移、图像修复等多种任务。

尽管 Manzano 目前仍在研究阶段，但不少业内观点认为，这项底层技术的成熟将推动苹果未来的 AI 能力再上台阶。它很可能被整合进苹果的“图乐园”（Image Playground）等工具中，为用户带来更智能、更具创意的图像生成与编辑体验。

项目:https://machinelearning.apple.com/research/manzano

划重点: