苹果推出多模态新模型 Manzano：打通“看图”与“做图”的界限-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在 AI 领域，一个难题一直存在：让模型既能“看懂图片”又能“高质量出图”很难同时做到。通常，擅长视觉理解的模型在从零创作精美图片时表现一般；而擅长生成的模型，又常在细致分析图片内容上显得乏力。如今，苹果公司最新发布的研究论文带来多模态模型“Manzano”，意在正面解决这个痛点。

Manzano 的核心亮点是它的“二合一”设计。研究团队指出，视觉理解偏好连续型数据，而图像生成依赖离散化表示，导致单一模型难以两头兼顾。为此，Manzano 引入“混合视觉分词器”，可同时输出连续与离散两类视觉表征；接着由大语言模型推断图像语义，最后用扩散式解码器进行像素级的精细还原。

在多项测试中，Manzano 展现出强劲的逻辑与空间理解力。即使面对如“一只鸟在大象下方飞翔”这类反常识的复杂指令，它的效果也不输 GPT-4o 等顶尖模型。此外，该模型不仅能画图，还能完成深度估计、风格迁移、图像修复等多种任务。

虽然 Manzano 目前仍处于研究阶段，但 AIbase 认为，这项底层技术的成熟，意味着苹果未来的 AI 功能会更加强悍。它很可能被整合进苹果的“图乐园”（Image Playground）等工具，为用户带来更聪明、更有创意的图像玩法。

项目:https://machinelearning.apple.com/research/manzano

划重点:

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

苹果推出多模态新模型 Manzano：打通“看图”与“做图”的界限