苹果发布多模态 AI 新秀“Manzano”：视觉与创意的完美相融-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

正文：

近日，科技媒体 AppleInsider 报道，苹果发布了一篇重磅研究论文，介绍了最新研发的多模态 AI 模型 “Manzano”。该模型将“视觉理解”和“文本生成图像”两项能力融为一体，被认为是 AI 技术的又一次重要进展。

“Manzano”的核心亮点在于它的“双能”本领：既能像人类一样准确读懂图像内容，也能根据文字生成高质量图片。行业里能同时兼顾这两点的模型并不多，很多现有方案常在画质与理解力之间做取舍。

为破解这一难题，Manzano 采用了三段式架构：首先引入“混合器”，可同时产出连续与离散的视觉表征；随后由强大的大语言模型（LLM）预测图像的语义内容；最后通过“扩散解码器”进行像素级渲染。该设计让 Manzano 在理解与生成两端都表现突出，还能处理更复杂的任务，如深度估计、风格迁移与图像修复。

数据显示，Manzano 在应对反直觉、违背物理常识的复杂指令时表现不俗。比如生成“一只鸟在大海下方飞翔”的画面时，其逻辑准确度与 OpenAI 的 GPT-4o 和谷歌的 Nano Banana 模型相当。研究团队也对不同参数规模的版本进行了评测，结果表明，随着模型规模增大，性能仍能显著提升。

尽管 Manzano 目前仍处于研究阶段，尚未直接应用于 iPhone 或 Mac，但这清晰展现了苹果在打造更强底层能力方面的雄心。业内普遍认为，Manzano 相关技术很可能将融入苹果即将推出的“图乐园 Image Playground”，为用户带来更智能的修图体验与更具想象力的图像生成，从而进一步巩固苹果在端侧 AI 领域的竞争力。