苹果公布多模态 AI 新星“Manzano”：视觉与创意的全面融合-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，科技媒体 AppleInsider 报道，苹果发布了一篇重磅研究论文，介绍了最新研发的多模态 AI 模型 “zano”。该模型把“视觉理解”和“文本生成图像”两大能力融合在一起，被视为 AI 技术的又一次重要进展。

“Manzano”的最大亮点是它的“双修”本领：既能像人类一样准确读懂图片内容，也能依据文字生成高质量的图像。在业内，能同时做好这两件事的模型并不多见，很多现有方案常在画质与理解之间做取舍。

为了解决这一难题，Manzano 采用了三段式架构。首先引入一种“混合器”，可同时产生连续与离散的视觉表征；随后由强大的大语言模型（LLM）预测图像的语义内容；最后通过“扩散解码器”完成像素级生成。这个设计让 Manzano 在图像理解与生成方面都表现出色，甚至还能应对深度估计、风格迁移与图像修复等复杂任务。

数据显示，Manzano 在处理反直觉、违背物理常识的复杂指令时表现不俗。例如，当生成“一只鸟在大下方飞翔”的画面时，Manzano 的逻辑准确性与 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究团队也对不同参数规模的版本进行了测试，结果显示模型扩大后性能依然显著提升。

尽管目前 zano 仍处于研究阶段，尚未直接应用到 iPhone 或 Mac 设备，但这无疑体现了苹果在打造更强大底层能力方面的雄心。未来，业内普遍认为 Manzano 技术很可能融入苹果即将推出的“图乐园 Image Playground”功能，为用户提供更智能的修图体验和更具想象力的图像生成能力，从而进一步巩固苹果在端侧 AI 领域的竞争力。