苹果公布多模态 AI 新星“Manzano”:视觉与创意的全面融合

近日,科技媒体 AppleInsider 报道,苹果发布了一篇重磅研究论文,介绍了最新研发的多模态 AI 模型 “zano”。该模型把“视觉理解”和“文本生成图像”两大能力融合在一起,被视为 AI 技术的又一次重要进展。

“Manzano”的最大亮点是它的“双修”本领:既能像人类一样准确读懂图片内容,也能依据文字生成高质量的图像。在业内,能同时做好这两件事的模型并不多见,很多现有方案常在画质与理解之间做取舍。

image.png

为了解决这一难题,Manzano 采用了三段式架构。首先引入一种“混合器”,可同时产生连续与离散的视觉表征;随后由强大的大语言模型(LLM)预测图像的语义内容;最后通过“扩散解码器”完成像素级生成。这个设计让 Manzano 在图像理解与生成方面都表现出色,甚至还能应对深度估计、风格迁移与图像修复等复杂任务。

数据显示,Manzano 在处理反直觉、违背物理常识的复杂指令时表现不俗。例如,当生成“一只鸟在大下方飞翔”的画面时,Manzano 的逻辑准确性与 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究团队也对不同参数规模的版本进行了测试,结果显示模型扩大后性能依然显著提升。

尽管目前 zano 仍处于研究阶段,尚未直接应用到 iPhone 或 Mac 设备,但这无疑体现了苹果在打造更强大底层能力方面的雄心。未来,业内普遍认为 Manzano 技术很可能融入苹果即将推出的“图乐园 Image Playground”功能,为用户提供更智能的修图体验和更具想象力的图像生成能力,从而进一步巩固苹果在端侧 AI 领域的竞争力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享