苹果发布多模态 AI 新秀“Manzano”:视觉与创意的完美相融

正文:

近日,科技媒体 AppleInsider 报道,苹果发布了一篇重磅研究论文,介绍了最新研发的多模态 AI 模型 “Manzano”。该模型将“视觉理解”和“文本生成图像”两项能力融为一体,被认为是 AI 技术的又一次重要进展。

“Manzano”的核心亮点在于它的“双能”本领:既能像人类一样准确读懂图像内容,也能根据文字生成高质量图片。行业里能同时兼顾这两点的模型并不多,很多现有方案常在画质与理解力之间做取舍。

image.png

为破解这一难题,Manzano 采用了三段式架构:首先引入“混合器”,可同时产出连续与离散的视觉表征;随后由强大的大语言模型(LLM)预测图像的语义内容;最后通过“扩散解码器”进行像素级渲染。该设计让 Manzano 在理解与生成两端都表现突出,还能处理更复杂的任务,如深度估计、风格迁移与图像修复。

数据显示,Manzano 在应对反直觉、违背物理常识的复杂指令时表现不俗。比如生成“一只鸟在大海下方飞翔”的画面时,其逻辑准确度与 OpenAI 的 GPT-4o 和谷歌的 Nano Banana 模型相当。研究团队也对不同参数规模的版本进行了评测,结果表明,随着模型规模增大,性能仍能显著提升。

尽管 Manzano 目前仍处于研究阶段,尚未直接应用于 iPhone 或 Mac,但这清晰展现了苹果在打造更强底层能力方面的雄心。业内普遍认为,Manzano 相关技术很可能将融入苹果即将推出的“图乐园 Image Playground”,为用户带来更智能的修图体验与更具想象力的图像生成,从而进一步巩固苹果在端侧 AI 领域的竞争力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享