全球首创原生多模态架构 NEO 发布,视觉与语言一体化融合

在人工智能领域的前沿进展里,Ilya Sutskever 的最新表态引发了震动。他指出,仅靠不断把模型做大的时代已结束,未来的突破将来自更聪明的架构设计。对此,整个 AI 圈都感到明显的转向,因为过去几年走的路更像是数据与参数的“唯规模论”,但这种方式的回报正在变小。

在这样的背景下,由中国研究团队打造的开源原生多模态架构 NEO 应运而生。不同于以往主流的多模态方案(如 GPT-4V 和 Claude 3.5)那种“拼接式”做法,NEO 从底层重构视觉与语言的关系。传统方法把视觉编码器与语言模型分离,只在数据层面粗暴对接,信息传递不够顺畅;而 NEO 构建了统一的模型,让视觉与语言从一开始就紧密耦合,仿佛血脉相连。

NEO 的亮点集中在三项关键突破。第一,采用原生图块嵌入,使模型可从像素级直接构建高保真视觉表征,提升图像细节的捕捉能力。第二,提出原生三维旋转位置编码,通过高频与低频的组合,更精准处理图像与文本的位置信息,形成智能的时空坐标系。第三,原生多头注意力让视觉与语言在同一框架内互通,显著增强模型对复杂语义的理解力。

更令人惊喜的是,NEO 仅用传统模型约十分之一的训练数据,就在多项评测中追平甚至超越不少旗舰级对手。这不仅验证了原生架构的有效性,也预示了 AI 模型演进的新方向。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享