全球首创原生多模态架构 NEO 发布，视觉与语言一体化融合-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在人工智能领域的前沿进展里，Ilya Sutskever 的最新表态引发了震动。他指出，仅靠不断把模型做大的时代已结束，未来的突破将来自更聪明的架构设计。对此，整个 AI 圈都感到明显的转向，因为过去几年走的路更像是数据与参数的“唯规模论”，但这种方式的回报正在变小。

在这样的背景下，由中国研究团队打造的开源原生多模态架构 NEO 应运而生。不同于以往主流的多模态方案（如 GPT-4V 和 Claude 3.5）那种“拼接式”做法，NEO 从底层重构视觉与语言的关系。传统方法把视觉编码器与语言模型分离，只在数据层面粗暴对接，信息传递不够顺畅；而 NEO 构建了统一的模型，让视觉与语言从一开始就紧密耦合，仿佛血脉相连。

NEO 的亮点集中在三项关键突破。第一，采用原生图块嵌入，使模型可从像素级直接构建高保真视觉表征，提升图像细节的捕捉能力。第二，提出原生三维旋转位置编码，通过高频与低频的组合，更精准处理图像与文本的位置信息，形成智能的时空坐标系。第三，原生多头注意力让视觉与语言在同一框架内互通，显著增强模型对复杂语义的理解力。

更令人惊喜的是，NEO 仅用传统模型约十分之一的训练数据，就在多项评测中追平甚至超越不少旗舰级对手。这不仅验证了原生架构的有效性，也预示了 AI 模型演进的新方向。