商汤NEO开源:1/10数据量即可对标旗舰级多模态模型,告别“拼装式”AI时代

商汤科技与南洋理工大学 S-Lab 联合推出并开源全新的多模态模型架构 NEO。它从底层设计切入,让视觉与语言深度融合,在性能、效率与通用性上实现全面升级。

超高数据效率:1/10数据量达旗舰性能

NEO 最突出的亮点是其超高数据利用率——仅需 3.9 亿图像-文本样本,相当于同等表现模型训练数据的 1/10,就能训练出一流的视觉感知能力。无需堆积海量数据或额外视觉编码器,NEO 凭借简洁架构,在多项视觉理解任务上可与 Qwen2-VL、InternVL3 等旗舰模块化模型并肩。

在 MMMU、MMB、MMStar、SEED-I、POPE 等多项公开权威性评测中,NEO 表现亮眼、屡获高分,整体成绩优于其他原生 VLM,真正做到原生架构“精度不降”。

自底层破除“拼凑式”设计的束缚

当下主流多模态模型普遍采用“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种在大语言模型上扩展图像入口的办法虽然能兼容图片输入,但核心仍是以语言为中心,图像与文本的融合更多停留在数据层。此类“拼装”式设计不仅学习效率不高,还限制了模型在复杂多模态场景中的表现,尤其在细节捕捉与复杂空间结构理解方面更显不足。

NEO 则在注意力机制、位置编码与语义映射三个关键环节进行底层创新,使模型从一开始就具备统一处理视觉与语言的能力。

两大核心技术创新

原生图块嵌入(Native Patch Embedding): NEO 摒弃离散的图像 tokenizer,采用自研的 Patch Embedding Layer(PEL),自底向上将像素连续映射为词元。该设计能更细致地刻画图像细节,从根源上突破主流方案在图像建模上的瓶颈。

原生多头注意力(Native Multi-Head Attention): 面向不同模态特征,NEO 在统一框架中同时实现文本 token 的自回归注意力与视觉 token 的双向注意力。此机制显著提升模型对空间结构关系的利用,更好支撑复杂的图文融合理解与推理。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享