商汤NEO开源：1/10数据量即可对标旗舰级多模态模型，告别“拼装式”AI时代-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

商汤科技与南洋理工大学 S-Lab 联合推出并开源全新的多模态模型架构 NEO。它从底层设计切入，让视觉与语言深度融合，在性能、效率与通用性上实现全面升级。

超高数据效率:1/10数据量达旗舰性能

NEO 最突出的亮点是其超高数据利用率——仅需 3.9 亿图像-文本样本，相当于同等表现模型训练数据的 1/10，就能训练出一流的视觉感知能力。无需堆积海量数据或额外视觉编码器，NEO 凭借简洁架构，在多项视觉理解任务上可与 Qwen2-VL、InternVL3 等旗舰模块化模型并肩。

在 MMMU、MMB、MMStar、SEED-I、POPE 等多项公开权威性评测中，NEO 表现亮眼、屡获高分，整体成绩优于其他原生 VLM，真正做到原生架构“精度不降”。

自底层破除“拼凑式”设计的束缚

当下主流多模态模型普遍采用“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种在大语言模型上扩展图像入口的办法虽然能兼容图片输入，但核心仍是以语言为中心，图像与文本的融合更多停留在数据层。此类“拼装”式设计不仅学习效率不高，还限制了模型在复杂多模态场景中的表现，尤其在细节捕捉与复杂空间结构理解方面更显不足。

NEO 则在注意力机制、位置编码与语义映射三个关键环节进行底层创新，使模型从一开始就具备统一处理视觉与语言的能力。