商汤科技与南洋理工大学 S-Lab 联合推出并开源全新的多模态模型架构 NEO。它从底层设计切入,让视觉与语言深度融合,在性能、效率与通用性上实现全面升级。
超高数据效率:1/10数据量达旗舰性能
NEO 最突出的亮点是其超高数据利用率——仅需 3.9 亿图像-文本样本,相当于同等表现模型训练数据的 1/10,就能训练出一流的视觉感知能力。无需堆积海量数据或额外视觉编码器,NEO 凭借简洁架构,在多项视觉理解任务上可与 Qwen2-VL、InternVL3 等旗舰模块化模型并肩。
在 MMMU、MMB、MMStar、SEED-I、POPE 等多项公开权威性评测中,NEO 表现亮眼、屡获高分,整体成绩优于其他原生 VLM,真正做到原生架构“精度不降”。

自底层破除“拼凑式”设计的束缚
当下主流多模态模型普遍采用“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种在大语言模型上扩展图像入口的办法虽然能兼容图片输入,但核心仍是以语言为中心,图像与文本的融合更多停留在数据层。此类“拼装”式设计不仅学习效率不高,还限制了模型在复杂多模态场景中的表现,尤其在细节捕捉与复杂空间结构理解方面更显不足。
NEO 则在注意力机制、位置编码与语义映射三个关键环节进行底层创新,使模型从一开始就具备统一处理视觉与语言的能力。
两大核心技术创新
原生图块嵌入(Native Patch Embedding): NEO 摒弃离散的图像 tokenizer,采用自研的 Patch Embedding Layer(PEL),自底向上将像素连续映射为词元。该设计能更细致地刻画图像细节,从根源上突破主流方案在图像建模上的瓶颈。
原生多头注意力(Native Multi-Head Attention): 面向不同模态特征,NEO 在统一框架中同时实现文本 token 的自回归注意力与视觉 token 的双向注意力。此机制显著提升模型对空间结构关系的利用,更好支撑复杂的图文融合理解与推理。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?