商汤发布并开源 NEO:原生多模态架构抛弃拼装式方案,数据缩减90%仍达成SOTA

商汤科技携手南洋理工大学 S-Lab 推出业内首个原生多模态架构 NEO,并同步开源 2B 与 9B 两款模型。该架构不再采用“视觉编码器 + 投影器 + 语言模型”的传统三段式拼装路线,重构了注意力机制、位置编码与语义映射等核心模块。官方称,在保持同等性能的前提下,所需数据量仅为行业平均的 1/10,首次实现从像素到 Token 的连续映射。

image.png

据商汤技术负责人介绍,NEO 通过原生图块嵌入层直接读取像素,取消独立的图像 Tokenizer;三维旋转位置编码(Native-RoPE)在同一向量空间内同时表达文本与视觉的时空与频率;多头注意力采用“视觉双向 + 文本自回归”的混合计算方式,使空间结构关联评分提升 24%。测试显示,在 0.6B-8B 参数范围内,NEO 在 ImageNet、COCO 与 Kinetics-400 上拿下 SOTA,边缘设备推理延迟低于 80 毫秒。

image.png

GitHub 已公开模型权重与训练脚本,商汤计划在明年第一季度开源 3D 感知与视频理解版本。业内人士认为,NEO 的“深层融合”路线有望结束多模态“拼积木”时代,为终端小模型提供新的性能基线。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享