商汤科技携手南洋理工大学 S-Lab 推出业内首个原生多模态架构 NEO,并同步开源 2B 与 9B 两款模型。该架构不再采用“视觉编码器 + 投影器 + 语言模型”的传统三段式拼装路线,重构了注意力机制、位置编码与语义映射等核心模块。官方称,在保持同等性能的前提下,所需数据量仅为行业平均的 1/10,首次实现从像素到 Token 的连续映射。

据商汤技术负责人介绍,NEO 通过原生图块嵌入层直接读取像素,取消独立的图像 Tokenizer;三维旋转位置编码(Native-RoPE)在同一向量空间内同时表达文本与视觉的时空与频率;多头注意力采用“视觉双向 + 文本自回归”的混合计算方式,使空间结构关联评分提升 24%。测试显示,在 0.6B-8B 参数范围内,NEO 在 ImageNet、COCO 与 Kinetics-400 上拿下 SOTA,边缘设备推理延迟低于 80 毫秒。

GitHub 已公开模型权重与训练脚本,商汤计划在明年第一季度开源 3D 感知与视频理解版本。业内人士认为,NEO 的“深层融合”路线有望结束多模态“拼积木”时代,为终端小模型提供新的性能基线。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?