商汤发布并开源 NEO：原生多模态架构抛弃拼装式方案，数据缩减90%仍达成SOTA-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

商汤发布并开源 NEO：原生多模态架构抛弃拼装式方案，数据缩减90%仍达成SOTA

拥抱AI，AIGC最佳实践者

3415

商汤科技携手南洋理工大学 S-Lab 推出业内首个原生多模态架构 NEO，并同步开源 2B 与 9B 两款模型。该架构不再采用“视觉编码器 + 投影器 + 语言模型”的传统三段式拼装路线，重构了注意力机制、位置编码与语义映射等核心模块。官方称，在保持同等性能的前提下，所需数据量仅为行业平均的 1/10，首次实现从像素到 Token 的连续映射。

据商汤技术负责人介绍，NEO 通过原生图块嵌入层直接读取像素，取消独立的图像 Tokenizer；三维旋转位置编码（Native-RoPE）在同一向量空间内同时表达文本与视觉的时空与频率；多头注意力采用“视觉双向 + 文本自回归”的混合计算方式，使空间结构关联评分提升 24%。测试显示，在 0.6B-8B 参数范围内，NEO 在 ImageNet、COCO 与 Kinetics-400 上拿下 SOTA，边缘设备推理延迟低于 80 毫秒。

GitHub 已公开模型权重与训练脚本，商汤计划在明年第一季度开源 3D 感知与视频理解版本。业内人士认为，NEO 的“深层融合”路线有望结束多模态“拼积木”时代，为终端小模型提供新的性能基线。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐