美团推出原生多模态 LongCat-Next:视觉与语音实现底层打通

4 月 3 日,美团技术团队正式对外发布原生多模态大模型 LongCat-Next。该模型摆脱了传统“语言基座+插件”的拼装式路径,通过把图像、语音与文本统一映射为同源的离散 Token,让 AI 第一次能够像处理文字一样,原生地“看”与“听”真实世界。

技术核心:DiNA 架构实现“模态内化”

为打破不同模态之间的边界,美团提出了DiNA(离散原生自回归)架构,把多模态学习做到了更深层的统一:

  • 全模态统一: 不论文字、图片还是音频,均共享同一套参数、注意力机制与训练目标。

  • 理解与生成对称: 在统一的数学框架下,预测文字 Token 可视为“理解”,预测图像 Token 可视为“生成”,两者在训练中相互促进,协同效应明显。

  • 极致压缩: 借助 dNaViT 视觉分词器,支持任意分辨率输入,采用 8 层残差向量量化,在像素空间实现最高约 28 倍压缩,同时保留 OCR、财报解析等任务所需的关键细节。

实证性能:离散建模没有“天花板

LongCat-Next在多项评测上展现出不逊于、甚至超越专用模型的表现,对“离散化一定丢失信息”的传统看法给出了有力回应:

  • 细粒度感知: 在 OmniDocBench 密集文本场景中,成绩不仅超越 Qwen3-Omni,也优于专用视觉模型 Qwen3-VL。

  • 视觉推理: 在 MathVista 测试中取得 83.1 的领先成绩,展现出强大的工程级逻辑能力。

  • 跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的文本与语音并行生成,并提供可定制的语音克隆。

行业观察:通往物理世界 AI 的基石

长期以来,大模型多以语言为核心构建。而 LongCat-Next 的价值在于,它证明了物理世界的信息可以被离散化,并以类似语言的方式进行统一建模。当 AI 拥有一套统一的“母语”后,在调用工具、编写代码以及理解复杂图表等任务上会更加直接、高效。

目前,美团已将LongCat-Next 模型dNaViT 分词器全面开源。这一小体量、潜力巨大的原生离散架构,为开发者打造能感知并作用于真实世界的 AI 提供了关键工具。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享