美团推出原生多模态 LongCat-Next：视觉与语音实现底层打通

拥抱AI，AIGC最佳实践者

6010

4 月 3 日，美团技术团队正式对外发布原生多模态大模型 LongCat-Next。该模型摆脱了传统“语言基座+插件”的拼装式路径，通过把图像、语音与文本统一映射为同源的离散 Token，让 AI 第一次能够像处理文字一样，原生地“看”与“听”真实世界。

技术核心：DiNA 架构实现“模态内化”

为打破不同模态之间的边界，美团提出了DiNA（离散原生自回归）架构，把多模态学习做到了更深层的统一：

全模态统一： 不论文字、图片还是音频，均共享同一套参数、注意力机制与训练目标。
理解与生成对称： 在统一的数学框架下，预测文字 Token 可视为“理解”，预测图像 Token 可视为“生成”，两者在训练中相互促进，协同效应明显。
极致压缩： 借助 dNaViT 视觉分词器，支持任意分辨率输入，采用 8 层残差向量量化，在像素空间实现最高约 28 倍压缩，同时保留 OCR、财报解析等任务所需的关键细节。

实证性能：离散建模没有“天花板”

LongCat-Next在多项评测上展现出不逊于、甚至超越专用模型的表现，对“离散化一定丢失信息”的传统看法给出了有力回应：

细粒度感知： 在 OmniDocBench 密集文本场景中，成绩不仅超越 Qwen3-Omni，也优于专用视觉模型 Qwen3-VL。
视觉推理： 在 MathVista 测试中取得 83.1 的领先成绩，展现出强大的工程级逻辑能力。
跨模态协同： 在保持领先语言能力（C-Eval 86.80）的同时，支持低延迟的文本与语音并行生成，并提供可定制的语音克隆。

行业观察：通往物理世界 AI 的基石

长期以来，大模型多以语言为核心构建。而 LongCat-Next 的价值在于，它证明了物理世界的信息可以被离散化，并以类似语言的方式进行统一建模。当 AI 拥有一套统一的“母语”后，在调用工具、编写代码以及理解复杂图表等任务上会更加直接、高效。

目前，美团已将LongCat-Next 模型及dNaViT 分词器全面开源。这一小体量、潜力巨大的原生离散架构，为开发者打造能感知并作用于真实世界的 AI 提供了关键工具。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐