9月1日,美团发布了 LongCat-Flash 系列模型,并在近期陆续开源 LongCat-Flash-Chat 与 LongCat-Flash-Thinking 两个版本,迅速吸引众多开发者关注。今天,LongCat 团队宣布家族新成员 ——LongCat-Flash-Omni 上线。这一模型在原有基础上进行了多项技术升级,宣告全模态实时交互进入新阶段。
LongCat-Flash-Omni 构建在 LongCat-Flash 系列的高效架构之上,采用了前沿的 Shortcut-Connected MoE(ScMoE)技术,集成高效的多模态感知模块与语音重建模块。尽管模型总参数高达5600亿(激活参数270亿),仍可实现低延迟的音视频实时交互。这一突破为开发者带来更高效的多模态应用方案。

综合评测结果显示,LongCat-Flash-Omni 在全模态基准测试中表现出色,达到了开源领先水平(SOTA)。在文本、图像、视频理解以及语音感知与生成等关键单模态任务上同样具备强劲竞争力,真正实现了“全模态不降智”的目标。
LongCat-Flash-Omni 采用一体化全模态架构,将离线多模态理解与实时音视频交互能力整合为一体。整体设计坚持端到端思路,利用视觉与音频编码器作为多模态感知器,可直接生成文本与语音 token,并通过轻量级音频解码器重建自然语音波形,从而保证低延迟的实时交流体验。
此外,该模型引入渐进式的早期多模融合训练策略,专门应对全模态训练中不同模态数据分布不一致的问题。该策略促进各模态有效协同,带动模型整体性能持续提升。
在具体测试中,LongCat-Flash-Omni 在多个方向表现亮眼,尤其是文本理解与图像理解任务,能力不仅没有下降,反而显著增强。音频与视频处理方面同样优异,实时音视频交互的自然度与流畅度领先于诸多开源模型。
LongCat 团队也为用户提供了便捷的体验入口:用户可在官网试用图片、文件上传与语音通话功能。与此同时,LongCat 官方 App 已发布,支持联网搜索与语音通话,后续还将上线视频通话能力。
- 
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
 
- 
Github:
https://github.com/meituan-longcat/LongCat-Flash-Omni
 
                    















用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?