当圈内还在讨论多模态AI是否真能落地,美团已悄悄祭出一张杀手锏——全新开源大模型 LongCat-Flash-Omni 正式发布,并在多项评测中压过多款闭源产品,做到“开源即SOTA”(State-of-the-Art)的少见成绩。这款名字里带有“全能”意味的AI系统,不仅能把文本、语音、图像、视频实时融合处理,还凭借近乎零等待的交互体验,把本地多模态智能推到新高度。
LongCat-Flash-Omni的亮点,在于对复杂跨模态任务的精准拿捏。实测显示,面对“描述一个小球在六边形空间内的运动轨迹”这类同时涉及物理逻辑与空间推理的问题,模型不仅能正确建模,还能用自然语言把动力学过程说明得清楚明白。在语音识别方面,即便处在嘈杂环境,它也能稳准提取语义;遇到模糊图片或短视频片段,也能快速锁定关键信息并输出结构化答案。

这一切来自其创新的端到端统一架构。不同于传统多模态模型把各模态分开处理再拼合,LongCat采用深度融合设计,让文本、音频、视觉数据在同一表征空间里对齐与推理。训练时,团队用了“渐进式多模态注入”策略——先把语言能力打牢,再逐步加入图像、语音、视频数据,让模型在守住语言实力的同时,稳步提升跨模态泛化。
更让人惊喜的是其极速优化的响应速度。依靠Flash推理引擎与轻量化设计,LongCat-Flash-Omni在普通家用GPU上就能流畅对话;用户在美团官方 LongCat APP 或网页端体验时,几乎感觉不到输入到回复之间的等待,真正做到“问了就有”的自然互动。

目前,该模型已在美团旗下平台免费开放,开发者可在 Hugging Face 获取权重,普通用户则能直接在应用内试用。这不仅展示了美团在AI底层技术上的底气,也释放出推进国产多模态生态的明确信号。
当AI竞争从“单模态拼精度”转到“多模态讲协同”的关键节点,LongCat-Flash-Omni的到来,既是技术边界的再突破,也是应用场景的再定义。当外卖平台都能训练出对标国际头部的多模态大模型,中国AI的下半场,或许才刚刚启幕。
















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?