传统的 MoE(混合专家)架构通常通过不断增加专家数量来提升模型能力,但实际中常会遇到收益越来越小、通信开销越来越大的问题。现在,美团 LongCat 团队带来了全新模型 LongCat-Flash-Lite,借助一种全新的“嵌入扩展(Embedding Expansion)”思路,突破了以往在效率和效果上的瓶颈。

核心突破:嵌入扩展优于专家扩展
LongCat 团队的研究发现,在一定条件下,相较于单纯增加专家数量,扩大嵌入层规模能带来更理想的帕累托前沿表现。基于这一发现,LongCat-Flash-Lite 的总参数规模达到了 685 亿,但得益于引入 N-gram 嵌入层,每次推理实际只需激活 29 亿至 45 亿 参数。其中有超过 300 亿参数集中在嵌入层,通过 N-gram 方式捕捉局部语义,精准支撑如“编程指令”等细分场景理解,大幅提升理解准确度。

垂直优化:从架构到系统的全链路升级
为了把理论上的稀疏优势真正转化为落地性能,美团在系统层面做了三方面优化:
-
参数智能分配:嵌入层参数占比提升到约 46%,结合 O(1) 查找复杂度,使得参数规模扩大后计算量不会按比例线性上升。
-
专用缓存与内核融合:构建了类似 KV Cache 的 N-gram Cache 机制,并配合定制 CUDA 内核(例如将 AllReduce 与 RMSNorm 做融合),有效缩减 I/O 延迟。
-
推测解码协同:通过 3 步投机解码方式扩大批处理规模,再结合普通嵌入层上的草案模型,进一步压缩整体时延。
在常见使用场景(输入 4K,输出 1K)下,该模型通过 API 推理可达到 500-700 token/s 的高速生成能力,并且支持最长 256K 上下文。
性能表现:智能体与代码任务优势明显
在多项权威评测基准上,LongCat-Flash-Lite 展示出了跨参数规模的竞争力:
-
智能体任务:在 $τ^2$-Bench 的电信、零售、航空三大业务场景中,均拿到最高成绩。
-
代码能力:SWE-Bench 准确率达到 54.4%,在终端命令执行场景的 TerminalBench 中获得 33.75 分,远超同类模型表现。
-
通用能力:MMLU 得分为 85.52,与 Gemini2.5 Flash-Lite 实力接近;在数学竞赛难度的 AIME24 上也有稳定发挥。
目前,美团已经将模型权重、技术报告以及配套推理引擎


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?