美团 LongCat-Flash-Lite 发布:45 亿激活参数,性能直追超大模型

 传统的 MoE(混合专家)架构通常通过不断增加专家数量来提升模型能力,但实际中常会遇到收益越来越小、通信开销越来越大的问题。现在,美团 LongCat 团队带来了全新模型 LongCat-Flash-Lite,借助一种全新的“嵌入扩展(Embedding Expansion)”思路,突破了以往在效率和效果上的瓶颈。

QQ20260206-155117.png

核心突破:嵌入扩展优于专家扩展

LongCat 团队的研究发现,在一定条件下,相较于单纯增加专家数量,扩大嵌入层规模能带来更理想的帕累托前沿表现。基于这一发现,LongCat-Flash-Lite 的总参数规模达到了 685 亿,但得益于引入 N-gram 嵌入层,每次推理实际只需激活 29 亿至 45 亿 参数。其中有超过 300 亿参数集中在嵌入层,通过 N-gram 方式捕捉局部语义,精准支撑如“编程指令”等细分场景理解,大幅提升理解准确度。

QQ20260206-155453.png

垂直优化:从架构到系统的全链路升级

为了把理论上的稀疏优势真正转化为落地性能,美团在系统层面做了三方面优化:

  1. 参数智能分配:嵌入层参数占比提升到约 46%,结合 O(1) 查找复杂度,使得参数规模扩大后计算量不会按比例线性上升。

  2. 专用缓存与内核融合:构建了类似 KV Cache 的 N-gram Cache 机制,并配合定制 CUDA 内核(例如将 AllReduce 与 RMSNorm 做融合),有效缩减 I/O 延迟。

  3. 推测解码协同:通过 3 步投机解码方式扩大批处理规模,再结合普通嵌入层上的草案模型,进一步压缩整体时延。

在常见使用场景(输入 4K,输出 1K)下,该模型通过 API 推理可达到 500-700 token/s 的高速生成能力,并且支持最长 256K 上下文。

性能表现:智能体与代码任务优势明显

在多项权威评测基准上,LongCat-Flash-Lite 展示出了跨参数规模的竞争力:

  • 智能体任务:在 $τ^2$-Bench 的电信、零售、航空三大业务场景中,均拿到最高成绩。

  • 代码能力:SWE-Bench 准确率达到 54.4%,在终端命令执行场景的 TerminalBench 中获得 33.75 分,远超同类模型表现。

  • 通用能力:MMLU 得分为 85.52,与 Gemini2.5 Flash-Lite 实力接近;在数学竞赛难度的 AIME24 上也有稳定发挥。

目前,美团已经将模型权重、技术报告以及配套推理引擎SGLang-FluentLLM全部开源。开发者可以通过LongCat API 开放平台申请使用,每天可享有 5000 万 tokens 的免费额度。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享