美团 LongCat-Flash-Lite 发布：45 亿激活参数，性能直追超大模型-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

美团 LongCat-Flash-Lite 发布：45 亿激活参数，性能直追超大模型

拥抱AI，AIGC最佳实践者

2812

传统的 MoE（混合专家）架构通常通过不断增加专家数量来提升模型能力，但实际中常会遇到收益越来越小、通信开销越来越大的问题。现在，美团 LongCat 团队带来了全新模型 LongCat-Flash-Lite，借助一种全新的“嵌入扩展（Embedding Expansion）”思路，突破了以往在效率和效果上的瓶颈。

核心突破：嵌入扩展优于专家扩展

LongCat 团队的研究发现，在一定条件下，相较于单纯增加专家数量，扩大嵌入层规模能带来更理想的帕累托前沿表现。基于这一发现，LongCat-Flash-Lite 的总参数规模达到了 685 亿，但得益于引入 N-gram 嵌入层，每次推理实际只需激活 29 亿至 45 亿 参数。其中有超过 300 亿参数集中在嵌入层，通过 N-gram 方式捕捉局部语义，精准支撑如“编程指令”等细分场景理解，大幅提升理解准确度。

垂直优化：从架构到系统的全链路升级

为了把理论上的稀疏优势真正转化为落地性能，美团在系统层面做了三方面优化：

参数智能分配：嵌入层参数占比提升到约 46%，结合 O（1）查找复杂度，使得参数规模扩大后计算量不会按比例线性上升。
专用缓存与内核融合：构建了类似 KV Cache 的 N-gram Cache 机制，并配合定制 CUDA 内核（例如将 AllReduce 与 RMSNorm 做融合），有效缩减 I/O 延迟。
推测解码协同：通过 3 步投机解码方式扩大批处理规模，再结合普通嵌入层上的草案模型，进一步压缩整体时延。

在常见使用场景（输入 4K，输出 1K）下，该模型通过 API 推理可达到 500-700 token/s 的高速生成能力，并且支持最长 256K 上下文。

性能表现：智能体与代码任务优势明显

在多项权威评测基准上，LongCat-Flash-Lite 展示出了跨参数规模的竞争力：

智能体任务：在 $τ^2$-Bench 的电信、零售、航空三大业务场景中，均拿到最高成绩。
代码能力：SWE-Bench 准确率达到 54.4%，在终端命令执行场景的 TerminalBench 中获得 33.75 分，远超同类模型表现。
通用能力：MMLU 得分为 85.52，与 Gemini2.5 Flash-Lite 实力接近；在数学竞赛难度的 AIME24 上也有稳定发挥。

目前，美团已经将模型权重、技术报告以及配套推理引擎SGLang-FluentLLM全部开源。开发者可以通过LongCat API 开放平台申请使用，每天可享有 5000 万 tokens 的免费额度。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐