5600亿参数重磅开源！美团 LongCat 登顶：数学证明领域树立全新“天花板”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

5600亿参数重磅开源！美团 LongCat 登顶：数学证明领域树立全新“天花板”

拥抱AI，AIGC最佳实践者

6011

在大模型迈向垂直专业赛道的过程中，美团刚递上一份让学界与业界都为之侧目的成绩单。

3月21日，美团正式发布并开源超大规模数学证明模型 LongCat-Flash-Prover。这款拥有 5677亿参数 的模型，采用先进的 MoE（混合专家）架构，面向高难度的数学形式化证明进行了深度打磨。

在衡量逻辑推理能力的顶级评测中，LongCat-Flash-Prover 展现出近乎统治级的表现:

刷新纪录: 在 MiniF2F-Test 中拿下 97.1% 的成绩，只用 72 次推理尝试。

攻克难题: 在 PutnamBench 上解决了 41.5% 的题目，两项指标均创造全球 SOTA（当前最佳）新高。

为让模型具备“数学家”般的严谨性，美团在技术路线中实现了多项关键突破:

消除幻觉: 引入基于 AST（抽象语法树）的多阶段严格校验链路，并接入 Lean4 形式化语言，从源头遏制 AI 在逻辑推演中的“胡言乱语”。

训练算法进化: 针对 MoE 模型在长程任务上训练不稳的老问题，美团提出了自研 HisPO 算法，配合定理一致性检测，有效避免模型在强化学习阶段出现“投机取巧”的奖励黑客。

高效架构: 5600亿的总参数提供深厚的知识储备，而MoE架构则保证推理时的灵活与高效。

目前，美团已将该模型及其代码在 GitHub 和 Hugging Face 平台全面开源。

随着 LongCat-Flash-Prover 的发布，国产大模型在数学逻辑、代码验证等高阶推理领域的竞争力再次得到验证。当复杂定理不再只依赖人类推演，而能由百亿级激活参数的专家模型精准拆解，AI 朝着真正的“通用人工智能”又踏出坚实一步。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐