在大模型迈向垂直专业赛道的过程中,美团 刚递上一份让学界与业界都为之侧目的成绩单。
3月21日,美团 正式发布并开源超大规模数学证明模型 LongCat-Flash-Prover。这款拥有 5677亿参数 的模型,采用先进的 MoE(混合专家)架构,面向高难度的数学形式化证明进行了深度打磨。

在衡量逻辑推理能力的顶级评测中,LongCat-Flash-Prover 展现出近乎统治级的表现:
刷新纪录: 在 MiniF2F-Test 中拿下 97.1% 的成绩,只用 72 次推理尝试。
攻克难题: 在 PutnamBench 上解决了 41.5% 的题目,两项指标均创造全球 SOTA(当前最佳)新高。
为让模型具备“数学家”般的严谨性,美团 在技术路线中实现了多项关键突破:
消除幻觉: 引入基于 AST(抽象语法树)的多阶段严格校验链路,并接入 Lean4 形式化语言,从源头遏制 AI 在逻辑推演中的“胡言乱语”。
训练算法进化: 针对 MoE 模型在长程任务上训练不稳的老问题,美团 提出了自研 HisPO 算法,配合定理一致性检测,有效避免模型在强化学习阶段出现“投机取巧”的奖励黑客。
高效架构: 5600亿的总参数提供深厚的知识储备,而MoE架构则保证推理时的灵活与高效。
目前,美团 已将该模型及其代码在 GitHub 和 Hugging Face 平台全面开源。
随着 LongCat-Flash-Prover 的发布,国产大模型在数学逻辑、代码验证等高阶推理领域的竞争力再次得到验证。当复杂定理不再只依赖人类推演,而能由百亿级激活参数的专家模型精准拆解,AI 朝着真正的“通用人工智能”又踏出坚实一步。
用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?