5600亿参数重磅开源!美团 LongCat 登顶:数学证明领域树立全新“天花板”

在大模型迈向垂直专业赛道的过程中,美团 刚递上一份让学界与业界都为之侧目的成绩单。

3月21日,美团 正式发布并开源超大规模数学证明模型 LongCat-Flash-Prover。这款拥有 5677亿参数 的模型,采用先进的 MoE(混合专家)架构,面向高难度的数学形式化证明进行了深度打磨。

image.png

在衡量逻辑推理能力的顶级评测中,LongCat-Flash-Prover 展现出近乎统治级的表现:

刷新纪录: 在 MiniF2F-Test 中拿下 97.1% 的成绩,只用 72 次推理尝试。

攻克难题: 在 PutnamBench 上解决了 41.5% 的题目,两项指标均创造全球 SOTA(当前最佳)新高。

为让模型具备“数学家”般的严谨性,美团 在技术路线中实现了多项关键突破:

消除幻觉: 引入基于 AST(抽象语法树)的多阶段严格校验链路,并接入 Lean4 形式化语言,从源头遏制 AI 在逻辑推演中的“胡言乱语”。

训练算法进化: 针对 MoE 模型在长程任务上训练不稳的老问题,美团 提出了自研 HisPO 算法,配合定理一致性检测,有效避免模型在强化学习阶段出现“投机取巧”的奖励黑客。

高效架构: 5600亿的总参数提供深厚的知识储备,而MoE架构则保证推理时的灵活与高效。

目前,美团 已将该模型及其代码在 GitHub 和 Hugging Face 平台全面开源。

随着 LongCat-Flash-Prover 的发布,国产大模型在数学逻辑、代码验证等高阶推理领域的竞争力再次得到验证。当复杂定理不再只依赖人类推演,而能由百亿级激活参数的专家模型精准拆解,AI 朝着真正的“通用人工智能”又踏出坚实一步。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享