阿里通义实验室推出FIPO算法,32B模型推理表现超越o1-mini

阿里通义实验室智能计算团队今日面向外界推出了面向大模型后训练的新算法——FIPO(Future-KL Influenced Policy Optimization)。它引入全新的“Future-KL”机制,有效缓解纯强化学习(Pure RL)训练中普遍存在的“推理长度停滞”难题。

面对长文本推理和复杂逻辑对齐任务,传统强化学习常常难以准确抓住长序列里的关键决策点。FIPO通过对关键Token实施差异化奖励,引导模型在生成思维链(CoT)时更具前瞻性。

实验结果显示,在32B规模、纯强化学习设定下,接入FIPO的模型率先超越同规模的DeepSeek-Zero-MATH以及OpenAI的o1-mini,意味着国产大模型在逻辑推理与数学计算方面取得了实质性突破。

当下,大模型竞争的焦点正在从预训练规模转向推理端的深度对齐。FIPO的发布,不仅为评估与提升逻辑推理模型“思考过程”的质量提供了新思路,也释放出信号:开源社区与国内头部实验室在追赶全球顶尖推理模型的进程中,正逐步形成独立的技术演进路径。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享