阿里通义实验室智能计算团队今日面向外界推出了面向大模型后训练的新算法——FIPO(Future-KL Influenced Policy Optimization)。它引入全新的“Future-KL”机制,有效缓解纯强化学习(Pure RL)训练中普遍存在的“推理长度停滞”难题。
面对长文本推理和复杂逻辑对齐任务,传统强化学习常常难以准确抓住长序列里的关键决策点。FIPO通过对关键Token实施差异化奖励,引导模型在生成思维链(CoT)时更具前瞻性。
实验结果显示,在32B规模、纯强化学习设定下,接入FIPO的模型率先超越同规模的DeepSeek-Zero-MATH以及OpenAI的o1-mini,意味着国产大模型在逻辑推理与数学计算方面取得了实质性突破。
当下,大模型竞争的焦点正在从预训练规模转向推理端的深度对齐。FIPO的发布,不仅为评估与提升逻辑推理模型“思考过程”的质量提供了新思路,也释放出信号:开源社区与国内头部实验室在追赶全球顶尖推理模型的进程中,正逐步形成独立的技术演进路径。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?