阿里通义实验室发布 FIPO 算法,大幅增强大模型推理表现

阿里通义实验室的 Qwen Pilot 团队近日提出全新算法 FIPO(Future-KL Influenced Policy Optimization),专门用来突破大模型在推理流程中的瓶颈。以往的强化学习方法(RLVR)在处理推理链的每个 Token 时,难以判断哪些词对最终答案最关键,因此“如何精确找出关键 Token”成了必须解决的问题。

image.png

FIPO 引入了 Future-KL 机制,重点奖励对后续推理影响显著的 Token,从根源上缓解了纯 RL 训练常见的“推理长度停滞”现象。实测中,在 32B 规模且仅用 RL 的设置下,FIPO 的表现超过了同量级的 o1-mini 和 DeepSeek-Zero-MATH。

image.png

团队研究发现,多数 Token 在训练前后几乎不变,说明强化学习的有效作用非常稀疏。行业常用的评估指标(如熵与 KL 散度)难以精准定位关键 Token 的变化。为此,他们加入了新的观察指标——符号对数概率差(Δlog p),更好地捕捉优化的方向性。

在零基础模型 Qwen2.5-32B-Base 上的测试显示,FIPO 成功打破推理长度上限,平均推理长度提升到 10,000 Token 以上;同时推理准确率也明显提高,展现出在复杂数学推理任务中的强大潜力。

划重点:  

🔍 FIPO 由阿里通义实验室推出,目标是提升大模型的推理能力。  

📈 它能精准识别对推理至关重要的 Token,推动推理长度突破瓶颈。  

🧠 实验表明,FIPO 在复杂数学推理上的成绩显著优于传统方法。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享