32B 推理表现反超 o1-mini！通义推出 FIPO，让大模型“越想越深”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

据悉，阿里通义实验室的 Qwen Pilot 团队发布了一种全新的 FIPO 算法。该方法瞄准传统强化学习（RL）在复杂逻辑处理上的瓶颈，让模型在推理长度与准确率上实现双提升。

传统模型在应对数学等复杂问题时，常难以判断哪些 Token 对最终答案至关重要。FIPO 从底层策略上做了重构：

Future-KL 机制： 引入 Future-KL 策略，重点奖励那些对后续推演影响显著的 Token，引导模型学会“提前布局”。

符号对数概率差： 加入这一新机制，精准标定优化方向，避免推理过程出现无效反复。

推理长度跨越： 在从零起步的模型上，FIPO 将平均推理长度提升到 10,000 Token 以上，从根本上解决了推理深度不足的难题。

在实测对比中，配备 FIPO 的 32B 规模模型展现出强劲的“轻量小钢炮”特质：

反超竞品： 在纯强化学习设置下，其推理表现超越同体量模型，部分指标上甚至优于OpenAI 的 o1-mini。

数学潜力： 面对高难度数学推理题目，算法表现尤为突出，展现出强大的逻辑链条构建能力。

阿里通义实验室近期在底层算法上动作频繁。除此次亮相的 FIPO 外，团队在 3 月底还发布了CoPaw 1.0 新版本，持续深耕模型的逻辑严谨性与交互深度。

结语：推理效率的“第二曲线”

当行业仍在争论参数规模之时，阿里通义用 FIPO 证明：依靠更精细的奖励机制与逻辑引导，小规模模型同样能释放出顶级的“思考力”。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

32B 推理表现反超 o1-mini！通义推出 FIPO，让大模型“越想越深”