32B 推理表现反超 o1-mini!通义推出 FIPO,让大模型“越想越深”

据悉,阿里通义实验室的 Qwen Pilot 团队发布了一种全新的 FIPO 算法。该方法瞄准传统强化学习(RL)在复杂逻辑处理上的瓶颈,让模型在推理长度与准确率上实现双提升。

关键突破:破解“推理长度停滞”

传统模型在应对数学等复杂问题时,常难以判断哪些 Token 对最终答案至关重要。FIPO 从底层策略上做了重构:

Future-KL 机制: 引入 Future-KL 策略,重点奖励那些对后续推演影响显著的 Token,引导模型学会“提前布局”。

符号对数概率差: 加入这一新机制,精准标定优化方向,避免推理过程出现无效反复。

推理长度跨越: 在从零起步的模型上,FIPO 将平均推理长度提升到 10,000 Token 以上,从根本上解决了推理深度不足的难题。

成绩亮眼:32B 模型逆袭 o1-mini

在实测对比中,配备 FIPO 的 32B 规模模型展现出强劲的“轻量小钢炮”特质:

反超竞品: 在纯强化学习设置下,其推理表现超越同体量模型,部分指标上甚至优于OpenAI 的 o1-mini

数学潜力: 面对高难度数学推理题目,算法表现尤为突出,展现出强大的逻辑链条构建能力。

行业背景:通义实验室的“智能进化”

阿里通义实验室近期在底层算法上动作频繁。除此次亮相的 FIPO 外,团队在 3 月底还发布了CoPaw 1.0 新版本,持续深耕模型的逻辑严谨性与交互深度。

结语:推理效率的“第二曲线”

当行业仍在争论参数规模之时,阿里通义用 FIPO 证明:依靠更精细的奖励机制与逻辑引导,小规模模型同样能释放出顶级的“思考力”。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享