在大语言模型(LLM)快速演进的浪潮中,阿里通义 Qwen 团队近期发布了一种全新的强化学习方法——Soft Adaptive Policy Optimization(SAPO)。它的核心目标是缓解当前大语言模型在强化学习阶段的策略优化不稳定问题。

传统方法如 GRPO 和 GSPO,会用硬剪切来限制重要性比率的范围,以确保更新过程稳定。但这类做法存在固有不足:其一,过于严格的剪切会丢掉有效学习信号,尤其在 GSPO 中,一旦某些 token 表现不佳,整段序列的梯度可能被直接舍弃;其二,剪切范围很难调:范围太小,许多样本无法贡献梯度;范围太大,则会引入噪声,反过来破坏稳定性。这些问题在大规模混合专家模型(MoE)上尤为突出。
为此,Qwen 团队提出了 SAPO,这是一种旨在同时提升稳定性与性能的新型强化学习方法。SAPO 使用平滑、由温度控制的门控函数替代传统硬剪切,在保证稳定的同时保留更多有效梯度。其设计要点包括:
1. 连续的信任区域 :避免硬剪切造成的不连续问题。
2. 序列层面的一致性 :不丢弃整条序列,信息保留更充分。
3. token 级自适应 :减弱异常 token 对整体训练的负面影响。
此外,SAPO 在处理正、负 token 时采用不对称温度设计,对不同类型 token 做差异化处理,进一步增强学习效果。实验结果显示,SAPO 在多种规模的 dense 与 MoE 模型上均取得了显著提升。
为验证方法有效性,Qwen 团队开展了全面评测。在数学推理、代码生成、逻辑推理以及多模态数学推理等任务中,SAPO 的表现明显优于传统的 GRPO 和 GSPO。这一成果不仅体现了阿里通义在大语言模型领域的技术创新,也为未来 AI 研究开辟了新的方向。
论文地址:https://arxiv.org/abs/2511.20347


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?