大模型智能体(LLM Agent)正加快从“能对话”走向“能执行任务”的连续决策阶段,但怎样高效管理智能体的外部能力,已经成为行业当前急需解决的重要问题。近日,

在网页搜索、自动化办公以及具身机器人等复杂、长流程场景中,智能体通常需要借助外部技能来完成那些容易出错、又带有长尾特征的步骤。不过,传统方案要么不断增加技能数量,结果带来更大的检索噪声和上下文干扰;要么走“零技能推理”路线,试图把所有能力都压进模型参数里,最终反而丢掉了一些局部但很关键的能力。针对这一问题,SLIM框架把外部技能看作一个具备生命周期的动态能力体系,让模型在强化学习训练期间,自己决定哪些外部技能该留下、哪些该移除、哪些需要继续补充。
SLIM的核心运行方式是一个设计完整的闭环。在训练过程中,系统会根据当前状态更细致地检索通用技能或任务专属技能,并借助GRPO算法更新智能体的决策策略。之后,系统会通过特别设计的“留一法”(leave-one-skill-out)来审查技能价值:即暂时关闭某一项技能,观察它对整体表现的边际贡献。如果停用后效果明显变差,就说明这个技能有价值,应当“保留”(Retain);如果它的贡献长期偏低,则说明模型可能已经吸收了这项能力,或者该技能本身正在造成干扰,于是就让它“退休”(Retire);而当系统持续遇到新的失败场景时,则会通过“扩展”(Expand)机制,从失败案例中提炼经验并补充新的技能。

从实验结果来看,这一框架的整体表现平均比现有最优对比方法高出7.1个百分点。在更强调动作执行、步骤更复杂的ALFWorld家庭环境任务中,SLIM依靠精简而高效的外部技能管理,取得了87.5%的成功率,明显高于强基线方法SkillRL的75.0%;而在更偏重信息检索和推理的SearchQA任务中,SLIM同样展现出很强的竞争力,同时也验证了模型能够将部分搜索策略逐步内化吸收的技术路线。
有业内人士分析认为,SLIM的关键意义在于,它把外部技能库从过去固定不变的辅助工具,升级成了能够和策略一起协同优化的训练对象。它不仅从技术上进一步回答了“哪些能力应该写进模型、哪些能力应该保留在外部”这个问题,也让大模型智能体学会了在复杂多变的环境里,判断何时需要借助外部支持。这种动态能力管理思路,无疑为下一阶段具身智能与大模型Agent迈向大规模产业应用,打下了更稳固的理论和工程基础。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?