腾讯联合人大高瓴开源规划能力评测框架 PlanningBench-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，腾讯混元团队携手中国人民大学高瓴人工智能学院等多家机构，共同发布并开源了 PlanningBench。这是一套面向大语言模型规划能力评测与训练的可扩展、可验证数据生成框架。

PlanningBench 立足真实规划场景，对任务类型、约束条件以及难度层次等关键因素进行了系统抽象，搭建出一个覆盖 30 余种规划任务的数据生成与验证体系。这个框架不仅可以判断模型是否真正具备规划能力，也能为模型相关训练提供稳定且具备迁移性的奖励信号。

在任务设置上，PlanningBench 包含日程安排、资源配置、人力排班、路径调度、生产运营以及应急服务六大类内容。如此丰富的任务设计，可以有效避免模型只在单一场景中反复“刷题”，从而帮助模型更好适应多样化的真实应用需求。

另外，PlanningBench 的难度控制机制通过拆分任务结构、约束层级以及资源紧张程度等维度，让数据生成能够围绕真实难点灵活调节，而不是单纯依靠拉长提示词来提高难度。每一条数据样本还配有 checklist，用来检查模型输出是否符合输入要求、资源限制以及目标最优性。

值得关注的是，PlanningBench 在评测时不仅重视局部是否合规，也关注整体是否能够成功执行，因此能够识别出那些“看起来大体正确但实际上无法落地”的计划。这对于分析大语言模型在复杂约束条件下的真实规划水平有着重要价值。

借助 PlanningBench 提供的可验证数据进行训练后，模型在未接触过的规划基准以及通用任务上的表现也得到了明显提升，体现出这套学习信号具备较强的通用性。整体来看，PlanningBench 构建了一个由真实场景驱动的生成、评测和训练迁移闭环，为未来人工智能规划方向的研究带来了新的工具与思路。

划重点：

🌟 PlanningBench 是腾讯与人大高瓴共同打造的开源框架，主要用于评测和训练大语言模型的规划能力。

📅 这一框架覆盖 30 多种规划任务类型，涵盖日程安排、资源配置等六大类实际场景。

✅ 借助可验证数据开展训练后，模型在多类任务中的表现明显增强，展现出良好的适用范围和迁移能力。