谷歌AI研究发布 Vantage：用大语言模型评估协作与创造力的新路径-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在教育场景里，传统的标准化考试能判断学生会不会做微积分题、能不能读懂文章，但很难衡量他们在团队中如何化解分歧、在压力下能否提出新点子，或是否具备批判性分析的能力。这些被称为“持久技能”的能力 —— 协作、创造力与批判性思维 —— 长期缺少既有效又能规模化的测量工具。谷歌研究团队近日提出一项新方法，名为 Vantage，借助大语言模型（LLM）来模拟真实群体互动，并进行准确评分。

研究团队指出，评估持久技能的难点在于“生态有效性”和“心理测量学严谨性”之间的权衡：既要贴近真实世界的情境，又要做到可比与可重复。以往一些尝试，例如 PISA 2015 的协作问题解决评估，使用选择题和脚本化的“队友”互动，虽然更好地控制了变量，却降低了真实感。团队认为，LLM 有望在这两方面实现平衡。

Vantage 的核心是“执行 LLM”架构，它使用同一个 LLM 生成所有 AI 角色的回应。这样既能统一协调对话，也能依照预设的教育标准主动引导交流。比如在评估冲突化解能力时，“执行 LLM”会刻意引入分歧，以考察人类参与者的应对。研究显示，相比彼此不协调的独立代理，这种方式在两个协作子技能上的表现更佳，关键行为出现的证据率显著提高。

团队共招募了 188 名 18 至 25 岁的参与者，通过与 AI 角色进行 30 分钟的协作任务，收集了 373 份对话记录。评分由纽约大学的两位人类评审和 AI 评估工具共同完成，结果表明 AI 评分与人类专家评分的一致性良好。尤其在创造力和批判性思维方面，“执行 LLM”同样优于独立代理，为未来的教育评估带来新的思路。