在教育场景里,传统的标准化考试能判断学生会不会做微积分题、能不能读懂文章,但很难衡量他们在团队中如何化解分歧、在压力下能否提出新点子,或是否具备批判性分析的能力。这些被称为“持久技能”的能力 —— 协作、创造力与批判性思维 —— 长期缺少既有效又能规模化的测量工具。谷歌研究团队近日提出一项新方法,名为 Vantage,借助大语言模型(LLM)来模拟真实群体互动,并进行准确评分。

研究团队指出,评估持久技能的难点在于“生态有效性”和“心理测量学严谨性”之间的权衡:既要贴近真实世界的情境,又要做到可比与可重复。以往一些尝试,例如 PISA 2015 的协作问题解决评估,使用选择题和脚本化的“队友”互动,虽然更好地控制了变量,却降低了真实感。团队认为,LLM 有望在这两方面实现平衡。
Vantage 的核心是“执行 LLM”架构,它使用同一个 LLM 生成所有 AI 角色的回应。这样既能统一协调对话,也能依照预设的教育标准主动引导交流。比如在评估冲突化解能力时,“执行 LLM”会刻意引入分歧,以考察人类参与者的应对。研究显示,相比彼此不协调的独立代理,这种方式在两个协作子技能上的表现更佳,关键行为出现的证据率显著提高。
团队共招募了 188 名 18 至 25 岁的参与者,通过与 AI 角色进行 30 分钟的协作任务,收集了 373 份对话记录。评分由纽约大学的两位人类评审和 AI 评估工具共同完成,结果表明 AI 评分与人类专家评分的一致性良好。尤其在创造力和批判性思维方面,“执行 LLM”同样优于独立代理,为未来的教育评估带来新的思路。
划重点:
📊 Vantage 将大语言模型用于场景模拟,能够还原真实团队互动,并精准评估“持久技能”。
🤖 “执行 LLM”通过统一协调多个 AI 角色,主动推进对话,显著提升对关键行为的观察与判断效果。
🎓 研究结果显示,AI 评分与专家评分高度一致,为教育测评提供了可行的新方向。


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?