研究提醒：AI 智能体测评过度偏向编程，忽略了 92% 的真实劳动力市场-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

卡内基梅隆大学与斯坦福大学的一项近期联合研究指出，当前人工智能智能体（AI Agent）的发展正呈现出明显的“路径依赖”。研究显示，现有 AI 测评基准过度聚焦编程任务，却忽略了占美国劳动力市场 92% 的非编程领域。

研究团队系统梳理并比对了 43 个主流 AI 基准中的 7.2 万个任务，与美国政府 O*NET 职业数据库里的 1016 种真实职业进行映射分析。

调查揭示的失衡：

高数字化岗位的“测评盲区”：管理类岗位的数字化率高达 88%，但在现有 AI 基准中仅占 1.4%；法律岗位数字化率为 70%，在基准中的占比却只有 0.3%。
技能覆盖与现实脱节严重：当前测评主要考察“获取信息”和“计算机操作”两类技能，但它们只对应不到 5% 的美国就业岗位；而对真实工作至关重要的“人际互动”能力，在现有测试里几乎缺席。
任务越复杂，自主性越“跳水”：研究发现，AI 智能体在面对复杂任务时自主执行能力明显下降。即使是在其擅长的软件开发场景中，一旦步骤增多、逻辑更复杂，成功率也会急剧下滑。

研究者建议，未来的 AI 基准应更多覆盖管理、法律、建筑与工程等高价值且高度数字化的领域。同时，评测不应只盯着最终结果，还要关注执行过程中的关键中间步骤，以更好应对目标模糊、验证周期长等现实痛点。

市场数据也与上述结论相呼应。Anthropic 的分析显示，其 API 调用中约有 50% 仍集中在软件开发。专家提醒，如果业界继续偏爱易于自动评分的编程任务，可能会错过 AI 在更广泛经济场景释放生产力价值的关键时机。