研究提醒:AI 智能体测评过度偏向编程,忽略了 92% 的真实劳动力市场

卡内基梅隆大学与斯坦福大学的一项近期联合研究指出,当前人工智能智能体(AI Agent)的发展正呈现出明显的“路径依赖”。研究显示,现有 AI 测评基准过度聚焦编程任务,却忽略了占美国劳动力市场 92% 的非编程领域。

研究团队系统梳理并比对了 43 个主流 AI 基准中的 7.2 万个任务,与美国政府 O*NET 职业数据库里的 1016 种真实职业进行映射分析。

调查揭示的失衡:

  • 高数字化岗位的“测评盲区”:管理类岗位的数字化率高达 88%,但在现有 AI 基准中仅占 1.4%;法律岗位数字化率为 70%,在基准中的占比却只有 0.3%。

  • 技能覆盖与现实脱节严重:当前测评主要考察“获取信息”和“计算机操作”两类技能,但它们只对应不到 5% 的美国就业岗位;而对真实工作至关重要的“人际互动”能力,在现有测试里几乎缺席。

  • 任务越复杂,自主性越“跳水”:研究发现,AI 智能体在面对复杂任务时自主执行能力明显下降。即使是在其擅长的软件开发场景中,一旦步骤增多、逻辑更复杂,成功率也会急剧下滑。

研究者建议,未来的 AI 基准应更多覆盖管理、法律、建筑与工程等高价值且高度数字化的领域。同时,评测不应只盯着最终结果,还要关注执行过程中的关键中间步骤,以更好应对目标模糊、验证周期长等现实痛点。

市场数据也与上述结论相呼应。Anthropic 的分析显示,其 API 调用中约有 50% 仍集中在软件开发。专家提醒,如果业界继续偏爱易于自动评分的编程任务,可能会错过 AI 在更广泛经济场景释放生产力价值的关键时机。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享