卡内基梅隆大学与斯坦福大学的一项近期联合研究指出,当前人工智能智能体(AI Agent)的发展正呈现出明显的“路径依赖”。研究显示,现有 AI 测评基准过度聚焦编程任务,却忽略了占美国劳动力市场 92% 的非编程领域。
研究团队系统梳理并比对了 43 个主流 AI 基准中的 7.2 万个任务,与美国政府 O*NET 职业数据库里的 1016 种真实职业进行映射分析。
调查揭示的失衡:
-
高数字化岗位的“测评盲区”:管理类岗位的数字化率高达 88%,但在现有 AI 基准中仅占 1.4%;法律岗位数字化率为 70%,在基准中的占比却只有 0.3%。
-
技能覆盖与现实脱节严重:当前测评主要考察“获取信息”和“计算机操作”两类技能,但它们只对应不到 5% 的美国就业岗位;而对真实工作至关重要的“人际互动”能力,在现有测试里几乎缺席。
-
任务越复杂,自主性越“跳水”:研究发现,AI 智能体在面对复杂任务时自主执行能力明显下降。即使是在其擅长的软件开发场景中,一旦步骤增多、逻辑更复杂,成功率也会急剧下滑。
研究者建议,未来的 AI 基准应更多覆盖管理、法律、建筑与工程等高价值且高度数字化的领域。同时,评测不应只盯着最终结果,还要关注执行过程中的关键中间步骤,以更好应对目标模糊、验证周期长等现实痛点。
市场数据也与上述结论相呼应。Anthropic 的分析显示,其 API 调用中约有 50% 仍集中在软件开发。专家提醒,如果业界继续偏爱易于自动评分的编程任务,可能会错过 AI 在更广泛经济场景释放生产力价值的关键时机。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?