IBM 发布 CUGA:开源企业 AI 助手,基准完成率达六成以上

近日,IBM 研究团队推出开源 AI 助手 CUGA,定位于自动化复杂的企业流程,实测可完成过半任务。CUGA 意为“可配置通用代理”,通过多代理编排、API 对接与代码生成等能力,帮助知识工作者更高效处理日常与复杂工作。

据团队介绍,CUGA 的目标是让知识工作者能在安全、可靠的前提下自由配置与调整代理,以贴合各自的业务需求。尽管外界对 AI 代理的安全性与可靠性仍有担忧,IBM 依旧看好自动化前景,并专注于提升效率。

在 WebArena 与 AppWorld 基准中,CUGA 分别取得 61.7% 的网页任务完成率与 48.2% 的 API 任务完成率。分数并非最高,但在当下 AI 代理中已属顶尖表现。值得注意的是,IBM 并未使用其企业内测标准 WebAgentBench 来评估 CUGA,这一点也引发了关注。

横向对比来看,其他代理在类似测试中的平均完成率仅约 24.4%,CUGA 的成绩显示出技术的进步。团队指出,企业流程往往要同时遵循多项政策,因此 CUGA 需要具备更强的合规处理能力。

在架构上,CUGA 会先解析用户意图,识别任务目标,再将其拆解为多个子任务,并根据进展动态调整计划。系统会把特定子任务交给更擅长的专业代理,从而尽量让结果符合企业政策。

该系统兼容 Langflow 低代码平台,并可集成多种开源模型。尽管实操中仍可能遇到小问题,比如偶尔无法正常退出运行循环,IBM 强调用户在使用此类代理软件时应保持合理预期。

划重点:  

🌟 CUGA 是一款开源 AI 助手,面向复杂企业流程的自动化。  

📊 基准测试显示 CUGA 的任务完成率达 61.7%,体现 AI 代理的进步。  

🔧 支持动态任务拆分与多种开源模型,有望提升工作效率。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享