近日,OSWorld 团队推出 OSWorld-MCP——首个专为“计算机使用代理”进行全方位评估的基准测试工具。该基准旨在为开发者与用户提供贴近真实环境的能力测评,进一步提升评估的真实性、均衡性与可比性。

OSWorld-MCP 的核心特性包括:综合评估模型上下文协议(MCP)的工具调用能力、图形用户界面(GUI)操作水平,以及整体决策表现。该基准集成了 158 个通过验证的 MCP 工具,覆盖七款常用应用程序,包含 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及操作系统实用工具。其中,25 个工具用于鲁棒性测试,确保评测更全面、更可靠。
此外,OSWorld-MCP 设置了 250 项“工具适用性”任务,其中 69% 的基准任务能直接受益于 MCP 工具的加入。多轮工具调用设计带来更贴近真实场景的决策挑战,使测试结果更具参考意义。数据表明,引入 MCP 工具后模型的准确率与效率明显提升:OpenAI 的 o3 模型在进行 15 步调用后,准确率由 8.3% 增至 20.4%。在测试中,Claude-4-Sonnet 的最高工具调用率达到 36.3%,展示出未来优化空间。
该项目以开源形式发布,为开发者提供丰富的资源与说明,推动技术共享与协同。更多信息与资源可通过其官方网站与 GitHub 获取。
OSWorld-MCP 的发布不仅为“计算机使用代理”产品的评测提供了强有力工具,也为相关技术的持续进步奠定了坚实基础。
github:https://github.com/X-PLUG/OSWorld-MCP
划重点:
🌟 ** 面向计算机代理的首个全面评测基准 OSWorld-MCP 正式上线。**
🛠️ ** 覆盖 158 个经验证的 MCP 工具,适配多款常用应用程序。**
📈 ** 多轮工具调用设置,让模型的准确率与效率显著提升。**


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?