AI2推出全开源网页代理 MolmoWeb：只凭“视觉”就能操控网页-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

AI2推出全开源网页代理 MolmoWeb：只凭“视觉”就能操控网页

拥抱AI，AIGC最佳实践者

2810

艾伦人工智能研究院（AI2）近日发布了一款全开源的网页代理 MolmoWeb。与以往依赖页面底层结构（DOM）的方式不同，MolmoWeb 仅通过读取屏幕截图做出决策，宣示“视觉驱动”网页操控迈入新阶段。

核心技术:像人类一样“看”网页

MolmoWeb 的工作流程一目了然：先截取当前浏览器窗口画面，再通过视觉理解判断下一步动作（如点击、滚动、翻页），随后执行并循环。这样的“看见即行动”机制让它更稳健，因为页面的视觉布局通常比底层代码更稳定，同时整个决策过程也对人类更直观、可解释。

性能飞跃:小模型击败巨头

虽然 MolmoWeb 的规模只有 4B 和 8B，但表现却相当亮眼：

榜单领跑: 在 WebVoyager 测试中，8B 版本取得 78.2% 的成绩，不仅位列开源模型前列，成绩更是逼近 OpenAI 的专有模型 o3（79.3%）。
潜力巨大: 实验显示，通过多次尝试并筛选最优结果，成功率还能提升到 94.7%。
定位精准: 在 UI 元素定位基准上，MolmoWeb 的表现甚至超过了 Anthropic 的 Claude3.7。

数据支撑:史上最大的开放数据集

此次 AI2 不仅开放了模型权重，还同步发布了名为 MolmoWebMix 的大规模数据集，包含：

人类志愿者完成的 3.6万次真实网页操作任务。
超过 220万 组“截图—问答”配对数据。
由 GPT-4o 校验的自动合成数据。实验表明，在为智能体规划“最优路径”方面，合成数据在不少情况下比人类路线更有效。

开源精神与未来挑战

目前，MolmoWeb 已在 Hugging Face 与 GitHub 上以 Apache 2.0 协议完整开源。尽管在复杂指令理解、账号登录验证以及遵循服务条款等合规问题上仍有待攻克，AI2 依然坚信：唯有充分透明与社区协作，才能真正对抗大型科技公司对数据的垄断。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐