AI2推出全开源网页代理 MolmoWeb:只凭“视觉”就能操控网页

艾伦人工智能研究院(AI2)近日发布了一款全开源的网页代理 MolmoWeb。与以往依赖页面底层结构(DOM)的方式不同,MolmoWeb 仅通过读取屏幕截图做出决策,宣示“视觉驱动”网页操控迈入新阶段。

核心技术:像人类一样“看”网页

MolmoWeb 的工作流程一目了然:先截取当前浏览器窗口画面,再通过视觉理解判断下一步动作(如点击、滚动、翻页),随后执行并循环。这样的“看见即行动”机制让它更稳健,因为页面的视觉布局通常比底层代码更稳定,同时整个决策过程也对人类更直观、可解释。

QQ20260326-092046.jpg

性能飞跃:小模型击败巨头

虽然 MolmoWeb 的规模只有 4B 和 8B,但表现却相当亮眼:

  • 榜单领跑:WebVoyager 测试中,8B 版本取得 78.2% 的成绩,不仅位列开源模型前列,成绩更是逼近 OpenAI 的专有模型 o3(79.3%)。

  • 潜力巨大: 实验显示,通过多次尝试并筛选最优结果,成功率还能提升到 94.7%

  • 定位精准: 在 UI 元素定位基准上,MolmoWeb 的表现甚至超过了 Anthropic 的 Claude3.7。

数据支撑:史上最大的开放数据集

此次 AI2 不仅开放了模型权重,还同步发布了名为 MolmoWebMix 的大规模数据集,包含:

  • 人类志愿者完成的 3.6万次真实网页操作任务

  • 超过 220万 组“截图—问答”配对数据。

  • 由 GPT-4o 校验的自动合成数据。实验表明,在为智能体规划“最优路径”方面,合成数据在不少情况下比人类路线更有效。

QQ20260326-092350.jpg

开源精神与未来挑战

目前,MolmoWeb 已在 Hugging FaceGitHub 上以 Apache 2.0 协议完整开源。尽管在复杂指令理解、账号登录验证以及遵循服务条款等合规问题上仍有待攻克,AI2 依然坚信:唯有充分透明与社区协作,才能真正对抗大型科技公司对数据的垄断。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享