艾伦人工智能研究院(AI2)近日发布了一款全开源的网页代理
核心技术:像人类一样“看”网页
MolmoWeb 的工作流程一目了然:先截取当前浏览器窗口画面,再通过视觉理解判断下一步动作(如点击、滚动、翻页),随后执行并循环。这样的“看见即行动”机制让它更稳健,因为页面的视觉布局通常比底层代码更稳定,同时整个决策过程也对人类更直观、可解释。

性能飞跃:小模型击败巨头
虽然 MolmoWeb 的规模只有 4B 和 8B,但表现却相当亮眼:
-
榜单领跑: 在 WebVoyager 测试中,8B 版本取得 78.2% 的成绩,不仅位列开源模型前列,成绩更是逼近 OpenAI 的专有模型 o3(79.3%)。
-
潜力巨大: 实验显示,通过多次尝试并筛选最优结果,成功率还能提升到 94.7%。
-
定位精准: 在 UI 元素定位基准上,MolmoWeb 的表现甚至超过了 Anthropic 的 Claude3.7。
数据支撑:史上最大的开放数据集
此次 AI2 不仅开放了模型权重,还同步发布了名为 MolmoWebMix 的大规模数据集,包含:
-
人类志愿者完成的 3.6万次真实网页操作任务。
-
超过 220万 组“截图—问答”配对数据。
-
由 GPT-4o 校验的自动合成数据。实验表明,在为智能体规划“最优路径”方面,合成数据在不少情况下比人类路线更有效。

开源精神与未来挑战
目前,MolmoWeb 已在


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?