近日,知名开源浏览器自动化项目BrowserUse发布了首个自研大语言模型——BU-30B-A3B-Preview。一经上线便引发热议,被视为“网页代理(Web Agent)领域的新标杆”,凭借超强的性价比与实时响应速度,大幅降低了AI操控浏览器的门槛。
模型架构:MoE方案,做到“大脑更强、体型更轻”
BU-30B-A3B-Preview采用混合专家(MoE)架构,总参数30B(300亿),推理时仅激活3B(30亿)参数。在保持一流智能的同时显著节省资源,单张消费级GPU即可顺畅运行。
该模型基于阿里云通义千问Qwen3-VL-30B-A3B-Instruct深度微调,专为浏览器自动化场景优化,支持视觉+文本多模态输入,最长上下文可达32K tokens,轻松应对复杂、超长网页内容。

核心能力:出色的DOM理解与图像推理
在浏览器操作任务中,BU-30B-A3B-Preview表现优异,具备完整的网页交互能力:精准定位元素、点击、滚动、表单填写等。其强大的DOM(文档对象模型)理解与视觉推理能力,让AI代理能像人类一样“看懂”页面结构与截图,实现稳定可靠的自动化执行。
官方指出,该模型非常适合构建Web Agent应用,如自动化测试、数据采集、RPA流程等,并在内部基准评测中达到业内领先水平。
性能亮点:速度快、成本低双重领先
官方对比数据显示,BU-30B-A3B-Preview在任务速度与经济性方面明显优于主流商用模型:
– 平均每一步操作约1.2秒,整体任务完成更快。
– 成本优势显著:1美元计算资源可稳定完成约200个浏览器任务,较部分竞品提升数十倍。
由于模型体量适中(单GPU即可部署),开发者可在本地轻松下载测试,无需昂贵的云端开销。
开源意义:推动Web Agent生态加速
BU-30B-A3B-Preview已全面开源,模型权重已上传至Hugging Face平台,开发者可免费获取并与BrowserUse开源库无缝集成。这意味着浏览器自动化进入“高效开源时代”,将助力更多创新应用落地。
AIbase点评:BU-30B-A3B-Preview有力解决了传统大模型在浏览器任务中“贵且慢”的痛点。对需要大规模网页自动化的企业与开发者而言,这是一款性价比超高的选择。未来,随着社区持续优化,它有望成为Web Agent领域的标配。感兴趣的读者可前往Hugging Face立即下载体验。
地址:https://huggingface.co/browser-use/bu-30b-a3b-preview

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?