阿里巴巴通义实验室发布 MAI-UI:基础 GUI 智能代理家族,性能跑赢同类

阿里巴巴通义实验室正式推出 MAI-UI,这是一套面向 GUI 的多模态基础智能代理家族。它不仅能进行自然的人机互动,还把 MCP 工具使用、端云协同与在线强化学习融合起来,在通用 GUI 基础能力和移动端导航方面取得领先,表现超过 Gemini2.5Pro、Seed1.8 与 UI-Tars2 等同类产品。

image.png

MAI-UI 基于 Qwen3VL 构建,提供 2B、8B、32B 和 235B A22B 等不同规模的模型。模型能接收自然语言指令与 UI 截图,并输出结构化操作,支持在实时的 Android 环境中执行。可用操作包括点击元素、滑动、输入文字和按系统按钮等。同时,MAI-UI 还加入了用于回答用户问题、请求澄清不明确目标的明确动作,并通过 MCP 工具调用外部能力,让代理可以在同一条轨迹中混合 GUI 步骤、直接的语言回复与 API 级操作。

image.png

在 GUI 能力的基础上,MAI-UI 借助自进化的数据流水线与在线强化学习框架,持续提升并确保导航的稳健性。Tongyi 实验室从应用手册、设计场景和公开数据中整理种子任务,经过多代理与人工标注员协作执行,生成任务轨迹,从而优化导航行为。

在 MobileWorld 基准测试中,MAI-UI 展现出出色表现,成功率达到 41.7%。在 AndroidWorld 基准测试中,MAI-UI 的最大变体成功率为 76.7%,优于其他同类方案。

MAI-UI 的到来,标志着移动应用领域的 GUI 智能代理技术迈出重要一步,让智能设备在处理复杂操作时更高效、更智能。

github:https://github.com/Tongyi-MAI/MAI-UI

划重点:  

🌟 MAI-UI 是阿里巴巴 Tongyi 实验室打造的 GUI 智能代理家族,融合多项前沿技术。  

📱 MAI-UI 支持多种操作,能在真实 Android 环境里完成复杂交互。  

🚀 在 MobileWorld 与 AndroidWorld 等基准测试上,MAI-UI 的表现显著领先。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享