阿里巴巴通义实验室正式推出 MAI-UI,这是一套面向 GUI 的多模态基础智能代理家族。它不仅能进行自然的人机互动,还把 MCP 工具使用、端云协同与在线强化学习融合起来,在通用 GUI 基础能力和移动端导航方面取得领先,表现超过 Gemini2.5Pro、Seed1.8 与 UI-Tars2 等同类产品。

MAI-UI 基于 Qwen3VL 构建,提供 2B、8B、32B 和 235B A22B 等不同规模的模型。模型能接收自然语言指令与 UI 截图,并输出结构化操作,支持在实时的 Android 环境中执行。可用操作包括点击元素、滑动、输入文字和按系统按钮等。同时,MAI-UI 还加入了用于回答用户问题、请求澄清不明确目标的明确动作,并通过 MCP 工具调用外部能力,让代理可以在同一条轨迹中混合 GUI 步骤、直接的语言回复与 API 级操作。

在 GUI 能力的基础上,MAI-UI 借助自进化的数据流水线与在线强化学习框架,持续提升并确保导航的稳健性。Tongyi 实验室从应用手册、设计场景和公开数据中整理种子任务,经过多代理与人工标注员协作执行,生成任务轨迹,从而优化导航行为。
在 MobileWorld 基准测试中,MAI-UI 展现出出色表现,成功率达到 41.7%。在 AndroidWorld 基准测试中,MAI-UI 的最大变体成功率为 76.7%,优于其他同类方案。
MAI-UI 的到来,标志着移动应用领域的 GUI 智能代理技术迈出重要一步,让智能设备在处理复杂操作时更高效、更智能。
github:https://github.com/Tongyi-MAI/MAI-UI
划重点:
🌟 MAI-UI 是阿里巴巴 Tongyi 实验室打造的 GUI 智能代理家族,融合多项前沿技术。
📱 MAI-UI 支持多种操作,能在真实 Android 环境里完成复杂交互。
🚀 在 MobileWorld 与 AndroidWorld 等基准测试上,MAI-UI 的表现显著领先。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?