阿里巴巴通义实验室近日发布 MAI-UI,这是一套多模态的通用 GUI 智能代理家族。它不仅能进行自然的人机交互,还融合 MCP 工具调用、端云协同与在线强化学习,在通用 GUI 基础能力和移动端导航上表现突出,超越了 Gemini2.5Pro、Seed1.8 和 UI-Tars2 等同类产品。

MAI-UI 基于 Qwen3VL 打造,覆盖 2B、8B、32B 和 235B A22B 等多种模型规模。模型可同时接收自然语言指令与 UI 截图,并输出结构化的操作序列,可在实时 Android 环境中执行,包括点击、滑动、文本输入以及系统按键等。与此同时,MAI-UI 还加入了可直接回答用户问题、在目标不清时主动澄清的显式动作,并通过 MCP 工具对接外部能力,让代理能在同一条轨迹中灵活组合 GUI 步骤、直接语言回复与 API 级调用。

在此基础上,MAI-UI 借助自进化的数据管道与在线强化学习框架,确保导航能力更加稳健。Tongyi 团队从应用手册、设计场景和公开数据中构建种子任务,经由多代理与人工标注协同执行,产出任务轨迹,不断优化导航策略与行为。
在 MobileWorld 基准测试中,MAI-UI 表现亮眼,成功率达到 41.7%。在 AndroidWorld 基准中,MAI-UI 的最大变体成功率为 76.7%,整体成绩领先同类方案。
MAI-UI 的发布标志着移动应用场景下的 GUI 智能代理技术迈出重要一步,让智能设备在处理复杂操作时更高效、更智能。
github:https://github.com/Tongyi-MAI/MAI-UI
划重点:
🌟 MAI-UI 由阿里巴巴通义实验室推出,是一组 GUI 智能代理,融合多项前沿能力。
📱 支持丰富操作,能在实时 Android 环境完成复杂的人机交互。
🚀 在 MobileWorld 与 AndroidWorld 等基准测试中,MAI-UI 的表现明显领先同类。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?