阿里巴巴通义实验室发布 MAI-UI:新一代基础 GUI 智能代理家族,性能领先同行

阿里巴巴通义实验室近日发布 MAI-UI,这是一套多模态的通用 GUI 智能代理家族。它不仅能进行自然的人机交互,还融合 MCP 工具调用、端云协同与在线强化学习,在通用 GUI 基础能力和移动端导航上表现突出,超越了 Gemini2.5Pro、Seed1.8 和 UI-Tars2 等同类产品。

image.png

MAI-UI 基于 Qwen3VL 打造,覆盖 2B、8B、32B 和 235B A22B 等多种模型规模。模型可同时接收自然语言指令与 UI 截图,并输出结构化的操作序列,可在实时 Android 环境中执行,包括点击、滑动、文本输入以及系统按键等。与此同时,MAI-UI 还加入了可直接回答用户问题、在目标不清时主动澄清的显式动作,并通过 MCP 工具对接外部能力,让代理能在同一条轨迹中灵活组合 GUI 步骤、直接语言回复与 API 级调用。

image.png

在此基础上,MAI-UI 借助自进化的数据管道与在线强化学习框架,确保导航能力更加稳健。Tongyi 团队从应用手册、设计场景和公开数据中构建种子任务,经由多代理与人工标注协同执行,产出任务轨迹,不断优化导航策略与行为。

在 MobileWorld 基准测试中,MAI-UI 表现亮眼,成功率达到 41.7%。在 AndroidWorld 基准中,MAI-UI 的最大变体成功率为 76.7%,整体成绩领先同类方案。

MAI-UI 的发布标志着移动应用场景下的 GUI 智能代理技术迈出重要一步,让智能设备在处理复杂操作时更高效、更智能。

github:https://github.com/Tongyi-MAI/MAI-UI

划重点:  

🌟 MAI-UI 由阿里巴巴通义实验室推出,是一组 GUI 智能代理,融合多项前沿能力。  

📱 支持丰富操作,能在实时 Android 环境完成复杂的人机交互。  

🚀 在 MobileWorld 与 AndroidWorld 等基准测试中,MAI-UI 的表现明显领先同类。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享