内容
活动
关注

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

简介: 近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

 00.前言

近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

 

image.gif 编辑

GUI-Owl不仅具备精准的界面理解、复杂任务规划与细粒度动作执行能力,更实现了在多智能体框架中灵活扮演多种角色——包括规划者、执行者、反思者与记录者,真正实现“能看、会想、善协作”的智能体闭环。

 

image.gif 编辑

目前,GUI-Owl的完整技术方案、训练数据与模型权重已全面开源,配套的异步强化学习框架与轨迹爬取系统也同步开放。

 

Github: https://github.com/X-PLUG/MobileAgent

论文: https://arxiv.org/abs/2508.15144

 

模型下载:

GUI-Owl-32B

https://modelscope.cn/models/iic/GUI-Owl-32B

 

GUI-Owl-7B

https://modelscope.cn/models/iic/GUI-Owl-7B

01.交互能力展示

📎0bc3x4assaab44akpyn63rufdp6dfg7qckia.f10002.mp4

02.模型构建方式

GUI-Owl基础模型,源于三大核心能力的系统性构建:精准定位、复杂规划、动作因果理解。

一、精准界面元素定位:让AI“指哪打哪”

为实现像素级理解,团队构建了三类高质量接地(grounding)数据:

  • 开源数据集整合融合多个公开GUI数据集,覆盖多样界面场景;
  • 无障碍树合成:提取移动端/桌面端UI元素的边界框与功能语义,结合Qwen2.5-VL生成视觉-语义对齐描述;
  • PC截图密集定位:通过Google Images爬取主流应用界面,利用SAM模型分割图像区域,再由大模型完成细粒度元素标注。

 

所有标注结果与Omniparser V2检测结果比对,确保数据质量。原始指令经Qwen2.5-Max重写为自然任务语言,提升泛化能力。

 

image.gif 编辑

二、复杂任务规划:教会AI“先想后做”

面对跨应用、长周期任务,GUI-Owl通过两种方式构建规划能力:

  • 从历史轨迹提炼经验将成功操作轨迹转化为结构化“任务执行手册”,训练模型掌握任务流;
  • 从大模型蒸馏知识:使用Qwen3-235B生成复杂任务计划(如“在微博搜索某热点并截图发朋友圈”),筛选清洗后形成高质量规划数据集。

三、动作语义理解:掌握“操作如何改变界面”

团队构建了前后截图对+动作标签的双层级数据体系:

  • 第一层:模型根据界面变化反推操作类型(点击、滑动、输入)及参数(坐标、文本);
  • 第二层:判断操作描述与实际变化是否语义一致(如“点击登录”后是否跳转主页)。

这套机制让GUI-Owl建立起“视觉差异→用户行为”的强因果推理能力。

03.强化学习进阶:越用越强的自动化智能体

 

image.gif 编辑

为了突破监督学习的性能天花板,MobileAgent团队引入轨迹级别强化学习,团队构建了一套全异步、解耦式RL训练基础设施:

  • Rollout与策略更新解耦:支持同步策略采样与异步off-policy推理,大幅提升训练吞吐;
  • 高性能推理集群部署:rollout服务运行在H20等高性能GPU上,显著提升长序列任务处理效率;
  • 统一多任务接口:所有任务通过插件化接入,支持步骤级、轨迹级、智能体级信息传递,降低环境耦合成本。

此外,他们提出了TRPO方法,使得模型在动态环境中实现稳定涨点。

实验证明,该框架在真实GUI环境中带来高达8个点的性能提升,甚至超越32B级别SoTA模型。

 

image.gif 编辑

04.多智能体协同:MobileAgent-V3,让AI组队干活

 

image.gif 编辑

面对复杂任务,单模型往往力不从心。为此,MobileAgent团队推出全新多智能体框架 MobileAgent-V3,构建四位“Agent”协同作战体系:

🎯 Manager Agent

接收用户指令后,调用外部知识库KRAG,将模糊任务拆解为有序子目标。执行中持续接收反馈,动态调整计划、修正错误、重排优先级。

🛠️ Worker Agent

根据当前界面状态选择最优动作,输出包含推理过程、操作指令与意图说明的完整行动元组,确保每一步“有据可依”。

🔍 Reflector Agent

每步操作后,对比预期与实际界面变化,判断成功或失败,并生成归因分析,如:“未跳转主页,可能因按钮被遮挡”。

📚 Notetaker Agent

仅在任务成功时触发,自动提取验证码、登录凭证、订单号等关键信息,存入长期记忆,避免重复操作。

在真实环境测试中,MobileAgent-V3相较单模型方案,任务成功率提升7~8%,尤其在跨应用、多跳任务中表现突出。

05.未来展望

GUI-Owl与MobileAgent-V3的开源,标志着通用图形界面智能体进入新阶段。它不再是一个“固定流程”的自动化脚本,而是一个具备基础知识、推理能力与协作机制的“多面手AI”。

 

其技术路径——“GUI知识构建 + 强化学习优化 + 多智能体协同”——为未来智能体发展提供了清晰范式。

 

未来,这一框架可广泛应用于:

  • 自动化测试与运维
  • 残障人士辅助操作
  • 企业流程自动化(RPA升级)
  • 教育、政务等低代码场景

期待开源社区基于GUI-Owl,共同探索更多“让AI替人类点手机、操作电脑”的可能性。

06.直播预告

为了让大家更进一步了解MobileAgent-v3,魔搭社区《AI模型社》栏目邀请到项目核心作者带来技术解读,欢迎预约关注👇

 

🕦直播时间:

9月10日(星期三)20:00

 

📄直播主题:

通义Mobile-Agent: 多模态、多端GUI智能体

 

点击链接, 即可跳转模型链接~

https://modelscope.cn/search?search=GUI-Owl

目录
相关文章
|
2月前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
828 1
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1228 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
26天前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
821 16
构建AI智能体:一、初识AI大模型与API调用
|
1月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
1月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
|
2月前
|
IDE 开发工具 Python
通义灵码+支付 MCP:30 分钟实现创作打赏智能体
本文介绍如何使用通义灵码智能体与 qwen3 和支付 MCP 编写创作打赏智能体,该智能体能够完成日常聊天、诗词创作和请求打赏并生成支付链接功能。
254 1
|
2月前
|
人工智能 数据可视化 API
新手轻松上手:零基础搭建Qwen智能体指南
本文详细介绍了如何从零开始搭建Qwen-Agent智能体,涵盖环境配置、模型部署、工具调用及多Agent协作等关键步骤,帮助无AI经验的开发者快速上手,实现从环境准备到智能体运行的完整流程。
|
2月前
|
人工智能 数据可视化 API
从零开始搭建Qwen智能体:新手也能轻松上手指南
本文详细介绍了如何从零开始搭建Qwen-Agent智能体,涵盖环境配置、模型部署、RAG应用、工具调用、多Agent协作等内容,帮助开发者快速入门并构建自己的AI智能体。

热门文章

最新文章

下一篇