首页 >> 产业 >> 产业 >> 正文
中国移动九天GUI Agent模型登顶评测国际榜单榜首
  • 工联网
  • 2025年7月24日 18:27

工联网消息(IItime) 近日,中国移动九天人工智能研究院(下称“九天研究院”)研发的端侧自主智能体模型JT-GUIAgent-V2,登顶谷歌AndroidWorld自主智能体动态基准评测国际榜单榜首。

九天研究院研发的端侧自主智能体模型JT-GUIAgent-V2,在谷歌AndroidWorld自主智能体动态基准测试国际榜单中,任务成功率(Success Rate pass@1)达到67.2%,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驱动的多个GUI Agent框架和模型,位列榜单Top1!这标志着中国移动在端侧复杂智能体系统的人机交互技术方面达到了国际领先水平。

GUI Agent(图形用户界面智能体)是一种前沿的人工智能代理系统,它融合计算机视觉、自然语言处理和强化学习等多种AI核心技术,能够自动推理并执行UI交互,像人类用户一样,通过图形用户界面感知操作环境,模拟人类完成跨平台任务,理解并执行在图形界面上的各种操作指令,如点击、输入、拖拽、读取界面信息等,实现用户要求的复杂任务自动化处理。这种技术突破有效解决了传统人工操作的效率瓶颈。简单来说,GUI Agent 就像端侧的“自动驾驶系统”,能够代替用户与各种软件应用进行自动交互,显著提高了工作效率和用户操作体验。

然而,GUI Agent在实际应用中面临三大核心技术挑战:一是如何准确感知理解动态多变的多模型UI界面,二是如何对复杂长链条任务做到高效推理,三是在任务执行过程中如何做到自动纠偏处理。这些技术难题的解决不仅依赖计算机视觉、自然语言等单一技术领域的突破,而且需要多模态融合与持续学习的协同创新,对现有AI技术体系提出了全方位的严苛要求。为此,JT-GUIAgent-V2在架构设计和智能规划上实现了全面升级。相比1个月前发布的V1版本,新版本在自然语言指令理解、UI元素多模态感知、目标任务识别推理以及自动化执行等方面实现了全方位能力跃迁,真正实现了“任务自动观察-自主思考-自动执行”的全链路闭环,其核心技术优势体现在以下两大创新:第一,自主构建两阶段的协同框架。创新设计全局规划智能体(Planner)和感知定位智能体(Grounder)两阶段协同框架。Planner专注高阶策略规划,显著提升复杂任务推理能力和环境适应性;Grounder则确保界面元素的精准识别与操作执行,二者协同形成完整决策闭环。第二,创新性地引入经验驱动的智能规划方法,通过实时融合用户指令解析与应用操作经验,实现系统的动态决策优化,带来三个方面的性能和效果显著提升:一是规划精准化 :引入经验检索机制,实时匹配用户意图与应用特征,避免规划冗余或陷入错误循环;二是错误最小化:有效减少模型“认知盲区”,解决不常见图标识别、隐藏手势调用等技术难题;三是任务通用化:通过可扩展的应用经验积累,提升模型在新任务上的执行准确率。

AndroidWorld是由Google研究人员联合发布的一个功能完备的Android环境,为自主智能体提供了一个具有高专业性和权威性的基准测试平台。其特点在于:一是 环境真实,构建了包含20款主流Android应用程序的完整功能环境。二是任务多样, 精心设计了涵盖日程管理、信息交流、系统设置等日常活动的116项任务,高度模拟真实用户场景。三是评测严谨, 每项任务均配备标准化初始化、严格的成功判定机制及清理逻辑,确保评测结果的高可重复性与可比性。四是能力全面, 重点考察智能体对自然语言指令的理解深度、与动态UI的精准交互能力、复杂任务的高效完成度以及应对任务参数变化的鲁棒性。

凭借上述技术优势,GUI Agent 的强大功能使其在众多领域拥有广阔的应用前景。例如,在生活服务场景中,用户提出语音和文本交互指令,GUI Agent能够在用户授权许可应用(如携程、大众点评、12306等)中实现跨应用操作,为用户在多个APP界面的复杂操作提供了全新解决方案;在办公场景中,用户只需通过语音或文字向 GUI Agent 下达指令,如 “打开文档并将其中的关键数据整理成表格发送给团队成员”,它便能自动完成从打开办公软件、定位文档、提取数据到制作表格并发送邮件的一系列操作,无需用户手动逐一操作;在财务应用中,GUI Agent 能够自动读取和整理各类财务数据,生成财务报表,降低人工操作带来的错误风险和时间成本;在软件开发过程中,GUI Agent 可用于自动化软件测试,模拟各种用户操作,快速检测软件的稳定性和兼容性;在工业生产中,GUI Agent 可用于自动化控制系统,根据生产指令自动操作设备、监控生产流程,实现生产过程的智能化和自动化,提高生产效率和产品质量。

GUI Agent作为大模型落地的关键使能技术,融合了意图理解、环境感知、自主决策与交互执行等综合智能能力,未来在智能终端、智能网联汽车、智能机器人等信息消费“新三样”领域具有广阔的应用前景。

九天GUI Agent本次登顶AndroidWorld榜单,充分体现了九天研究院在自主智能体方面的技术实力,更代表了中国移动在智能时代对用户服务需求和业务体验方面的深刻洞察和主动创新。未来,中国移动九天人工智能研究院将持续探索更先进的GUI Agent架构与算法,重塑人机交互协作模式,为广大用户带来智能化、便捷化、个性化的全新信息服务新体验。

编 辑:甄清岚
分享到: