FedGUI:跨异构平台、设备和操作系统对联合GUI代理进行基准测试
2026/4/18 6:44:28 网站建设 项目流程

摘要

使用传统集中式方法训练 GUI 智能体面临高昂成本和可扩展性方面的巨大挑战。联邦学习提供了一种有前景的解决方案,但由于缺乏能够捕捉真实世界跨平台异质性的基准,其潜力受到制约。

为弥补这一空白,我们提出 FedGUI——首个用于在移动、网页和桌面平台上开发与评估联邦 GUI 智能体的综合性基准。

FedGUI 提供了一套包含六个精心整理的数据集,用于系统研究四种关键的异质性类型:跨平台、跨设备、跨操作系统和跨数据源。

大量实验揭示了若干关键发现:首先,跨平台协作能够提升性能,将先前仅限移动设备的联邦学习扩展到了多样化的 GUI 环境;其次,我们证明了不同异质性维度的存在,并识别出平台和操作系统是最具影响力的因素。

FedGUI 为社区构建更可扩展、更保护隐私的、面向真实世界部署的 GUI 智能体提供了重要基础。代码和数据已公开获取。

引言

近期视觉语言模型的进展使得 GUI 智能体得以涌现,这类智能体能够感知图形用户界面并通过顺序交互执行用户指令。传统上,GUI 智能体的方法主要依赖集中式数据收集和人工标注。尽管有效,但这种范式存在数据收集成本高、可扩展性有限的问题。与此同时,GUI 设备的广泛、频繁使用天然产生了丰富的监督信号,这些信号可作为训练 GUI 智能体的低成本数据源。然而,这些真实世界的大规模数据尚未得到充分利用,因为用户隐私问题使其无法公开共享。这促使我们采用一种分布式学习范式,每个客户端在本地数据上训练,无需直接传输数据。

初期研究已通过联邦学习探索了这一方向,以实现保护隐私的协同训练。FedMABench 是首个专为联邦移动智能体设计的基准,但它局限于安卓用户之间的协作,忽略了引入网页和桌面环境用户以进一步提升性能的巨大潜力。此外,FedMABench 也未考虑设备、操作系统和数据源之间更广泛的异质性形式。

这些局限引出了两个基本挑战:其一,如何实现跨平台的 GUI 智能体训练协作,以及来自不同平台的扩展协作是否能提升性能?其二,如何定量刻画和衡量跨越不同平台、操作系统、设备和数据源的真实世界异质性?

为应对上述挑战,我们提出 FedGUI,一个面向跨平台、跨设备的分布式 GUI 智能体的综合性基准。FedGUI 具有三个关键特征:多样性——FedGUI 覆盖了广泛的真实世界 GUI 环境,包括 900 余个移动应用、四十余个桌面应用和二百余个网站。它同时支持多步骤任务和跨应用任务,能够评估不同复杂度划分下的智能体性能。全面性——FedGUI 集成了七种代表性的联邦学习算法,并支持二十余种基础模型,包括最先进的开源视觉语言模型和专有模型。此外,FedGUI 提供了一套全面的评估指标,同时衡量任务性能和系统效率。异质性——FedGUI 建模了四种典型的真实世界异质性场景,模拟用户在不同平台、设备和操作系统上协作的复杂性,从而反映真实的部署情况。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询