FedGUI：跨异构平台、设备和操作系统对联合GUI代理进行基准测试-酒店常州论坛

摘要

使用传统集中式方法训练 GUI 智能体面临高昂成本和可扩展性方面的巨大挑战。联邦学习提供了一种有前景的解决方案，但由于缺乏能够捕捉真实世界跨平台异质性的基准，其潜力受到制约。

为弥补这一空白，我们提出 FedGUI——首个用于在移动、网页和桌面平台上开发与评估联邦 GUI 智能体的综合性基准。

FedGUI 提供了一套包含六个精心整理的数据集，用于系统研究四种关键的异质性类型：跨平台、跨设备、跨操作系统和跨数据源。

大量实验揭示了若干关键发现：首先，跨平台协作能够提升性能，将先前仅限移动设备的联邦学习扩展到了多样化的 GUI 环境；其次，我们证明了不同异质性维度的存在，并识别出平台和操作系统是最具影响力的因素。

FedGUI 为社区构建更可扩展、更保护隐私的、面向真实世界部署的 GUI 智能体提供了重要基础。代码和数据已公开获取。

引言

近期视觉语言模型的进展使得 GUI 智能体得以涌现，这类智能体能够感知图形用户界面并通过顺序交互执行用户指令。传统上，GUI 智能体的方法主要依赖集中式数据收集和人工标注。尽管有效，但这种范式存在数据收集成本高、可扩展性有限的问题。与此同时，GUI 设备的广泛、频繁使用天然产生了丰富的监督信号，这些信号可作为训练 GUI 智能体的低成本数据源。然而，这些真实世界的大规模数据尚未得到充分利用，因为用户隐私问题使其无法公开共享。这促使我们采用一种分布式学习范式，每个客户端在本地数据上训练，无需直接传输数据。

初期研究已通过联邦学习探索了这一方向，以实现保护隐私的协同训练。FedMABench 是首个专为联邦移动智能体设计的基准，但它局限于安卓用户之间的协作，忽略了引入网页和桌面环境用户以进一步提升性能的巨大潜力。此外，FedMABench 也未考虑设备、操作系统和数据源之间更广泛的异质性形式。

这些局限引出了两个基本挑战：其一，如何实现跨平台的 GUI 智能体训练协作，以及来自不同平台的扩展协作是否能提升性能？其二，如何定量刻画和衡量跨越不同平台、操作系统、设备和数据源的真实世界异质性？

为应对上述挑战，我们提出 FedGUI，一个面向跨平台、跨设备的分布式 GUI 智能体的综合性基准。FedGUI 具有三个关键特征：多样性——FedGUI 覆盖了广泛的真实世界 GUI 环境，包括 900 余个移动应用、四十余个桌面应用和二百余个网站。它同时支持多步骤任务和跨应用任务，能够评估不同复杂度划分下的智能体性能。全面性——FedGUI 集成了七种代表性的联邦学习算法，并支持二十余种基础模型，包括最先进的开源视觉语言模型和专有模型。此外，FedGUI 提供了一套全面的评估指标，同时衡量任务性能和系统效率。异质性——FedGUI 建模了四种典型的真实世界异质性场景，模拟用户在不同平台、设备和操作系统上协作的复杂性，从而反映真实的部署情况。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

测试管理者的三重修炼：从带人、管事到呈现价值

别再手动拖模型了！Babylon.js Scene Loader 动态注册与按需加载实战（附NPM最佳配置）

系统权限管理太分散？零衍来解决！自定义权限管理模式，企业安全与效率双升级！

需要专业的网站建设服务？