Android Instruct|Android自主代理数据集|移动操作系统数据集

arXiv2024-11-04 更新2024-11-02 收录

Android自主代理

移动操作系统

94,300条

下载链接：

https://github.com/THUDM/Android-Lab

下载链接

链接失效反馈

资源简介：

Android Instruct数据集由清华大学开发，旨在为Android自主代理的训练和评估提供支持。该数据集包含94300条操作记录，涵盖了138个任务，涉及9个不同的应用程序。数据集通过在线标注工具收集，确保了操作记录的多样性和准确性。创建过程中，数据集结合了XML和SoM模式，支持文本和多模态模型的训练。该数据集主要应用于提升Android自主代理的操作准确性和效率，旨在解决现有基准测试中缺乏系统性和多样性的问题。

提供机构：

清华大学

开放时间：

2024-10-31

创建时间：

2024-10-31

原始信息汇总

AndroidLab: 训练和系统化基准测试Android自主代理

数据集概述

名称: AndroidLab
描述: AndroidLab是一个系统化的Android代理框架，包含操作环境和可复现的基准测试。基准测试包括预定义的Android虚拟设备和基于这些设备的138个任务，涵盖九个应用程序。

基准测试组件

应用列表:
- Bluecoins: 个人财务管理应用，用于跟踪支出和收入。
- Calendar: 日历应用，帮助组织日程和设置提醒。
- Cantook: 电子书阅读器，用于存储、管理和阅读电子书。
- Clock: 时钟应用，用于显示时间、设置闹钟和使用秒表。
- Contacts: 联系人管理应用，用于存储和组织联系信息。
- Maps.me: 离线地图应用，用于导航和探索地点。
- PiMusic: 音乐播放器应用，用于组织和播放本地存储的音乐文件。
- Settings: 设置应用，用于配置设备设置和偏好。
- Zoom: 视频会议应用，用于主持和加入在线会议。

快速开始

环境设置:
- Mac (arm64): 参考这里设置环境。
- Linux (x86_64): 参考这里设置环境。
自动评估管道:
- 运行评估: bash python eval.py -n test_name -c your path to config.yaml
- 并行测试: bash python eval.py -n test_name -c your path to config.yaml -p 3
- 生成评估结果: bash python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel ./logs/evaluation/test_name.xlsx --judge_model gpt-4o-2024-05-13

引用

@misc{xu2024androidlabtrainingsystematicbenchmarking, title={AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents}, author={Yifan Xu and Xiao Liu and Xueqiao Sun and Siyi Cheng and Hao Yu and Hanyu Lai and Shudan Zhang and Dan Zhang and Jie Tang and Yuxiao Dong}, year={2024}, eprint={2410.24024}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.24024}, }

AI搜集汇总

数据集介绍

构建方式

Android Instruct数据集的构建基于ANDROIDLAB框架，该框架包含一个标准操作环境和可复现的基准测试。数据集通过在线标注工具收集，共收集了10.5k条轨迹和94.3k个步骤，其中6208个步骤来自ANDROIDLAB基准测试中包含的应用程序。数据集包括任务、手机屏幕状态、XML信息和操作，用于微调六个文本和多模态模型。

使用方法

Android Instruct数据集主要用于微调大型语言模型（LLMs）和多模态模型（LMMs），以提升其在Android设备上的自主操作能力。使用该数据集进行微调后，模型的平均成功率显著提升，从4.59%提高到21.50%（LLMs）和从1.93%提高到13.28%（LMMs）。数据集的详细使用方法包括任务分解、操作记录和交叉验证，确保了训练数据的准确性和完整性。

背景与挑战

背景概述

随着自主代理在现实世界中的交互变得越来越重要，Android代理作为一种新兴的交互方式受到了广泛关注。然而，现有的Android代理训练和评估研究在开源和闭源模型方面缺乏系统性探索。为此，清华大学和北京大学的一组研究人员于2024年提出了ANDROIDLAB框架，这是一个系统的Android代理评估和训练平台。该框架包括一个多模态的操作环境、动作空间和一个可重复的基准测试，支持大型语言模型（LLMs）和多模态模型（LMMs）在同一动作空间中的应用。ANDROIDLAB基准测试包含预定义的Android虚拟设备和138个跨九个应用的任务，通过使用ANDROIDLAB环境，研究人员开发了Android Instruct数据集，并训练了六个开源LLMs和LMMs，显著提高了这些模型的平均成功率。

当前挑战

Android Instruct数据集在构建过程中面临多个挑战。首先，解决领域问题的挑战在于如何有效地训练和评估Android代理，特别是在开源和闭源模型之间进行系统性比较。其次，构建过程中遇到的挑战包括如何确保数据集的多样性和代表性，以及如何处理不同模态（如文本和图像）的整合问题。此外，确保数据集的可重复性和减少外部依赖性也是一大挑战。最后，如何通过数据集的训练提升开源模型的性能，使其接近或超越闭源模型的表现，是当前研究的一个重要方向。

常用场景

经典使用场景

Android Instruct数据集在训练和评估Android自主代理方面展现了其经典应用场景。通过提供丰富的操作环境和多模态模型支持，该数据集使得研究人员能够在统一的行动空间内对大型语言模型（LLMs）和多模态模型（LMMs）进行系统性基准测试。具体而言，数据集包含了138个任务，涵盖了九个不同的应用程序，这些任务通过Android虚拟设备进行预加载，确保了测试的可重复性和外部依赖的消除。

解决学术问题

Android Instruct数据集解决了现有研究在训练和评估Android代理时缺乏系统性探索的问题。通过提供一个包含操作环境和可重复基准的框架，该数据集使得研究人员能够对开源和闭源模型进行公平比较。此外，数据集通过引入逆冗余和合理操作等新指标，提升了任务完成评估的精确性，从而推动了移动代理领域的学术研究进展。

实际应用

在实际应用中，Android Instruct数据集被广泛用于微调开源模型，以提高其在移动操作系统中的自主操作能力。通过使用该数据集，模型在执行复杂任务时的成功率和操作效率显著提升，从而在个人财务管理、日程安排、导航等多个应用场景中展现出实际价值。此外，数据集的开放性也促进了更多实际应用的开发和优化。

数据集最近研究