five

HoloAssist|交互式AI助手数据集|混合现实数据集

收藏
arXiv2023-09-29 更新2024-06-21 收录
交互式AI助手
混合现实
下载链接:
https://holoassist.github.io/
下载链接
链接失效反馈
资源简介:
HoloAssist是由微软和苏黎世联邦理工学院合作开发的大规模第一人称人类交互数据集,专注于现实世界中的交互式AI助手。数据集包含350对指导者和执行者的合作完成物理操作任务的视频,总计166小时。数据集通过混合现实头戴设备捕捉,包括七种同步数据流,如RGB视频、深度图像、头部姿态、手部姿态等。HoloAssist旨在通过丰富的行为观察和动作对话注释,为构建能够流畅协作的AI助手提供重要资源,解决现实世界中的任务执行问题。
提供机构:
微软
创建时间:
2023-09-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
HoloAssist数据集的构建是通过让两位参与者协作完成物理操作任务来进行的。任务执行者佩戴混合现实头戴式设备,同时捕捉七种同步的数据流,包括RGB图像、深度图像、头部姿态、3D手部姿态、眼动追踪、音频和IMU数据。任务指导者实时观看执行者的第一人称视频,并通过口头指导来引导他们完成任务。数据集通过增加动作和对话注释,并观察不同参与者的丰富行为,为构建能够与人类在现实世界中流畅协作的AI助手提供了关键见解。
特点
HoloAssist数据集的特点在于其多模态性和交互性。数据集包含了166小时的数据,由350对独特的指导者和执行者对收集。任务涉及20个以物体为中心的操作任务,对象范围从日常生活中的常见电子设备到工厂和特殊实验室中的罕见物体。数据集的丰富性为研究人员提供了宝贵的资源,用于训练和评估能够感知、推理和与人类在物理世界中互动的智能体。
使用方法
使用HoloAssist数据集的方法包括数据预处理、模型训练和评估。首先,研究人员需要将数据集中的多模态数据进行同步和预处理,以适应不同的模型输入。然后,可以使用各种机器学习和深度学习模型对数据进行训练,以实现动作识别、错误检测、干预类型预测和3D手部姿态预测等任务。最后,通过在测试集上评估模型的性能,研究人员可以了解不同模态在不同任务中的作用,并为构建更智能、更适应现实世界的AI助手提供指导。
背景与挑战
背景概述
随着人工智能技术的不断发展,构建能够感知、推理并与人类在现实世界中协作的交互式AI助手成为AI领域的一项重要挑战。HoloAssist数据集正是为了应对这一挑战而创建的。该数据集由微软研究院和苏黎世联邦理工学院的研究人员合作开发,旨在探索并解决智能体与人类共享视角、在物理世界中互动引导人类用户完成任务的问题。HoloAssist数据集包含166小时的由350对独特的指导者和执行者对收集的数据,执行者佩戴AR设备完成任务,而指导者则通过实时观看执行者的第一人称视角视频来提供口头指导。该数据集包含了7种同步的传感器模态,包括RGB、深度、头部姿态、3D手势、眼球追踪、音频和IMU,这些数据有助于理解人类意图、估计世界状态、预测未来行动等。此外,数据集还进行了丰富的手动注释,包括文本摘要、干预类型、错误标注和视频中的动作片段。HoloAssist数据集的推出为构建能够流畅地与人类在现实世界中协作的AI助手提供了重要的资源。
当前挑战
HoloAssist数据集面临的主要挑战包括:1)构建能够准确检测任务执行过程中出现的错误的模型;2)预测指导者在何时以及如何干预任务完成过程;3)预测执行者的3D手势。这些挑战都是交互式AI助手的关键组成部分,需要模型具备准确理解人类行为、推理世界状态和预测未来行动的能力。此外,数据集的构建过程中也遇到了挑战,例如需要设计高效的数据收集工具、进行大规模的注释工作以及确保数据质量。为了应对这些挑战,研究人员开发了一个分布式应用来捕获数据,并采用了严格的质量控制流程来确保注释的准确性。HoloAssist数据集的推出为相关领域的研究提供了重要的资源和方向。
常用场景
经典使用场景
HoloAssist数据集为交互式AI助手在现实世界中的应用提供了丰富的资源。其经典使用场景包括模拟人类互动、引导任务执行、错误检测和干预预测等。该数据集包含了350对表演者和指导者合作完成的166小时的多模态数据,为研究人员提供了理解人类互动模式和开发智能助手的关键信息。
衍生相关工作
HoloAssist数据集衍生了一系列相关的研究工作。例如,研究人员利用该数据集开发了新的基准任务,包括错误检测、干预预测和3D手部姿态预测,这些任务对于构建交互式和基于环境的AI助手至关重要。此外,HoloAssist数据集还促进了多模态学习的研究,帮助研究人员更好地理解人类互动模式和开发更智能的AI助手。
数据集最近研究
最新研究方向
HoloAssist 数据集聚焦于构建能够感知、推理并与人类在现实世界中互动的人工智能助手。该数据集记录了两位参与者合作完成物理操作任务的场景,其中执行者佩戴混合现实头戴设备,而指导者通过实时观看执行者的第一人称视频并口头指导。研究观察了人类助手如何纠正错误、干预任务完成过程以及将指令与环境的联系。HoloAssist 数据集的引入填补了现有数据集在真实世界互动和传感器感知方面的空白,为构建能够流畅与人类协作的 AI 助手提供了重要资源。
相关研究论文
  • 1
    HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World微软 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

dorsar/lung-cancer

该数据集包含用于肺癌检测和分类的CT扫描图像,分为四类:腺癌、大细胞癌、鳞状细胞癌和正常(非癌性)肺组织。数据集总共有315张图像,每类图像的数量分别为腺癌120张、大细胞癌51张、正常54张、鳞状细胞癌90张。该数据集适用于训练和评估用于肺癌检测和分类的机器学习模型,可用于二分类(癌性与非癌性)和多分类(特定癌症类型)。

hugging_face 收录