NAVCON|视觉语言导航数据集|机器人导航数据集

arXiv2024-12-18 更新2024-12-19 收录

视觉语言导航

机器人导航

30,815条

下载链接：

https://github.com/jacobkrantz/VLN-CE

下载链接

链接失效反馈

资源简介：

NAVCON是一个大规模的视觉语言导航（VLN）语料库，由宾夕法尼亚大学创建，基于R2R和RxR数据集构建。该数据集包含30,815条指令，涵盖236,316个概念注释，并与2.7百万张对齐的图像配对，展示了代理在执行指令时的视觉输入。数据集的创建过程结合了认知启发和语言基础，通过自动生成银标注释，并进行了人工评估以确保质量。NAVCON主要应用于语言引导的导航任务，旨在提高模型在理解和执行自然语言指令方面的能力，特别是在跨模态对齐和概念识别方面。

提供机构：

宾夕法尼亚大学

开放时间：

2024-12-17

创建时间：

2024-12-17

原始信息汇总

Vision-and-Language Navigation in Continuous Environments (VLN-CE)

数据集概述

VLN-CE 是一个基于指令的导航任务，包含众包指令、真实环境以及不受限制的代理导航。该数据集支持 Room-to-Room (R2R) 和 Room-Across-Room (RxR) 数据集。

场景数据

Matterport3D (MP3D)：使用 Matterport3D 场景重建数据。场景数据可以通过 Matterport3D 的官方下载脚本获取，并解压到 data/scene_datasets/mp3d/{scene}/{scene}.glb 路径下，共有 90 个场景。

任务数据

Room-to-Room (R2R)

R2R_VLNCE_v1-3：R2R_VLNCE_v1-3 是 Room-to-Room (R2R) 数据集的移植版本，适用于 Matterport3DSimulator (MP3D-Sim)。数据集包含 R2R_VLNCE_v1-3 和 R2R_VLNCE_v1-3_preprocessed 两个版本。
- R2R_VLNCE_v1-3.zip：3 MB，解压路径为 data/datasets/R2R_VLNCE_v1-3。
- R2R_VLNCE_v1-3_preprocessed.zip：250 MB，解压路径为 data/datasets/R2R_VLNCE_v1-3_preprocessed。

Room-Across-Room (RxR)

RxR_VLNCE_v0.zip：RxR 数据集包含多语言指令（英语、印地语、泰卢固语），路径多样，适用于连续环境。数据集包含 train、val_seen、val_unseen 和 test_challenge 四个分割，结构如下： graphql data/datasets ├─ RxR_VLNCE_v0 | ├─ train | | ├─ train_guide.json.gz | | ├─ train_guide_gt.json.gz | | ├─ train_follower.json.gz | | ├─ train_follower_gt.json.gz | ├─ val_seen | | ├─ val_seen_guide.json.gz | | ├─ val_seen_guide_gt.json.gz | | ├─ val_seen_follower.json.gz | | ├─ val_seen_follower_gt.json.gz | ├─ val_unseen | | ├─ val_unseen_guide.json.gz | | ├─ val_unseen_guide_gt.json.gz | | ├─ val_unseen_follower.json.gz | | ├─ val_unseen_follower_gt.json.gz | ├─ test_challenge | | ├─ test_challenge_guide.json.gz | ├─ text_features | | ├─ ...

预训练模型权重

ResNet 预训练权重：用于深度观察的 ResNet 预训练模型权重可以从这里下载，解压到 data/ddppo-models/{model}.pth。

数据集使用

安装依赖

Python 3.6：建议使用 miniconda 或 anaconda 创建环境。
Habitat-Sim 0.1.7：可以通过 conda 安装或从源码构建。
Habitat-Lab 0.1.7：从源码安装。

数据集下载

Matterport3D：使用 download_mp.py 脚本下载场景数据。
R2R_VLNCE_v1-3：通过 gdown 命令下载。
RxR_VLNCE_v0.zip：直接下载。

数据集结构

R2R_VLNCE_v1-3：包含训练、验证和测试集。
RxR_VLNCE_v0：包含多语言指令和轨迹数据。

引用

如果使用 VLN-CE 数据集，请引用以下论文：

tex @inproceedings{krantz_vlnce_2020, title={Beyond the Nav-Graph: Vision and Language Navigation in Continuous Environments}, author={Jacob Krantz and Erik Wijmans and Arjun Majundar and Dhruv Batra and Stefan Lee}, booktitle={European Conference on Computer Vision (ECCV)}, year={2020} }

如果使用 RxR-Habitat 数据，请额外引用以下论文：

tex @inproceedings{ku2020room, title={Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding}, author={Ku, Alexander and Anderson, Peter and Patel, Roma and Ie, Eugene and Baldridge, Jason}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={4392--4412}, year={2020} }

AI搜集汇总

数据集介绍

构建方式

NAVCON数据集的构建基于两个广泛使用的视觉语言导航（VLN）数据集——R2R和RxR。研究团队通过引入四个核心的认知驱动和语言基础的导航概念，即'situate yourself'、'change direction'、'change region'和'move along a path'，并设计了一种算法来生成大规模的银标注。这些标注重在捕捉自然语言指令中的这些概念，并与代理执行指令时的视频片段配对。数据集包含了约30,000条指令的236,316个概念标注，以及2.7百万张与指令对齐的图像。

特点

NAVCON数据集的显著特点在于其大规模的银标注和视频片段配对，这些标注重在捕捉导航指令中的高层次概念。数据集不仅提供了丰富的语言标注，还通过视频片段展示了代理在执行指令时的视觉信息，从而为跨模态学习提供了坚实的基础。此外，NAVCON通过人类评估和模型训练验证了其标注的可靠性和实用性，尤其是在少样本学习任务中表现出色。

使用方法

NAVCON数据集可用于训练和评估视觉语言导航模型，尤其是那些需要理解高层次导航概念的模型。研究者可以通过该数据集训练模型，使其能够识别和预测未见过的指令中的导航概念，并将其与视觉输入对齐。此外，NAVCON还支持少样本学习任务，研究者可以利用GPT-4等大型语言模型进行少样本学习，以验证模型在有限数据下的表现。

背景与挑战

背景概述

NAVCON数据集是由宾夕法尼亚大学、微软和NASA的研究人员共同开发的一个大规模视觉语言导航（VLN）语料库，构建于两个流行的VLN数据集（R2R和RxR）之上。该数据集的核心研究问题是通过引入四个基于认知功能和语言基础的导航概念，生成大规模的银标注，以帮助机器人或其他代理在复杂环境中根据语言指令进行导航。NAVCON包含了约30,000条指令的236,316个概念标注，并与270万张图像进行了对齐，展示了代理在执行指令时的视觉输入。该数据集的发布旨在推动VLN任务的研究，特别是在跨模态对齐和透明模型训练方面，为相关领域提供了重要的资源。

当前挑战

NAVCON数据集在构建过程中面临多个挑战。首先，视觉语言导航任务的核心挑战在于如何将自然语言指令与视觉输入进行有效对齐，尤其是在复杂和不可预测的环境中。其次，构建大规模高质量的标注数据集需要大量的人力和时间，而NAVCON通过引入自动标注算法，减少了人工标注的工作量，但仍需通过人工评估来确保标注的准确性。此外，视频帧与语言指令的对齐也是一个技术难点，尤其是在时间戳不准确的情况下，如何确保视频帧与导航概念的精确匹配是一个重要的挑战。最后，如何在有限的资源下实现高效的实时处理和学习，也是VLN模型面临的关键问题。

常用场景

经典使用场景

NAVCON数据集的经典使用场景主要集中在视觉与语言导航（VLN）任务中，旨在通过自然语言指令指导智能体在复杂环境中进行导航。该数据集通过结合R2R和RxR数据集，提供了丰富的导航指令与视频片段的配对，帮助模型学习如何将语言指令与视觉输入进行有效对齐，从而实现高效的导航决策。

衍生相关工作

基于NAVCON数据集，研究者们开发了多种导航概念识别模型，并探索了少样本学习在大规模标注数据上的应用。例如，GPT-4o在少样本学习任务中表现出色，展示了其在导航概念识别中的潜力。此外，NAVCON还启发了其他研究者开发更高效的跨模态对齐算法，推动了视觉与语言导航领域的进一步发展。

数据集最近研究