five

MARPLE|多模态推理数据集|智能体交互数据集

收藏
arXiv2024-10-03 更新2024-10-05 收录
多模态推理
智能体交互
下载链接:
https://marple-benchmark.github.io/
下载链接
链接失效反馈
资源简介:
MARPLE是由斯坦福大学开发的一个用于评估长时推理能力的基准数据集。该数据集通过模拟家庭环境中的智能体交互,支持视觉、语言和听觉等多模态证据,旨在测试模型在日常家庭场景中解决“whodunit”类型问题的能力。数据集内容包括多模态观察数据和智能体行为轨迹,通过Mini-BEHAVIOR模拟器生成。创建过程涉及多层次的规划和模拟,以生成多样化的环境和智能体行为。MARPLE主要应用于机器学习和认知科学领域,旨在解决复杂场景中的长时多模态推理问题。
提供机构:
斯坦福大学
创建时间:
2024-10-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
MARPLE数据集通过模拟家庭环境中的多模态证据,构建了一个用于评估长时推理能力的基准。该数据集基于Mini-BEHAVIOR模拟器,扩展了其功能以支持自主代理、层次规划器以及视觉、语言和听觉刺激的生成。通过模拟代理与环境的交互,生成多模态证据(视觉、语言和音频),MARPLE能够生成丰富的代理行为和多样化的环境状态。
特点
MARPLE数据集的特点在于其长时推理任务的设计,这些任务要求模型在复杂的日常场景中进行多模态推理。数据集支持视觉、语言和听觉刺激,并提供了多样化的训练和推理数据。此外,MARPLE还定义了评估推理任务的指标,确保了数据集在机器学习和认知科学研究中的实用性。
使用方法
MARPLE数据集适用于开发和评估事件重建和多模态推理的机器学习模型。研究者可以使用该数据集训练模型,以预测代理的目标或行为,并推断环境状态的变化。数据集提供了预先收集的数据和评估指标,便于研究人员快速上手并进行系统性的实验。此外,MARPLE还支持人类实验,为建立性能基准提供了参考。
背景与挑战
背景概述
MARPLE数据集由斯坦福大学的研究人员于2024年创建,旨在评估长时推理能力。该数据集的核心研究问题是如何基于多模态证据(视觉、语言和听觉)进行长时推理,以重建过去的事件。MARPLE通过模拟家庭环境中的代理交互,支持视觉、语言和听觉刺激,并生成程序化的环境和代理行为。其灵感来源于经典的“whodunit”故事,要求AI模型和人类参与者根据实际发生的事件逐步回放,推断出哪个代理导致了环境的变化。该数据集的引入填补了现有基准在复杂日常场景中长时多模态推理评估的空白,对人工智能和认知科学领域具有重要影响。
当前挑战
MARPLE数据集面临的挑战主要集中在两个方面。首先,解决长时推理问题需要模型具备跨越长时间跨度的推理能力,这对当前的AI模型提出了严峻的挑战。其次,在构建过程中,生成多样化和复杂的环境状态以及代理行为,确保数据集的多样性和代表性,是一个技术难题。此外,如何有效地整合和利用多模态证据,以提高推理的准确性和鲁棒性,也是该数据集需要克服的重要挑战。
常用场景
经典使用场景
MARPLE数据集的经典使用场景在于评估模型在长时间跨度推理中的能力,特别是在多模态证据下的‘whodunit’类型问题。通过模拟家庭环境中的代理交互,数据集支持视觉、语言和听觉刺激,并生成程序化的环境和代理行为。研究者可以利用该数据集测试AI模型在逐步回放实际发生事件的基础上,推断出哪个代理导致了环境变化的能力。
衍生相关工作
MARPLE数据集的引入激发了大量相关研究工作,特别是在多模态推理和长时间跨度事件重建领域。例如,有研究者基于MARPLE开发了新的推理算法,结合视觉、语言和听觉信息以提高推理准确性。此外,还有工作探讨了如何利用MARPLE数据集来训练和评估大型语言模型在复杂推理任务中的表现,以及如何通过增强模型的上下文理解能力来改进其推理性能。
数据集最近研究
最新研究方向
在人工智能领域,MARPLE数据集的最新研究方向主要集中在长时推理能力的评估上。该数据集通过模拟家庭环境中的多模态证据,如视觉、语言和听觉线索,来测试模型在复杂场景中进行长时推理的能力。研究者们通过对比人类参与者和传统蒙特卡洛模拟方法以及GPT-4的表现,发现人类在长时多模态推理任务中显著优于现有模型。这一发现不仅揭示了当前模型在理解和处理环境变化方面的不足,也为开发更强大、更接近人类推理能力的人工智能模型提供了新的挑战和方向。
相关研究论文
  • 1
    MARPLE: A Benchmark for Long-Horizon Inference斯坦福大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录