five

LightChen2333/M3CoT|多模态数据集|思维链数据集

收藏
hugging_face2024-05-28 更新2024-05-25 收录
多模态
思维链
下载链接:
https://hf-mirror.com/datasets/LightChen2333/M3CoT
下载链接
链接失效反馈
资源简介:
M3CoT是一个新颖的基准,旨在解决多模态链式思维(MCoT)中的多领域、多步骤和多模态推理问题。该基准通过引入视觉模态推理、多步推理和多领域推理,推动了多模态链式思维的发展。数据集包含文本和图像模态,要求模型利用这些模态进行逐步推理。M3CoT还进行了广泛的评估,涉及多种MCoT方法和视觉大语言模型(VLLMs),并指出当前VLLMs在M3CoT中的推理能力仍有待提高,与人类表现存在较大差距。

M3CoT是一个新颖的基准,旨在解决多模态链式思维(MCoT)中的多领域、多步骤和多模态推理问题。该基准通过引入视觉模态推理、多步推理和多领域推理,推动了多模态链式思维的发展。数据集包含文本和图像模态,要求模型利用这些模态进行逐步推理。M3CoT还进行了广泛的评估,涉及多种MCoT方法和视觉大语言模型(VLLMs),并指出当前VLLMs在M3CoT中的推理能力仍有待提高,与人类表现存在较大差距。
提供机构:
LightChen2333
原始信息汇总

数据集概述

数据集名称

  • M3CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought

数据集特征

  • id (字符串)
  • category (字符串)
  • image_id (字符串)
  • question (字符串)
  • choices (序列,字符串)
  • context (字符串)
  • answer (字符串)
  • rationale (字符串)
  • split (字符串)
  • image (图像)
  • domain (字符串)
  • topic (字符串)

数据集分割

  • 训练集 (7863个样本,3096366639.498字节)
  • 验证集 (1108个样本,170475029.712字节)
  • 测试集 (2318个样本,507811557.674字节)

数据集大小

  • 下载大小:1578587733字节
  • 数据集大小:3774653226.884字节

许可

  • cc-by-sa-4.0

任务类别

  • image-to-text

语言

  • en

标签

  • multi-modal
  • chain-of-thought

数据集别名

  • M3CoT

大小类别

  • 10K<n<100K

配置

  • config_name: default
    • data_files
      • split: train (路径: data/train-*)
      • split: validation (路径: data/validation-*)
      • split: test (路径: data/test-*)
AI搜集汇总
数据集介绍
main_image_url
构建方式
M3CoT数据集的构建旨在解决现有多模态链式思维(MCoT)基准的不足,特别是视觉模态推理的缺失、单步视觉模态推理以及领域缺失的问题。该数据集通过整合多领域、多步骤和多模态的链式思维任务,提供了丰富的视觉和文本信息,以促进模型在复杂场景中的推理能力。数据集的构建过程包括从多个来源收集和标注数据,确保每个样本包含图像、问题、选项、上下文、答案和推理过程等信息,从而形成一个全面的多模态链式思维基准。
使用方法
M3CoT数据集可以通过HuggingFace的datasets库直接加载,也可以从Google Drive下载并手动加载。加载后,用户可以使用提供的M3CoT类来管理和分析数据。数据集支持多种评估设置,包括零样本、少样本和工具使用等,用户可以根据需要选择合适的模型和提示进行评估。此外,数据集还提供了详细的文件结构和评估脚本,方便用户进行实验和结果分析。通过这些工具和资源,用户可以全面评估和提升模型在多模态链式思维任务中的表现。
背景与挑战
背景概述
M3CoT数据集由LightChen2333团队于2024年创建,旨在解决多模态链式思维(Multi-modal Chain-of-Thought, MCoT)领域的关键问题。该数据集由Qiguang Chen、Libo Qin等主要研究人员开发,并由ACL2024会议接受。M3CoT数据集的核心研究问题包括视觉模态推理的缺失、单步视觉模态推理的局限以及领域缺失,这些问题阻碍了MCoT的发展。通过引入多领域、多步骤、多模态的链式思维,M3CoT数据集为相关领域的研究提供了新的基准,推动了视觉大语言模型(VLLMs)的评估和发展。
当前挑战
M3CoT数据集在构建过程中面临多项挑战。首先,视觉模态推理的缺失限制了模型在多模态环境下的表现。其次,单步视觉模态推理无法满足复杂推理任务的需求。此外,领域缺失问题使得模型难以在不同领域间进行有效迁移。这些挑战不仅影响了数据集的构建,也限制了其在实际应用中的效果。尽管当前的VLLMs在之前的MCoT基准上表现优异,但在M3CoT上的推理能力仍与人类表现存在显著差距,这表明多模态链式思维的研究仍需进一步深入。
常用场景
经典使用场景
在多模态推理领域,M3CoT数据集以其独特的多领域、多步骤、多模态链式思维(Chain-of-Thought)特性,成为研究者们探索视觉与文本结合推理的经典工具。该数据集通过提供丰富的图像与文本对,支持模型在不同领域中进行逐步推理,从而评估和提升模型的多模态理解与推理能力。
解决学术问题
M3CoT数据集解决了当前多模态链式思维研究中的几个关键问题,包括视觉模态推理的缺失、单步视觉模态推理的局限以及领域多样性的不足。通过引入多领域、多步骤、多模态的链式思维任务,M3CoT为研究者提供了一个全面的评估平台,推动了多模态推理技术的发展,填补了现有研究中的空白。
实际应用
在实际应用中,M3CoT数据集可广泛用于开发和测试多模态智能系统,如智能客服、教育辅助工具和医疗诊断系统。这些系统需要结合图像和文本信息进行复杂推理,以提供更准确和智能的服务。M3CoT的引入使得这些系统能够在更接近真实世界的场景中进行训练和验证,从而提升其实用性和可靠性。
数据集最近研究
最新研究方向
在多模态推理领域,M3CoT数据集的最新研究方向主要集中在多领域、多步骤和多模态的链式思维推理上。该数据集通过整合文本和视觉信息,推动了模型在复杂场景下的逐步推理能力。前沿研究不仅关注于提升模型的视觉推理能力,还探索了在不同领域和主题下的多步骤推理策略。此外,M3CoT的发布为评估视觉大语言模型(VLLMs)在多模态链式思维任务中的表现提供了新的基准,揭示了现有模型与人类表现之间的显著差距,从而激发了进一步的研究和模型优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录