MUIRBENCH|问答数据集|视觉问答数据集

huggingface2024-06-18 更新2024-12-12 收录

问答

视觉问答

下载链接：

https://huggingface.co/datasets/MUIRBENCH/MUIRBENCH

下载链接

链接失效反馈

资源简介：

MuirBench是一个包含多种任务类别的数据集，主要包括问答、视觉问答和多选题。数据集包含的样本数量在1000到10000之间，适用于进行问答和视觉问答任务的研究和测试。数据集的特征包括索引、任务类型、图像关系、图像类型、问题、选项、答案以及相关的图像列表。

创建时间：

2024-06-06

原始信息汇总

MuirBench 数据集概述

基本信息

语言: 英语
许可: CC-BY-4.0
数据规模: 1K<n<10K
任务类别:
- 问答
- 视觉问答
- 多选题
数据集名称: MuirBench

数据集详情

特征:
- idx: 字符串
- task: 字符串
- image_relation: 字符串
- image_type: 字符串
- question: 字符串
- options: 字符串序列
- answer: 字符串
- image_list: 图像序列
- counterpart_idx: 字符串
分割:
- test: 2600个样本，2280382684.8字节
下载大小: 429440985字节
数据集大小: 2280382684.8字节

配置

配置名称: default
- 数据文件:
  - split: test
  - path: data/test-*

数据集介绍

包含图像数量: 11,264张
包含问题数量: 2,600个多选题
评估任务: 12种多图像理解任务
图像关系: 10种多样化的多图像关系
不可回答实例: 通过三种主要方式创建不可回答实例，以提供模型鲁棒性评估

评估结果

评估模型: 20个近期多模态大型语言模型（LLMs）
最佳模型表现: GPT-4o和Gemini Pro分别达到68.0%和49.3%的准确率
开源模型表现: 基于单图像训练的多模态LLMs在多图像问题上准确率低于33.3%

AI搜集汇总

数据集介绍

构建方式

MuirBench数据集的构建基于多图像理解任务，涵盖了11,264张图像和2,600道多项选择题。该数据集通过12种多图像理解任务进行评估，包括地理理解、图表理解和视觉检索等。为了增强模型的鲁棒性，数据集还引入了不可回答的实例变体，通过三种主要方式生成这些变体，确保模型在多图像场景下的表现得到全面测试。

特点

MuirBench数据集的特点在于其多样性和复杂性。它不仅包含10种不同的多图像关系，如叙事性和互补性，还通过不可回答的实例变体提供了对模型的严格评估。数据集的多图像任务设计使得模型需要超越单一图像的理解能力，从而在更广泛的应用场景中表现出色。此外，数据集的图像和问题均来源于已建立的图像数据集，确保了数据的可靠性和多样性。

使用方法

MuirBench数据集的使用方法主要包括下载数据集文件并加载到支持多模态任务的模型中进行评估。用户可以通过HuggingFace平台获取数据集的测试集，路径为`data/test-*`。数据集支持多种任务类型，如问答、视觉问答和多项选择，用户可以根据需要选择相应的任务进行模型训练和测试。此外，数据集的评估结果可以通过GitHub上的评估工具进行复现，帮助用户更好地理解模型在多图像理解任务中的表现。

背景与挑战

背景概述

MuirBench数据集由南加州大学的Fei Wang和宾夕法尼亚大学的Xingyu Fu等研究人员于2024年提出，旨在为多图像理解任务提供一个全面的基准测试。该数据集包含11,264张图像和2,600道多项选择题，涵盖了12种多图像理解能力，如地理理解、图表理解和视觉检索等。与以往仅关注单图像问题的基准不同，MuirBench通过引入10种多样化的多图像关系（如叙事性和互补性等），进一步扩展了多模态模型的应用场景。该数据集的发布为多模态大语言模型（LLMs）的研究提供了新的挑战和机遇，推动了相关领域的技术进步。

当前挑战

MuirBench数据集在解决多图像理解问题时面临多重挑战。首先，现有的多模态大语言模型在处理多图像问题时表现不佳，即使是表现最佳的模型如GPT-4o和Gemini Pro，其准确率也仅为68.0%和49.3%。其次，开源的多模态模型在单图像训练数据上难以泛化到多图像问题，准确率普遍低于33.3%。此外，数据集的构建过程中，研究人员需要处理复杂的多图像关系，并生成不可回答的实例以增强模型的鲁棒性。这些挑战不仅揭示了当前模型的局限性，也为未来多模态模型的发展指明了方向。

常用场景

经典使用场景

MuirBench数据集主要用于评估多图像理解任务中的模型性能，特别是在多图像关系、地理理解、图表理解等复杂场景下的表现。通过提供2600个多项选择题和11264张图像，该数据集能够全面测试模型在多图像环境下的推理能力。

衍生相关工作

MuirBench的发布催生了一系列相关研究工作，特别是在多模态大语言模型的改进方面。许多研究团队基于该数据集开发了新的模型架构和训练方法，以提升模型在多图像理解任务中的表现。此外，该数据集还促进了多模态模型在跨领域应用中的探索。

数据集最近研究

最新研究方向

近年来，多模态大语言模型（LLMs）在单图像理解任务中取得了显著进展，但在多图像理解领域仍面临巨大挑战。MuirBench作为一个包含11,264张图像和2,600道多选题的基准测试，专注于评估模型在12种多图像理解任务中的表现，如地理理解、图表理解和视觉检索等。该数据集通过引入不可回答实例变体，进一步增强了评估的鲁棒性。研究表明，即使是表现最佳的模型如GPT-4o和Gemini Pro，在MuirBench上的准确率也仅为68.0%和49.3%，而开源的多模态LLMs在单图像训练下的泛化能力较差，准确率普遍低于33.3%。这些结果凸显了MuirBench在推动多模态LLMs超越单图像理解、探索多图像关系理解方面的重要作用，为未来模型改进提供了潜在的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。