five

MMMU-Pro|多模态理解数据集|AI模型评估数据集

收藏
arXiv2024-09-04 更新2024-09-07 收录
多模态理解
AI模型评估
下载链接:
https://mmmu-benchmark.github.io/#leaderboard
下载链接
链接失效反馈
资源简介:
MMMU-Pro是由MMMU团队创建的多学科多模态理解与推理基准数据集,包含3460个精心策划的多模态问题,涵盖六个核心学科。数据集通过过滤可由纯文本模型回答的问题、增加候选选项和引入仅视觉输入设置,严格评估模型的多模态理解和推理能力。创建过程中,数据集通过人工验证和多样化的视觉输入设置,确保问题的高质量和挑战性。MMMU-Pro主要应用于评估和提升多模态AI模型的理解和推理能力,旨在解决当前模型在多模态任务中的局限性。
提供机构:
MMMU团队
创建时间:
2024-09-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMMU-Pro数据集的构建过程经过精心设计,以确保其能够严格评估多模态模型的真正理解和推理能力。首先,通过过滤掉那些仅依赖文本信息即可回答的问题,确保了问题的多模态依赖性。其次,候选选项的数量从四个增加到十个,以减少模型通过猜测正确答案的可能性。最后,引入了一种仅依赖视觉输入的设置,其中问题嵌入在图像中,这要求模型同时‘看’和‘读’,从而测试其无缝整合视觉和文本信息的能力。
特点
MMMU-Pro数据集的主要特点在于其对多模态理解能力的严格评估。通过增加候选选项的数量和引入视觉输入设置,该数据集显著提高了对模型多模态推理能力的挑战。实验结果表明,与MMMU基准相比,模型在MMMU-Pro上的表现显著下降,这表明当前最先进的模型在真正的多模态理解和推理方面仍存在局限性。
使用方法
使用MMMU-Pro数据集时,研究人员和开发者可以通过提供嵌入在图像中的问题来测试其模型的多模态理解能力。数据集包括标准设置和视觉输入设置,分别测试模型在不同条件下的表现。通过对比模型在不同设置下的性能,可以更全面地评估其在实际应用中的多模态处理能力,并为未来的研究提供有价值的方向。
背景与挑战
背景概述
MMMU-Pro数据集是Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU)基准的增强版本,由Xiang Yue等研究人员于2024年提出。该数据集旨在通过严格的评估流程,更准确地评估多模态模型在理解和推理方面的真实能力。MMMU-Pro的核心研究问题是如何确保模型在处理视觉和文本信息时能够进行深入且多方面的理解,而非依赖于表面的统计模式。这一研究对多模态AI的发展具有重要影响,因为它推动了模型在实际应用中处理复杂任务的能力。
当前挑战
MMMU-Pro数据集在构建过程中面临多个挑战。首先,如何过滤掉仅依赖文本即可回答的问题,确保评估的公平性和准确性。其次,增加候选选项的数量,以减少模型通过猜测正确答案的可能性。最后,引入仅依赖视觉输入的设置,测试模型在真实世界中处理视觉和文本信息的能力。这些挑战不仅要求模型具备强大的视觉和文本整合能力,还需要在复杂的多模态任务中展现出高级的推理技巧。
常用场景
经典使用场景
MMMU-Pro数据集的经典使用场景在于评估多模态模型的真正理解和推理能力。通过过滤掉仅依赖文本即可回答的问题,增加候选选项,并引入仅视觉输入的设置,MMMU-Pro挑战模型在图像中嵌入文本的情况下进行无缝的视觉和文本信息整合,从而更真实地模拟人类认知技能。
衍生相关工作
MMMU-Pro的推出激发了大量相关研究,包括改进多模态模型的视觉文本整合能力、开发更复杂的推理技术以应对数据集的挑战,以及探索如何在不同设置下保持模型性能的一致性。此外,MMMU-Pro还促进了新一代多模态基准的开发,如LAMM、LVLM-eHub等,这些基准进一步推动了多模态AI领域的发展。
数据集最近研究
最新研究方向
在多模态理解和推理领域,MMMU-Pro数据集的最新研究方向主要集中在提升模型的多模态综合能力上。通过引入视觉输入设置,研究者们旨在挑战模型在真实世界场景中无缝整合视觉和文本信息的能力。这一方向不仅推动了模型在处理复杂视觉任务中的表现,还为未来多模态AI的发展提供了宝贵的研究方向。
相关研究论文
  • 1
    MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding BenchmarkMMMU团队 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录