MathVerse|多模态学习数据集|人工智能数据集

github2024-03-21 更新2024-05-31 收录

多模态学习

人工智能

下载链接：

https://github.com/ZrrSkywalker/MathVerse

下载链接

链接失效反馈

资源简介：

MathVerse是由CUHK MMLab、上海人工智能实验室和加州大学洛杉矶分校联合构建的一个基准测试数据集，旨在全面评估多模态大模型（MLLMs）在视觉数学问题解决中对图表的理解能力。该数据集收集了 2612 个多模态数学题，覆盖平面几何、立体几何和函数3大领域，并进一步细分为12个子领域。每个问题被转化为6个不同版本，以不同的文本和视觉信息内容进行测试，共计产生15,672个测试样本。MathVerse旨在深入探究 MLLMs 是否真正具备解读和解答多模态数学题的能力，为未来的技术发展提供独特的见解。

提供机构：

CUHK MMLab、上海人工智能实验室、加州大学洛杉矶分校

创建时间：

2024-03-21

原始信息汇总

数据集概述

名称: MathVerse

目的: 评估多模态大型语言模型（MLLMs）在视觉数学问题解决中的能力，特别是对输入图表的理解和推理。

特点:

问题数量: 2,612个高质量、多学科的数学问题，每个问题有六个不同版本。
样本总数: 总计15,000个测试样本。
评估策略: 引入链式思维（CoT）评估策略，通过GPT-4(V)提取关键推理步骤并进行详细错误分析。

数据集组成:

testmini.json: 包含788个视觉数学问题的五个主要版本，用于计算整体得分。
testmini_text_only.json: 包含788个仅文本的测试样本，用于评估视觉图表理解能力。

评估方法:

w/o 分数: 使用 query_wo 作为输入，直接输出答案进行评估。
CoT 评估: 使用 query_cot 作为输入，鼓励模型提供逐步推理过程进行评估。

数据集访问:

可通过Hugging Face平台下载，使用命令 from datasets import load_dataset 进行加载。

数据集使用示例

python from datasets import load_dataset

dataset = load_dataset("AI4Math/MathVerse", "testmini") dataset_text_only = load_dataset("AI4Math/MathVerse", "testmini_text_only")

访问数据集示例

print(dataset["testmini"][0]) print(dataset_text_only["testmini_text_only"][0])

评估流程

答案提取: 使用ChatGPT/GPT-4 API提取答案。
答案评分: 使用提取的答案与标准答案进行匹配评分。

引用信息

latex @article{zhang2024mathverse, title={MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?}, author={Zhang, Renrui and Jiang, Dongzhi and Zhang, Yichi and Lin, Haokun and Guo, Ziyu and Qiu, Pengshuo and Zhou, Aojun and Lu, Pan and Chang, Kai-Wei and Gao, Peng and others}, journal={arXiv preprint arXiv:2403.14624}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

MathVerse数据集的构建旨在深入评估多模态大语言模型（MLLMs）在视觉数学问题解决中的能力。研究团队从公开来源精心收集了2,612道高质量、多学科的数学问题，每道问题均包含图表。随后，通过人工标注将每道问题转化为六种不同版本，每种版本在多模态信息内容上提供不同程度的支持，最终形成了共计15,000个测试样本。这一构建方式确保了数据集能够全面评估MLLMs是否真正理解视觉图表以进行数学推理。

特点

MathVerse数据集的核心特点在于其多样化的多模态问题版本设计。每道数学问题被转化为六种不同版本，涵盖了从文本主导到视觉主导的多种信息组合，使得数据集能够细致评估MLLMs在不同信息条件下的表现。此外，数据集还引入了链式思维（CoT）评估策略，通过GPT-4(V)提取关键推理步骤并进行详细错误分析，进一步揭示了MLLMs在中间推理过程中的质量。

使用方法

MathVerse数据集的使用方法主要包括评估和推理两个步骤。用户可以通过lmms-eval工具进行高效评估，首先安装相关包并指定模型类型、路径和输出路径，随后运行评估脚本。对于未支持lmms-eval的模型，用户可以使用提供的代码自行进行答案提取和评分。数据集还提供了详细的模板和示例，帮助用户准备结果文件并进行推理。通过这种方式，用户能够全面评估MLLMs在视觉数学问题上的表现，并参与数据集的排行榜更新。

背景与挑战

背景概述

MathVerse数据集由香港中文大学的研究团队于2024年推出，旨在深入评估多模态大语言模型（MLLMs）在视觉数学问题解决中的能力。该数据集包含2,612个高质量的多学科数学问题，每个问题通过人工标注转化为六个不同版本，共计15,000个测试样本。MathVerse的核心研究问题在于探究MLLMs是否真正理解并利用视觉图表进行数学推理。该数据集的发布填补了多模态数学推理评估领域的空白，为相关研究提供了重要的基准工具。

当前挑战

MathVerse面临的挑战主要体现在两个方面。首先，在领域问题层面，现有的多模态大语言模型在处理视觉数学问题时，往往依赖于文本内容而非真正理解图表信息，导致评估结果存在偏差。其次，在数据集构建过程中，如何确保每个问题的六个版本在信息量上保持一致性，同时避免引入人为偏见，是一项复杂且耗时的工作。此外，数据集的评估策略需要精细设计，以确保能够准确反映模型的推理能力，而非简单的答案匹配。

常用场景

经典使用场景

MathVerse数据集在评估多模态大语言模型（MLLMs）在视觉数学问题解决中的表现方面具有重要应用。通过提供包含图表的高质量数学问题，该数据集能够全面测试模型是否真正理解并利用视觉信息进行数学推理。其经典使用场景包括对MLLMs在文本与视觉信息融合能力上的深入评估，特别是在几何、函数等数学领域的应用。

解决学术问题

MathVerse数据集解决了当前多模态大语言模型在视觉数学问题解决中表现评估不足的问题。通过提供多样化的数学问题版本，该数据集能够揭示模型是否真正依赖视觉信息进行推理，而非仅通过文本内容推断答案。这一数据集为研究者提供了更精细的评估工具，帮助理解MLLMs在多模态推理中的局限性，并推动相关技术的改进。

衍生相关工作

MathVerse数据集衍生了一系列相关研究工作，特别是在多模态大语言模型的优化与评估领域。例如，基于该数据集的研究推动了MAVIS项目的开发，该项目包括大规模数据集、视觉编码器和数学专用MLLM的构建。此外，MathVerse还为LLaVA-OneVision等模型的训练提供了重要数据支持，进一步提升了模型在视觉数学推理中的表现。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中文《诗歌总集》

这是一个收录所有中文诗词的数据集，旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分，并标准化为统一的JSON格式。

github 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据，涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数（AQI）等信息。数据按小时记录，提供了详细的空气质量监测数据。

www.cnemc.cn 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录