CMM-Math|数学教育数据集|多模态模型数据集

arXiv2024-09-05 更新2024-09-06 收录

数学教育

多模态模型

下载链接：

https://github.com/ECNU-ICALK/EduChat-Math

下载链接

链接失效反馈

资源简介：

CMM-Math是由华东师范大学创建的中文多模态数学数据集，旨在评估和提升大型多模态模型在数学推理方面的能力。该数据集包含超过28,000个高质量样本，涵盖从小学到高中的12个年级，涉及多种题型和详细的解答。数据集的创建过程包括基础预训练、基础微调和数学微调三个阶段，确保了数据集的高质量和多样性。CMM-Math主要应用于教育领域，旨在解决数学推理任务中的多模态问题，提升模型的数学推理能力。

提供机构：

华东师范大学

创建时间：

2024-09-05

AI搜集汇总

数据集介绍

构建方式

CMM-Math数据集的构建过程分为三个阶段。首先，从中国小学到高中的12个年级中收集了超过10,000份考试试卷，每份试卷包含多种题型，如选择题、填空题、分析题等，且题目可能包含视觉输入或纯文本。其次，使用Mathpix API将PDF格式的试题转换为Markdown格式，并下载提取的图像。最后，将问题从Markdown文本转换为JSON格式，包括题型、模态、问题、选项、答案、解答等字段，并通过多轮验证提高数据质量。

特点

CMM-Math数据集具有多个显著特点。首先，它是首个专注于中文的多模态数学数据集，填补了非英语多模态数学数据集的空白。其次，数据集包含超过28,000个高质量样本，涵盖12个年级和多种题型，如选择题、填空题、判断题和分析题。此外，数据集中的问题可能包含多个图像，增加了问题的复杂性。最后，数据集分为评估和训练两部分，旨在全面评估和提升大模型的数学推理能力。

使用方法

CMM-Math数据集可用于评估和训练大模型的数学推理能力。研究人员可以使用该数据集来测试现有大模型在多模态数学问题上的表现，并通过训练数据集来提升模型的性能。数据集的多样性和复杂性使其成为开发和验证多模态数学推理模型的理想资源。此外，数据集的详细解答和丰富的题干内容有助于模型学习更深层次的数学推理能力。

背景与挑战

背景概述

CMM-Math数据集由中国华东师范大学的教育信息技术系、教育人工智能实验室以及计算机科学与技术学院的研究团队于近期发布。该数据集旨在评估和提升大型多模态模型在数学推理方面的能力，填补了中文多模态数学数据集的空白。CMM-Math包含了超过28,000个高质量样本，涵盖了从小学到高中的12个年级，涉及多种题型和详细的解答。其核心研究问题是如何有效评估和提升大型多模态模型在数学推理中的表现，对教育人工智能领域具有重要影响。

当前挑战

CMM-Math数据集在构建过程中面临多项挑战。首先，如何从大量的考试试卷中提取和整理出高质量的数学问题，确保问题的多样性和复杂性。其次，如何处理和整合视觉信息与文本信息，使得模型能够理解和推理包含图像的数学问题。此外，数据集的标注和验证过程也需确保准确性和一致性。在应用层面，当前最先进的大型多模态模型在处理CMM-Math数据集时仍面临挑战，特别是在几何和逻辑推理方面，表明需要进一步改进和优化这些模型。

常用场景

经典使用场景

CMM-Math数据集的经典使用场景主要集中在评估和提升大型多模态模型（LMMs）在数学推理方面的性能。通过包含多种问题类型和详细解答的28,000多个高质量样本，该数据集能够全面测试LMMs在不同年级和数学领域的推理能力。具体应用包括但不限于多选题、填空题和分析题等，这些问题可能包含视觉上下文，从而增加了推理的复杂性。

解决学术问题

CMM-Math数据集解决了当前学术研究中缺乏中文多模态数学数据集的问题，填补了这一领域的空白。它不仅提供了丰富的评估基准，还为模型训练提供了大量数据，有助于推动LMMs在数学推理方面的研究进展。通过对比现有最先进的LMMs在该数据集上的表现，研究者可以识别出模型的不足之处，进而推动相关技术的改进和发展。

衍生相关工作

CMM-Math数据集的发布催生了一系列相关研究工作，特别是在多模态数学推理模型的开发和评估方面。例如，研究者们提出了专门针对多模态数学推理的LMM（Math-LMM），并通过三阶段的训练过程显著提升了模型的数学推理性能。此外，该数据集还促进了与其他多模态数学数据集（如MATHVISTA和MATH-V）的对比研究，进一步推动了多模态学习技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UCSD26/medical_dialog

MedDialog数据集包含中英文两种语言的医患对话数据。中文数据集包含110万条对话和400万条话语，数据来源于haodf.com。英文数据集包含26万条对话，数据来源于healthcaremagic.com和icliniq.com。数据集的结构包括原始数据和经过处理的数据，原始数据包含对话ID、URL、患者病情描述和对话内容，处理后的数据则包括描述和对话话语。数据集的主要任务是封闭领域的问答（Closed domain QA）。

hugging_face 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

INTERACTION Dataset

INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室等多个国际研究机构合作创建的，旨在为自动驾驶领域提供高质量的交互式驾驶场景数据。该数据集包含多种复杂的交互式驾驶场景，如城市/高速公路/匝道合并和车道变更、环形交叉口、信号交叉口等，覆盖多个国家和文化背景，以自然方式包含不同文化的驾驶偏好和风格。数据集强调高度交互和复杂的驾驶行为，包括对抗性和合作性运动，以及从常规安全操作到危险、接近碰撞的操纵。此外，数据集提供完整的语义地图信息，包括物理层、参考线、车道连接和交通规则，记录自无人机和交通摄像头。该数据集适用于运动预测、模仿学习、决策制定和规划、表示学习、交互提取和社会行为生成等研究领域，旨在解决自动驾驶中的关键问题。

arXiv 收录