five

allenai/math_qa|数学问题解答数据集|自然语言处理数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
数学问题解答
自然语言处理
下载链接:
https://hf-mirror.com/datasets/allenai/math_qa
下载链接
资源简介:
我们引入了一个大规模的数学应用题数据集。该数据集通过使用一种新的表示语言对AQuA-RAT数据集进行注释,生成了完全指定的操作程序。AQuA-RAT提供了问题、选项、解释和正确答案。
提供机构:
allenai
原始信息汇总

数据集概述

数据集摘要

  • 名称: MathQA
  • 语言: 英语
  • 创建者: 众包和专家生成
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: 扩展自aqua_rat
  • 任务类别: 问答
  • 任务ID: 多选题问答
  • 论文ID: mathqa

数据结构

数据实例

一个训练集的示例: json { "Problem": "a multiple choice test consists of 4 questions , and each question has 5 answer choices . in how many r ways can the test be completed if every question is unanswered ?", "Rationale": ""5 choices for each of the 4 questions , thus total r of 5 * 5 * 5 * 5 = 5 ^ 4 = 625 ways to answer all of them . answer : c ."", "annotated_formula": "power(5, 4)", "category": "general", "correct": "c", "linear_formula": "power(n1,n0)|", "options": "a ) 24 , b ) 120 , c ) 625 , d ) 720 , e ) 1024" }

数据字段

  • Problem: 问题描述,字符串类型。
  • Rationale: 推理过程,字符串类型。
  • options: 选项,字符串类型。
  • correct: 正确答案,字符串类型。
  • annotated_formula: 注释公式,字符串类型。
  • linear_formula: 线性公式,字符串类型。
  • category: 类别,字符串类型。

数据分割

名称 训练集 验证集 测试集
默认 29837 4475 2985

数据集创建

数据集信息

  • 下载大小: 7302821 字节
  • 数据集大小: 22965979 字节

数据分割详情

  • 测试集: 1844184 字节,2985 个样本
  • 训练集: 18368826 字节,29837 个样本
  • 验证集: 2752969 字节,4475 个样本

许可证信息

数据集遵循 Apache License, Version 2.0

引用信息

bibtex @inproceedings{amini-etal-2019-mathqa, title = "{M}ath{QA}: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms", author = "Amini, Aida and Gabriel, Saadia and Lin, Shanchuan and Koncel-Kedziorski, Rik and Choi, Yejin and Hajishirzi, Hannaneh", booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", month = jun, year = "2019", address = "Minneapolis, Minnesota", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N19-1245", doi = "10.18653/v1/N19-1245", pages = "2357--2367", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MathQA数据集的构建基于对AQuA-RAT数据集的扩展与注释,采用了一种新的表示语言来详细标注数学问题的操作程序。该数据集通过众包和专家生成的方式,确保了问题、选项、推理过程以及正确答案的完整性和准确性。每个问题都附带了详细的推理过程、标注的公式以及线性公式,从而为数学问题的解决提供了全面的指导。
特点
MathQA数据集的主要特点在于其丰富的注释信息和多层次的结构设计。每个问题不仅包含标准的多项选择题格式,还提供了详细的推理过程、标注的公式以及线性公式,这些信息为模型理解和解决数学问题提供了强有力的支持。此外,数据集的规模适中,涵盖了从10K到100K的样本量,适合多种机器学习任务的训练与评估。
使用方法
MathQA数据集适用于多种机器学习任务,尤其是多选题问答(multiple-choice-qa)任务。用户可以通过访问数据集的各个字段,如问题描述、推理过程、选项、正确答案等,进行模型的训练与评估。数据集提供了训练、验证和测试三个子集,用户可以根据需求选择合适的子集进行实验。此外,数据集的注释信息和公式表达为模型的解释性和准确性提供了有力支持。
背景与挑战
背景概述
MathQA数据集由Aida Amini等人于2019年创建,旨在解决数学应用题的自动求解问题。该数据集基于AQuA-RAT数据集进行扩展,通过引入新的表示语言对问题进行标注,提供了详细的运算程序和解释。MathQA不仅包含问题、选项和正确答案,还提供了详细的推理过程和线性公式,为研究者提供了一个全面的数学应用题求解框架。该数据集的发布对自然语言处理和教育技术领域具有重要意义,推动了数学应用题自动求解技术的进步。
当前挑战
MathQA数据集在构建过程中面临多项挑战。首先,数学应用题的多样性和复杂性使得标注过程异常复杂,需要专家和众包人员的协同努力。其次,确保标注的准确性和一致性是一个重要挑战,尤其是在涉及多步骤推理和复杂公式时。此外,数据集的扩展性和可解释性也是关键问题,如何设计有效的表示语言以支持不同类型的数学问题,并确保模型的可解释性,是该数据集面临的主要挑战。
常用场景
经典使用场景
MathQA数据集在数学问题解答领域中具有经典应用场景,主要用于训练和评估模型在数学单词问题上的解答能力。通过提供详细的数学问题、选项、解答过程及正确答案,该数据集支持多选题形式的问答任务,帮助模型学习如何从多个选项中选择正确答案,并理解解答背后的逻辑推理过程。
实际应用
MathQA数据集在实际应用中具有广泛的应用场景,特别是在教育科技领域。它可以用于开发智能辅导系统,帮助学生解答数学问题,提供个性化的学习建议。此外,该数据集还可用于构建自动化考试系统,评估学生的数学能力,并为教师提供教学辅助工具,提升教学效率和学生的学习体验。
衍生相关工作
MathQA数据集的发布激发了许多相关研究工作,特别是在数学问题解答和自然语言处理领域。研究者们基于该数据集开发了多种模型,如基于序列到序列的模型、图神经网络模型等,以提升数学问题的解答精度。此外,该数据集还促进了跨学科研究,如将数学问题解答与认知科学相结合,探索人类解决数学问题的认知过程。
以上内容由AI搜集并总结生成