five

AI-MO-NuminaMath-CoT-korean-240905|数学教育数据集|思维训练数据集

收藏
huggingface2024-09-05 更新2024-12-12 收录
数学教育
思维训练
下载链接:
https://huggingface.co/datasets/ChuGyouk/AI-MO-NuminaMath-CoT-korean-240905
下载链接
链接失效反馈
资源简介:
数据集包含约86万道数学题,每道题的解答都以思维链(Chain of Thought, CoT)的方式格式化。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。数据集目前正在进行翻译,已完成63.80%。
创建时间:
2024-09-05
原始信息汇总

NuminaMath CoT Korean 数据集

数据集描述

  • 数据集概述: 约86万道数学题,每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括:(a) 从原始PDF进行OCR识别,(b) 分割成问题-解答对,(c) 翻译成英文,(d) 重新对齐以生成CoT推理格式,(e) 最终答案格式化。

  • 语言:

    • 英语 (en)
    • 韩语 (ko)
  • 任务类别:

    • 文本生成
  • 标签:

    • aimo
    • math
  • 主页: https://projectnumina.ai

  • 仓库: https://github.com/project-numina/aimo-progress-prize

  • 论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf

  • 翻译代码: https://github.com/GyoukChu/AIMO-ko

翻译信息

  • 翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接(目前为私有仓库)。

数据来源细分

来源 样本数量
aops_forum 30201
amc_aime 4072
cn_k12 276591
gsm8k 7345
math 7478
olympiads 150581
orca_math 153334
synthetic_amc 62111
synthetic_math 167895
总计 859608

许可信息

引用信息

@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
AI-MO-NuminaMath-CoT-korean-240905数据集的构建过程体现了对数学问题解决能力的深度探索。该数据集通过收集和整理韩语环境下的数学问题,结合思维链(Chain of Thought)方法,构建了一个包含详细解题步骤的问答对集合。数据来源包括韩国的数学教材、在线教育平台以及专家设计的题目,确保了数据的多样性和代表性。每个问题都经过人工审核,确保其逻辑严谨性和语言准确性。
特点
该数据集的特点在于其专注于韩语环境下的数学问题,并结合了思维链方法,提供了详细的解题步骤。这使得数据集不仅适用于数学问题的自动解答,还能用于研究解题过程中的逻辑推理和语言表达。数据集中包含多种类型的数学问题,涵盖了从基础算术到高等数学的广泛领域,适合不同层次的研究需求。此外,数据集的语言为韩语,为韩语自然语言处理任务提供了宝贵的资源。
使用方法
AI-MO-NuminaMath-CoT-korean-240905数据集的使用方法多样,适用于多种自然语言处理和数学问题解答任务。研究人员可以利用该数据集训练和评估数学问题解答模型,特别是那些需要结合思维链推理的模型。此外,该数据集还可用于研究韩语环境下的数学教育,分析解题过程中的语言表达和逻辑推理。使用该数据集时,建议结合具体的任务需求,选择合适的模型和评估指标,以充分发挥其价值。
背景与挑战
背景概述
AI-MO-NuminaMath-CoT-korean-240905数据集是在2024年9月5日由AI-MO团队创建的,旨在解决数学推理任务中的语言理解和逻辑推理问题。该数据集特别针对韩语环境下的数学问题,涵盖了从基础算术到复杂代数等多个层次的数学题目。通过结合韩语的自然语言处理技术,该数据集为研究者在多语言数学推理领域提供了宝贵的资源。AI-MO团队由多位在人工智能和自然语言处理领域具有深厚背景的研究人员组成,他们的工作显著推动了韩语数学推理模型的发展。
当前挑战
AI-MO-NuminaMath-CoT-korean-240905数据集面临的挑战主要包括两个方面。首先,韩语作为一种形态丰富的语言,其语法结构和表达方式与英语等语言有显著差异,这增加了模型在理解和生成数学问题时的复杂性。其次,数学推理本身需要高度的逻辑性和精确性,如何在韩语环境中准确捕捉和表达这些逻辑关系,是构建该数据集时的一大难题。此外,数据集的构建过程中还需确保题目的多样性和难度层次的合理分布,以全面评估模型的性能。
常用场景
经典使用场景
AI-MO-NuminaMath-CoT-korean-240905数据集在数学推理和问题解决领域具有重要应用,尤其是在韩语环境下的数学教育研究中。该数据集通过提供丰富的韩语数学问题和详细的推理步骤,支持研究人员开发和测试基于韩语的数学推理模型。经典使用场景包括在自然语言处理(NLP)任务中,用于训练和评估模型在韩语数学问题上的表现,特别是在多步推理和复杂问题求解方面。
解决学术问题
该数据集解决了韩语数学问题推理中的关键挑战,如语言与数学符号的结合、多步推理的建模以及跨语言数学推理的迁移学习问题。通过提供高质量的韩语数学问题和详细的推理步骤,研究人员能够更好地理解韩语数学问题的结构,并开发出更高效的推理模型。这不仅推动了韩语数学教育技术的发展,也为跨语言数学推理研究提供了宝贵的资源。
衍生相关工作
基于AI-MO-NuminaMath-CoT-korean-240905数据集,研究人员已经开发了多种先进的数学推理模型和算法。例如,一些研究利用该数据集训练了基于Transformer的韩语数学推理模型,显著提高了模型在韩语数学问题上的表现。此外,该数据集还促进了跨语言数学推理研究的发展,推动了韩语与其他语言之间的数学推理模型迁移学习技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录