AI-MO-NuminaMath-CoT-korean-240905|数学教育数据集|思维训练数据集
收藏NuminaMath CoT Korean 数据集
数据集描述
-
数据集概述: 约86万道数学题,每道题的解答以Chain of Thought (CoT) 格式呈现。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括:(a) 从原始PDF进行OCR识别,(b) 分割成问题-解答对,(c) 翻译成英文,(d) 重新对齐以生成CoT推理格式,(e) 最终答案格式化。
-
语言:
- 英语 (en)
- 韩语 (ko)
-
任务类别:
- 文本生成
-
标签:
- aimo
- math
-
主页: https://projectnumina.ai
-
仓库: https://github.com/project-numina/aimo-progress-prize
-
论文: https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf
-
翻译代码: https://github.com/GyoukChu/AIMO-ko
翻译信息
- 翻译工具: 使用 solar-1-mini-translate-enko-240507 进行翻译。详细脚本请参考上述GitHub仓库链接(目前为私有仓库)。
数据来源细分
来源 | 样本数量 |
---|---|
aops_forum | 30201 |
amc_aime | 4072 |
cn_k12 | 276591 |
gsm8k | 7345 |
math | 7478 |
olympiads | 150581 |
orca_math | 153334 |
synthetic_amc | 62111 |
synthetic_math | 167895 |
总计 | 859608 |
许可信息
- 许可协议: 该数据集遵循 Creative Commons NonCommercial (CC BY-NC 4.0) 许可。
引用信息
@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/AI-MO/NuminaMath-CoT}} }

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
用于陆面模拟的中国土壤数据集(第二版)
本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。
国家青藏高原科学数据中心 收录