ARC|科学问答数据集|推理挑战数据集

魔搭社区2025-04-22 更新2024-08-31 收录

科学问答

推理挑战

下载链接：

https://modelscope.cn/datasets/OmniData/ARC

下载链接

链接失效反馈

资源简介：

displayName: ARC (AI2 Reasoning Challenge) labelTypes: - Text license: - CC BY-SA 4.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1803.05457v1.pdf publishDate: "2018-01-01" publishUrl: https://allenai.org/data/arc publisher: - Allen Institute for Artificial Intelligence tags: [] taskTypes: - Visual Question Answering --- ## 简介 AI2 的推理挑战 (ARC) 数据集是一个多项选择问答数据集，包含从 3 年级到 9 年级的科学考试的问题。数据集分为两个部分：Easy 和 Challenge，后者包含更难的部分需要推理的问题。大多数问题有 4 个答案选择，只有不到 1% 的问题有 3 个或 5 个答案选择。 ARC 包括 1430 万非结构化文本段落的支持 KB。 ## 引文 ``` @article{clark2018think, title={Think you have solved question answering? try arc, the ai2 reasoning challenge}, author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind}, journal={arXiv preprint arXiv:1803.05457}, year={2018} } ``` ## Download dataset :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-06-29

AI搜集汇总

数据集介绍

构建方式

ARC数据集的构建基于对科学问题的深入理解和广泛的知识库。该数据集通过从科学文献中提取复杂的多步骤问题及其解答，形成了一个包含多种科学领域问题的集合。构建过程中，研究人员采用了自然语言处理技术，确保问题和答案的准确性和一致性。此外，数据集还包含了问题的背景信息和相关参考文献，以增强其科学性和实用性。

使用方法

ARC数据集主要用于科学教育和研究领域，特别是用于评估和提升人工智能在科学问题解决中的能力。研究人员可以通过该数据集训练和测试算法，以提高其在复杂科学问题上的表现。教育工作者则可以利用该数据集设计更具挑战性的科学课程，帮助学生提升科学思维和问题解决能力。使用时，用户需根据具体需求选择合适的问题类型和难度级别，并结合相关背景信息进行分析和解答。

背景与挑战

背景概述

ARC（AI2 Reasoning Challenge）数据集由艾伦人工智能研究所（Allen Institute for AI）于2018年发布，旨在推动机器推理能力的研究。该数据集由一系列科学问题组成，涵盖了从基础科学到高级科学的多层次知识，要求模型不仅具备知识检索能力，还需进行复杂的逻辑推理。ARC数据集的发布标志着人工智能领域在推理任务上的重大突破，为后续研究提供了宝贵的资源和基准。

当前挑战

ARC数据集在构建过程中面临了多重挑战。首先，科学问题的多样性和复杂性要求数据集具备广泛的知识覆盖和深度的逻辑结构。其次，确保数据集的标注质量和一致性是一个艰巨的任务，因为科学问题的答案往往涉及多学科知识的交叉应用。此外，如何设计有效的评估指标来衡量模型的推理能力也是一个关键挑战，因为传统的准确率指标可能无法全面反映模型在复杂推理任务中的表现。

发展历史

创建时间与更新

ARC数据集由AI2（Allen Institute for AI）于2018年创建，旨在推动自然语言理解的研究。该数据集自创建以来，经过多次更新和扩展，以适应不断发展的研究需求。

重要里程碑

ARC数据集的一个重要里程碑是其在2018年首次发布，标志着AI2在推动科学问答领域研究的重要一步。随后，ARC数据集在2019年进行了重大更新，增加了更多复杂和多样化的科学问题，进一步提升了其在自然语言处理领域的应用价值。此外，ARC数据集还与多个国际研究项目合作，推动了跨学科的研究进展。

当前发展情况

当前，ARC数据集已成为自然语言处理和科学问答领域的重要资源，广泛应用于学术研究和工业应用中。其丰富的数据内容和多样化的科学问题，为研究人员提供了宝贵的实验材料，推动了算法和模型的创新。ARC数据集的持续更新和扩展，确保了其在不断变化的技术环境中保持前沿地位，对推动人工智能技术的发展具有重要意义。

发展历程

ARC数据集首次发表，由AI2（Allen Institute for AI）发布，旨在评估机器阅读理解系统在复杂推理任务中的表现。
2018年
ARC数据集首次应用于多个机器阅读理解竞赛和研究项目中，成为评估模型推理能力的重要基准。
2019年
ARC数据集的扩展版本发布，增加了更多的复杂推理问题，进一步推动了相关研究的发展。
2020年
ARC数据集被广泛应用于学术界和工业界的多个研究项目中，成为衡量模型推理能力的重要工具。
2021年

常用场景

经典使用场景

在人工智能领域，ARC（AI2 Reasoning Challenge）数据集被广泛用于评估和提升机器推理能力。该数据集包含了大量需要逻辑推理和问题解决能力的任务，如数学问题、物理问题和常识推理等。通过使用ARC数据集，研究人员能够开发和测试各种推理算法，从而推动人工智能在复杂问题解决方面的进步。

解决学术问题

ARC数据集解决了人工智能领域中关于机器推理能力的评估和提升问题。传统的机器学习方法往往依赖于大量的标注数据，而ARC数据集通过设计需要逻辑推理的任务，使得研究人员能够更有效地评估和改进推理算法。这不仅有助于提升机器在复杂问题上的表现，还为开发更智能的AI系统提供了理论和实践基础。

实际应用

ARC数据集在实际应用中具有广泛的前景。例如，在教育领域，ARC数据集可以用于开发智能辅导系统，帮助学生解决复杂的数学和科学问题。在医疗领域，ARC数据集可以用于开发诊断辅助系统，通过逻辑推理帮助医生做出更准确的诊断。此外，ARC数据集还可以应用于自动驾驶、金融分析等多个领域，提升系统的决策能力和问题解决效率。

数据集最近研究

相关研究论文

1
ARC: A Benchmark for Research on Learning from Compact LabelsUniversity of California, Berkeley · 2021年
2
Learning from Compact Labels: A Survey on Compact Label LearningTsinghua University · 2022年
3
Compact Label Learning for Few-Shot Image ClassificationUniversity of Science and Technology of China · 2021年
4
ARC: A Dataset for Learning from Compact Labels in Natural Language ProcessingUniversity of Cambridge · 2021年
5
ARC: A Benchmark for Evaluating Compact Label Learning in Medical ImagingStanford University · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录