2WikiMultiHopQA|多跳问答数据集|机器阅读理解数据集

arXiv2020-11-12 更新2024-06-21 收录

多跳问答

机器阅读理解

下载链接：

https://github.com/Alab-NII/2wikimultihop

下载链接

链接失效反馈

资源简介：

2WikiMultiHopQA是一个大规模、高质量的多跳问答数据集，由日本的高级研究大学院大学和国家信息学研究所创建。该数据集包含192,606条数据，旨在通过要求模型阅读多个段落来测试推理和推断技能。数据集通过结合结构化和非结构化数据，引入了证据信息，包含多跳问题的推理路径，有助于解释预测和评估模型的推理能力。数据集创建过程中，设计了详细的流程和模板，确保问题的多跳步骤和质量。应用领域包括机器阅读理解，旨在解决需要复杂推理的问答问题。

提供机构：

高级研究大学院大学，神奈川，日本

创建时间：

2020-11-02

AI搜集汇总

数据集介绍

构建方式

2WikiMultiHopQA数据集的构建，旨在通过结合维基百科和维基数据中的结构化和非结构化数据，创建一个包含推理路径证据信息的多跳问答数据集。数据集的生成过程包括三个主要步骤：创建模板集、生成数据和后处理生成的数据。首先，根据HotpotQA数据集中比较问题的训练数据，使用Spacy工具提取命名实体识别标签和标签，并创建一系列模板。接着，利用这些模板和实体信息生成比较问题、推理问题、组合问题和桥接比较问题。最后，对生成的数据进行后处理，以确保每个问题只有一个答案，并平衡是/否问题的数量。

特点

2WikiMultiHopQA数据集的特点包括：1）提供从问题到答案的全面解释；2）包含推理路径证据信息，有助于解释预测和评估模型的推理能力；3）使用逻辑规则生成自然但需要多跳推理的问题；4）包含四种类型的问题：比较、推理、组合和桥接比较。

使用方法

使用2WikiMultiHopQA数据集的方法包括：1）使用数据集进行多跳问答模型的训练和评估；2）利用数据集中的证据信息来解释预测结果；3）通过分析数据集中的推理类型和答案类型，研究多跳推理的能力；4）使用基准模型进行评估，并与人类表现进行比较，以评估数据集的难度和挑战性。

背景与挑战

背景概述

2WikiMultiHopQA数据集的创建旨在为机器阅读理解领域提供一个能够测试推理和推理能力的新数据集。这个数据集由Xanh Ho、Anh-Khoa Duong Nguyen、Saku Sugawara和Akiko Aizawa等研究人员于2020年构建，他们来自日本神奈川县的先进科学研究生院和东京国立信息学研究所。2WikiMultiHopQA数据集的创建是为了解决现有数据集中缺乏对推理过程的完整解释以及许多示例不需要多跳推理的问题。该数据集使用了结构化和非结构化数据，并引入了证据信息，其中包含了多跳问题的推理路径。证据信息的好处在于提供了预测的全面解释，并能够评估模型的推理能力。研究人员精心设计了一个管道和一组模板，在生成问题-答案对时保证了多跳步骤和问题的质量。此外，他们还利用了Wikidata的结构化格式，并使用逻辑规则来创建自然但仍然需要多跳推理的问题。通过实验，他们证明了该数据集对多跳模型具有挑战性，并确保了多跳推理的必要性。

当前挑战

2WikiMultiHopQA数据集面临的挑战主要包括：1)解决领域问题的挑战：该数据集旨在测试推理和推理能力，要求模型阅读多个段落来回答给定的问题。然而，现有的数据集并没有提供从问题到答案的推理过程的完整解释，并且许多示例不需要多跳推理来回答问题。2)构建过程中的挑战：在构建过程中，研究人员面临了如何生成包含多跳步骤和高质量问题的数据集的挑战。他们通过使用预定义的模板和逻辑规则来生成问题，并确保了问题的多跳性质和质量。此外，他们还利用了Wikidata的结构化格式来创建自然但仍然需要多跳推理的问题。在数据集的生成过程中，他们还面临了如何处理Wikipedia和Wikidata之间信息不匹配的问题。为了解决这一问题，他们使用了启发式方法来排除不匹配的案例，并通过实验验证了数据集的质量。

常用场景

经典使用场景

2WikiMultiHopQA数据集主要用于评估和训练机器阅读理解模型的多跳推理能力。该数据集要求模型阅读多个段落，并根据问题进行多跳推理以找到答案。数据集中的每个问题都包含证据信息，解释从问题到答案的推理路径，这使得模型不仅需要理解文本内容，还需要理解逻辑关系和推理过程。

实际应用

2WikiMultiHopQA数据集在实际应用中，可以用于评估和训练机器阅读理解模型的多跳推理能力，帮助模型更好地理解和解释文本内容。此外，该数据集还可以用于研究多跳推理的相关问题，如推理过程解释、推理能力评估等。同时，由于该数据集是基于维基百科和维基数据构建的，因此还可以用于研究知识图谱和文本数据的交叉应用问题。

衍生相关工作

2WikiMultiHopQA数据集的发布，促进了多跳推理相关研究的发展。基于该数据集，研究人员可以设计和开发更先进的机器阅读理解模型，并探索多跳推理的相关问题。此外，2WikiMultiHopQA数据集的发布，还为其他多跳数据集的构建提供了参考和借鉴，推动了多跳推理研究的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国逐日降水数据集（1961-2022，0.1°/0.25°/0.5°）

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测，在传统的“降水背景场 + 降水比值场”的数据集构建思路上，尝试应用月值降水约束和地形特征校正，并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为，CHM_PRE可以较好的表征降水的空间变异性，其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78，均方根误差中位数为8.8 mm/d，KGE值中位数为0.69，与目前常用的降水数据集（CGDPA、CN05.1、CMA V2.0）有很好的一致性。数据集的时间范围为1961年至今，空间分辨率为0.1°、0.25°和0.5°，经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

中国1km分辨率年平均气温数据（1901-2023年）

中国1km分辨率年平均气温数据（1901-2023年）根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月平均气温数据集进行年度均值合成后除以10将单位换算为℃得到。数据包含多个TIF文件，每个TIF文件为对应年份的年平均气温，平均气温单位为℃。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。

国家地球系统科学数据中心收录