five

KelvinJiang/freebase_qa|问答系统数据集|知识图谱数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
问答系统
知识图谱
下载链接:
https://hf-mirror.com/datasets/KelvinJiang/freebase_qa
下载链接
链接失效反馈
资源简介:
FreebaseQA是一个用于开放域事实型问答任务的数据集,基于Freebase知识库。数据集通过匹配Freebase中的主题-谓词-对象三元组与问题-答案对生成,并通过人工注释去除错误匹配。数据集包含28,348个唯一问题,分为训练集(20,358个问题)、开发集(3,994个问题)和测试集(3,996个问题)。每个问题包含原始问题、处理后的问题、语义解析以及答案等信息。

FreebaseQA是一个用于开放域事实型问答任务的数据集,基于Freebase知识库。数据集通过匹配Freebase中的主题-谓词-对象三元组与问题-答案对生成,并通过人工注释去除错误匹配。数据集包含28,348个唯一问题,分为训练集(20,358个问题)、开发集(3,994个问题)和测试集(3,996个问题)。每个问题包含原始问题、处理后的问题、语义解析以及答案等信息。
提供机构:
KelvinJiang
AI搜集汇总
数据集介绍
main_image_url
构建方式
FreebaseQA数据集的构建基于将琐事类型的问答对与Freebase中的主谓宾三元组进行匹配。首先,对每个收集到的问答对中的所有实体进行标记,并在Freebase中搜索连接标记实体与答案的相关谓词。随后,通过人工注释去除这些匹配三元组中的假阳性。这种方法使得能够高效地从约28,000个独特问题中生成超过54,000个匹配,且成本较低。
使用方法
FreebaseQA数据集适用于开放域事实问答任务,特别针对结构化知识库如Freebase。用户可以通过加载数据集的JSON文件来访问训练、验证和测试集。每个数据实例包含问题ID、原始问题、处理后的问题以及语义解析信息,包括解析ID、潜在主题实体提及、主题实体名称、主题实体MID、推理链和答案。这些信息有助于模型理解和回答复杂问题。
背景与挑战
背景概述
FreebaseQA数据集由Kelvin Jiang等研究人员于2019年创建,旨在解决开放域事实问答任务中的挑战。该数据集通过将琐事类型的问答对与Freebase中的主谓宾三元组进行匹配,生成了一系列复杂的问答对。主要研究人员包括Kelvin Jiang、Dekun Wu和Hui Jiang,他们的工作在York University完成,目前Kelvin Jiang在University of Waterloo继续相关研究。FreebaseQA的创建不仅丰富了问答系统的训练数据,还为模型提供了更多语言学上复杂的问答对,从而推动了问答技术的发展。
当前挑战
FreebaseQA数据集在构建过程中面临多项挑战。首先,如何高效地将琐事问答对与Freebase中的三元组进行匹配,确保匹配的准确性和覆盖率,是一个技术难题。其次,通过人工标注去除匹配中的假阳性结果,确保数据质量,这一过程既耗时又需要高度专业性。此外,数据集的规模和多样性要求模型具备处理复杂语言结构的能力,这对现有问答系统的性能提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,FreebaseQA数据集的经典使用场景主要集中在开放域事实问答任务中。该数据集通过匹配琐事类型的问题与Freebase中的主谓宾三元组,为模型提供了丰富的训练数据。研究者们利用这些数据来训练和评估问答系统,特别是在处理复杂和多步骤推理问题时,FreebaseQA展现了其独特的优势。
解决学术问题
FreebaseQA数据集解决了开放域问答系统中常见的学术研究问题,如复杂问题的处理和多步骤推理。通过提供高质量的问答对和详细的语义解析,该数据集帮助研究者开发出更智能、更准确的问答模型。其对复杂问题的适应性,使得FreebaseQA在推动问答技术进步方面具有重要意义。
实际应用
在实际应用中,FreebaseQA数据集被广泛用于构建智能助手和知识库问答系统。这些系统能够为用户提供快速、准确的信息检索服务,尤其在处理涉及多实体和多关系的复杂查询时表现出色。此外,该数据集还支持开发教育领域的智能辅导系统,帮助学生通过互动问答获取知识。
数据集最近研究
最新研究方向
在知识图谱和问答系统领域,FreebaseQA数据集的最新研究方向主要集中在提升开放域事实问答任务的准确性和效率。研究者们致力于通过改进实体链接和关系抽取技术,增强模型对复杂问题的理解和推理能力。此外,结合多模态数据和跨领域知识融合,以应对知识图谱中信息的不完整性和歧义性,成为当前研究的热点。这些研究不仅推动了问答系统的智能化发展,也为知识图谱的应用提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录