five

Natural Questions|问答系统数据集|自然语言处理数据集

收藏
github2024-05-24 更新2024-05-31 收录
问答系统
自然语言处理
下载链接:
https://github.com/google-research-datasets/natural-questions
下载链接
链接失效反馈
资源简介:
Natural Questions (NQ) 包含真实用户向Google搜索提出的问题,以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。
创建时间:
2019-01-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Natural Questions数据集的构建基于真实用户向Google搜索提出的问题,并通过人工标注从维基百科中提取的答案。该数据集旨在为自动问答系统的训练和评估提供基准。数据集包含307,372个训练样本、7,830个开发样本和7,842个测试样本。每个样本包含一个用户问题、问题对应的维基百科页面HTML表示及其文本的标记化表示。此外,数据集还提供了长答案候选区域和短答案的标注,以支持不同类型的问答任务。
特点
Natural Questions数据集的显著特点在于其真实性和多样性。数据集中的问题和答案均来自实际用户查询和维基百科,确保了数据的高质量和实用性。此外,数据集提供了详细的HTML和文本标记化表示,支持基于结构和内容的多种问答方法。数据集还包含了长答案候选区域和短答案的标注,为研究者提供了丰富的信息来训练和评估问答系统。
使用方法
使用Natural Questions数据集时,用户可以选择原始的HTML格式或简化的文本格式。对于简化格式,数据集提供了转换工具以方便处理。用户可以通过提供的评估脚本进行模型预测的验证,并根据需要调整模型。此外,数据集还提供了数据浏览器和预处理工具,帮助用户更好地理解和利用数据。为了参与竞赛,用户需要构建Docker镜像并上传至竞赛网站。
背景与挑战
背景概述
Natural Questions(NQ)数据集由Google研究团队创建,旨在为自动问答系统提供训练和评估的基础。该数据集包含了用户向Google搜索提出的真实问题及其在维基百科中找到的答案,由标注人员进行整理。NQ数据集的核心研究问题是如何从大量文本中准确提取用户问题的答案,这对于提升搜索引擎的智能化水平具有重要意义。自发布以来,NQ已成为问答研究领域的重要基准,推动了相关技术的进步。
当前挑战
Natural Questions数据集在构建过程中面临多项挑战。首先,数据集需要处理真实用户提出的多样化问题,这些问题可能涉及复杂的语义和上下文信息,增加了答案提取的难度。其次,数据集包含了维基百科页面的完整HTML结构,如何有效利用这些结构信息进行答案定位是一个技术难题。此外,数据集的评估标准包括长答案和短答案的选择,以及是否存在“是/否”答案,这要求模型具备高度的准确性和灵活性。最后,数据集的规模和复杂性对模型的训练和推理效率提出了高要求,如何在保证准确性的同时提高处理速度是当前研究的重点。
常用场景
经典使用场景
Natural Questions数据集的经典使用场景主要集中在自动问答系统的训练与评估。该数据集通过收集真实用户在Google搜索中提出的问题及其在维基百科中找到的答案,为研究人员提供了一个真实且丰富的数据源。通过使用这些数据,研究人员可以开发和优化问答模型,使其能够更准确地从大量文本中提取和生成答案。
实际应用
在实际应用中,Natural Questions数据集被广泛用于开发和优化搜索引擎、智能助手和在线教育平台中的问答功能。通过使用该数据集训练的模型,这些系统能够更快速、准确地回答用户的问题,提升了用户体验和系统的智能化水平。
衍生相关工作
基于Natural Questions数据集,许多相关研究工作得以展开,包括但不限于问答模型的改进、多模态问答系统的开发以及跨语言问答技术的研究。这些工作不仅提升了问答系统的性能,还推动了自然语言处理技术在实际应用中的广泛应用和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录