ComplexWebQuestions|信息检索数据集|自然语言处理数据集
收藏
- ComplexWebQuestions数据集首次发表,由Amrita Saha、Vardaan Pahuja和Mausam等人提出,旨在评估问答系统在处理复杂自然语言查询方面的能力。
- ComplexWebQuestions数据集首次应用于问答系统的评估,特别是在基于知识图谱的问答系统中,展示了其在处理复杂查询方面的有效性。
- 该数据集被广泛用于多个研究项目中,包括自然语言处理和人工智能领域的研究,进一步验证了其在提升问答系统性能方面的潜力。
- ComplexWebQuestions数据集的扩展版本发布,增加了更多的复杂查询样本,以适应不断发展的问答系统技术需求。
- 该数据集在多个国际会议和研讨会上被引用,成为评估问答系统性能的标准数据集之一。
- 1ComplexWebQuestions: A Dataset for Answering Complex Questions Using Web SearchUniversity of Washington, Allen Institute for AI · 2020年
- 2Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base EmbeddingsUniversity of Cambridge, University of Edinburgh · 2020年
- 3Exploring the Limits of Transfer Learning with a Unified Text-to-Text TransformerGoogle Research, Carnegie Mellon University · 2020年
- 4Multi-hop Question Answering via Reasoning ChainsUniversity of California, Berkeley · 2021年
- 5A Survey on Complex Question Answering over Knowledge Base: Recent Advances and ChallengesTsinghua University, Alibaba Group · 2021年
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录