five

CogComp/trec|文本分类数据集|多类别分类数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
文本分类
多类别分类
下载链接:
https://hf-mirror.com/datasets/CogComp/trec
下载链接
链接失效反馈
资源简介:
Text Retrieval Conference (TREC) 问题分类数据集包含5500个训练问题和500个测试问题。该数据集有6个粗粒度类别标签和50个细粒度类别标签。数据来源于四个不同的来源,包括USC发布的4500个英语问题、手动构建的约500个问题、TREC 8和TREC 9的894个问题以及TREC 10的500个测试问题。所有问题都经过人工标注。数据集的任务类别是文本分类,具体是多类分类任务。
提供机构:
CogComp
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Text Retrieval Conference Question Answering (TRECQA)
  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类别分类
  • 论文ID: trecqa
  • 美观名称: Text Retrieval Conference Question Answering

数据集结构

特征

  • text: 字符串类型,问题文本。
  • coarse_label: 类别标签类型,粗分类标签。可能的值包括:
    • ABBR (0): 缩写。
    • ENTY (1): 实体。
    • DESC (2): 描述和抽象概念。
    • HUM (3): 人类。
    • LOC (4): 位置。
    • NUM (5): 数值。
  • fine_label: 类别标签类型,细分类标签。可能的值包括:
    • ABBREVIATION:
      • ABBR:abb (0): 缩写。
      • ABBR:exp (1): 缩写表达。
    • ENTITY:
      • ENTY:animal (2): 动物。
      • ENTY:body (3): 身体器官。
      • ENTY:color (4): 颜色。
      • ENTY:cremat (5): 创作作品。
      • ENTY:currency (6): 货币名称。
      • ENTY:dismed (7): 疾病和药物。
      • ENTY:event (8): 事件。
      • ENTY:food (9): 食物。
      • ENTY:instru (10): 乐器。
      • ENTY:lang (11): 语言。
      • ENTY:letter (12): 字母。
      • ENTY:other (13): 其他实体。
      • ENTY:plant (14): 植物。
      • ENTY:product (15): 产品。
      • ENTY:religion (16): 宗教。
      • ENTY:sport (17): 运动。
      • ENTY:substance (18): 元素和物质。
      • ENTY:symbol (19): 符号和标志。
      • ENTY:techmeth (20): 技术和方法。
      • ENTY:termeq (21): 等效术语。
      • ENTY:veh (22): 车辆。
      • ENTY:word (23): 特殊属性的词。
    • DESCRIPTION:
      • DESC:def (24): 定义。
      • DESC:desc (25): 描述。
      • DESC:manner (26): 行为方式。
      • DESC:reason (27): 原因。
    • HUMAN:
      • HUM:gr (28): 人群或组织。
      • HUM:ind (29): 个人。
      • HUM:title (30): 人名。
      • HUM:desc (31): 人的描述。
    • LOCATION:
      • LOC:city (32): 城市。
      • LOC:country (33): 国家。
      • LOC:mount (34): 山。
      • LOC:other (35): 其他位置。
      • LOC:state (36): 州。
    • NUMERIC:
      • NUM:code (37): 代码。
      • NUM:count (38): 数量。
      • NUM:date (39): 日期。
      • NUM:dist (40): 距离。
      • NUM:money (41): 价格。
      • NUM:ord (42): 顺序。
      • NUM:other (43): 其他数字。
      • NUM:period (44): 时间段。
      • NUM:perc (45): 百分比。
      • NUM:speed (46): 速度。
      • NUM:temp (47): 温度。
      • NUM:volsize (48): 体积和大小。
      • NUM:weight (49): 重量。

数据分割

  • train: 5452 个样本
  • test: 500 个样本

数据集创建

数据集摘要

  • 训练集: 5452 个标记问题
  • 测试集: 500 个标记问题
  • 粗分类标签: 6 个
  • 细分类标签: 50 个
  • 平均句子长度: 10
  • 词汇量: 8700

数据来源

  • 4500 个英语问题来自 USC (Hovy et al., 2001)
  • 约 500 个手动构建的问题用于少数罕见类别
  • 894 个 TREC 8 和 TREC 9 问题
  • 500 个 TREC 10 问题作为测试集

引用信息

@inproceedings{li-roth-2002-learning, title = "Learning Question Classifiers", author = "Li, Xin and Roth, Dan", booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics", year = "2002", url = "https://www.aclweb.org/anthology/C02-1150", } @inproceedings{hovy-etal-2001-toward, title = "Toward Semantics-Based Answer Pinpointing", author = "Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Lin, Chin-Yew and Ravichandran, Deepak", booktitle = "Proceedings of the First International Conference on Human Language Technology Research", year = "2001", url = "https://www.aclweb.org/anthology/H01-1069", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于专家生成的方法,汇集了来自多个来源的英语问题,包括USC发布的4500个问题、针对少数罕见类别手动构建的约500个问题,以及TREC 8、TREC 9和TREC 10的问题。这些问题经过专家的手动标注,形成了包含5452个训练样本和500个测试样本的数据集。
特点
该数据集的显著特点在于其精细的分类体系,包含6个粗粒度类别和50个细粒度类别,涵盖了从缩写、实体到描述和数字等多个领域。此外,数据集的平均句子长度为10,词汇量达到8700,为多类分类任务提供了丰富的语料资源。
使用方法
该数据集适用于多类文本分类任务,特别适合于需要精细分类的问题解答系统。使用者可以通过加载数据集中的训练和测试分割,利用'text'字段进行模型训练,并根据'coarse_label'和'fine_label'字段进行分类性能评估。数据集的结构清晰,便于直接应用于各种自然语言处理模型。
背景与挑战
背景概述
在自然语言处理领域,问题分类是一个关键任务,旨在将自然语言问题映射到预定义的类别中。CogComp/trec数据集,即Text Retrieval Conference Question Answering数据集,由宾夕法尼亚大学计算机与信息科学系的研究团队创建,主要用于训练和评估问题分类模型。该数据集包含了5500个标注问题,分为训练集和测试集,涵盖了6个粗粒度类别和50个细粒度类别。数据集的构建旨在解决复杂问题分类的挑战,推动了问答系统和信息检索技术的发展。
当前挑战
CogComp/trec数据集在构建过程中面临多个挑战。首先,问题分类的复杂性在于需要准确捕捉问题的语义和上下文信息,以便将其归类到正确的类别中。其次,数据集的标注过程依赖于专家知识,确保了标注的高质量,但也增加了数据集构建的难度和成本。此外,数据集的多样性和覆盖范围有限,可能影响模型在处理未见类别问题时的泛化能力。这些挑战共同构成了该数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在自然语言处理领域,CogComp/trec数据集的经典使用场景主要集中在问答系统的分类任务上。该数据集包含了5500个训练问题和500个测试问题,每个问题都被标注了粗粒度和细粒度的类别标签。通过这些标注,研究者可以训练和评估模型在多类分类任务中的表现,从而提升问答系统对不同类型问题的理解和响应能力。
实际应用
在实际应用中,CogComp/trec数据集被广泛用于开发和优化问答系统,特别是在搜索引擎和智能助手中。通过使用该数据集训练的模型,系统能够更准确地理解用户的查询意图,并提供更为精准的答案。此外,该数据集还可用于教育领域的智能辅导系统,帮助学生快速找到所需信息,提升学习效率。
衍生相关工作
基于CogComp/trec数据集,研究者们开展了一系列相关工作,包括但不限于改进分类算法、探索多标签分类技术以及开发基于深度学习的问答模型。这些工作不仅提升了问答系统的性能,还为自然语言处理领域的其他研究提供了新的思路和方法。例如,一些研究通过引入注意力机制和预训练语言模型,进一步提高了问题分类的准确性。
以上内容由AI搜集并总结生成