CogComp/trec|文本分类数据集|多类别分类数据集

hugging_face2024-01-18 更新2024-06-15 收录

文本分类

多类别分类

下载链接：

https://hf-mirror.com/datasets/CogComp/trec

下载链接

链接失效反馈

资源简介：

Text Retrieval Conference (TREC) 问题分类数据集包含5500个训练问题和500个测试问题。该数据集有6个粗粒度类别标签和50个细粒度类别标签。数据来源于四个不同的来源，包括USC发布的4500个英语问题、手动构建的约500个问题、TREC 8和TREC 9的894个问题以及TREC 10的500个测试问题。所有问题都经过人工标注。数据集的任务类别是文本分类，具体是多类分类任务。

提供机构：

CogComp

原始信息汇总

数据集概述

基本信息

数据集名称: Text Retrieval Conference Question Answering (TRECQA)
语言: 英语 (en)
许可证: 未知
多语言性: 单语种
数据集大小: 1K<n<10K
源数据: 原始数据
任务类别: 文本分类
任务ID: 多类别分类
论文ID: trecqa
美观名称: Text Retrieval Conference Question Answering

数据集结构

特征

text: 字符串类型，问题文本。
coarse_label: 类别标签类型，粗分类标签。可能的值包括：
- ABBR (0): 缩写。
- ENTY (1): 实体。
- DESC (2): 描述和抽象概念。
- HUM (3): 人类。
- LOC (4): 位置。
- NUM (5): 数值。
fine_label: 类别标签类型，细分类标签。可能的值包括：
- ABBREVIATION:
  - ABBR:abb (0): 缩写。
  - ABBR:exp (1): 缩写表达。
- ENTITY:
  - ENTY:animal (2): 动物。
  - ENTY:body (3): 身体器官。
  - ENTY:color (4): 颜色。
  - ENTY:cremat (5): 创作作品。
  - ENTY:currency (6): 货币名称。
  - ENTY:dismed (7): 疾病和药物。
  - ENTY:event (8): 事件。
  - ENTY:food (9): 食物。
  - ENTY:instru (10): 乐器。
  - ENTY:lang (11): 语言。
  - ENTY:letter (12): 字母。
  - ENTY:other (13): 其他实体。
  - ENTY:plant (14): 植物。
  - ENTY:product (15): 产品。
  - ENTY:religion (16): 宗教。
  - ENTY:sport (17): 运动。
  - ENTY:substance (18): 元素和物质。
  - ENTY:symbol (19): 符号和标志。
  - ENTY:techmeth (20): 技术和方法。
  - ENTY:termeq (21): 等效术语。
  - ENTY:veh (22): 车辆。
  - ENTY:word (23): 特殊属性的词。
- DESCRIPTION:
  - DESC:def (24): 定义。
  - DESC:desc (25): 描述。
  - DESC:manner (26): 行为方式。
  - DESC:reason (27): 原因。
- HUMAN:
  - HUM:gr (28): 人群或组织。
  - HUM:ind (29): 个人。
  - HUM:title (30): 人名。
  - HUM:desc (31): 人的描述。
- LOCATION:
  - LOC:city (32): 城市。
  - LOC:country (33): 国家。
  - LOC:mount (34): 山。
  - LOC:other (35): 其他位置。
  - LOC:state (36): 州。
- NUMERIC:
  - NUM:code (37): 代码。
  - NUM:count (38): 数量。
  - NUM:date (39): 日期。
  - NUM:dist (40): 距离。
  - NUM:money (41): 价格。
  - NUM:ord (42): 顺序。
  - NUM:other (43): 其他数字。
  - NUM:period (44): 时间段。
  - NUM:perc (45): 百分比。
  - NUM:speed (46): 速度。
  - NUM:temp (47): 温度。
  - NUM:volsize (48): 体积和大小。
  - NUM:weight (49): 重量。

数据分割

train: 5452 个样本
test: 500 个样本

数据集创建

数据集摘要

训练集: 5452 个标记问题
测试集: 500 个标记问题
粗分类标签: 6 个
细分类标签: 50 个
平均句子长度: 10
词汇量: 8700

数据来源

4500 个英语问题来自 USC (Hovy et al., 2001)
约 500 个手动构建的问题用于少数罕见类别
894 个 TREC 8 和 TREC 9 问题
500 个 TREC 10 问题作为测试集

引用信息

@inproceedings{li-roth-2002-learning, title = "Learning Question Classifiers", author = "Li, Xin and Roth, Dan", booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics", year = "2002", url = "https://www.aclweb.org/anthology/C02-1150", } @inproceedings{hovy-etal-2001-toward, title = "Toward Semantics-Based Answer Pinpointing", author = "Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Lin, Chin-Yew and Ravichandran, Deepak", booktitle = "Proceedings of the First International Conference on Human Language Technology Research", year = "2001", url = "https://www.aclweb.org/anthology/H01-1069", }

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于专家生成的方法，汇集了来自多个来源的英语问题，包括USC发布的4500个问题、针对少数罕见类别手动构建的约500个问题，以及TREC 8、TREC 9和TREC 10的问题。这些问题经过专家的手动标注，形成了包含5452个训练样本和500个测试样本的数据集。

特点

该数据集的显著特点在于其精细的分类体系，包含6个粗粒度类别和50个细粒度类别，涵盖了从缩写、实体到描述和数字等多个领域。此外，数据集的平均句子长度为10，词汇量达到8700，为多类分类任务提供了丰富的语料资源。

使用方法

该数据集适用于多类文本分类任务，特别适合于需要精细分类的问题解答系统。使用者可以通过加载数据集中的训练和测试分割，利用'text'字段进行模型训练，并根据'coarse_label'和'fine_label'字段进行分类性能评估。数据集的结构清晰，便于直接应用于各种自然语言处理模型。

背景与挑战

背景概述

在自然语言处理领域，问题分类是一个关键任务，旨在将自然语言问题映射到预定义的类别中。CogComp/trec数据集，即Text Retrieval Conference Question Answering数据集，由宾夕法尼亚大学计算机与信息科学系的研究团队创建，主要用于训练和评估问题分类模型。该数据集包含了5500个标注问题，分为训练集和测试集，涵盖了6个粗粒度类别和50个细粒度类别。数据集的构建旨在解决复杂问题分类的挑战，推动了问答系统和信息检索技术的发展。

当前挑战

CogComp/trec数据集在构建过程中面临多个挑战。首先，问题分类的复杂性在于需要准确捕捉问题的语义和上下文信息，以便将其归类到正确的类别中。其次，数据集的标注过程依赖于专家知识，确保了标注的高质量，但也增加了数据集构建的难度和成本。此外，数据集的多样性和覆盖范围有限，可能影响模型在处理未见类别问题时的泛化能力。这些挑战共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

在自然语言处理领域，CogComp/trec数据集的经典使用场景主要集中在问答系统的分类任务上。该数据集包含了5500个训练问题和500个测试问题，每个问题都被标注了粗粒度和细粒度的类别标签。通过这些标注，研究者可以训练和评估模型在多类分类任务中的表现，从而提升问答系统对不同类型问题的理解和响应能力。

实际应用

在实际应用中，CogComp/trec数据集被广泛用于开发和优化问答系统，特别是在搜索引擎和智能助手中。通过使用该数据集训练的模型，系统能够更准确地理解用户的查询意图，并提供更为精准的答案。此外，该数据集还可用于教育领域的智能辅导系统，帮助学生快速找到所需信息，提升学习效率。

衍生相关工作

基于CogComp/trec数据集，研究者们开展了一系列相关工作，包括但不限于改进分类算法、探索多标签分类技术以及开发基于深度学习的问答模型。这些工作不仅提升了问答系统的性能，还为自然语言处理领域的其他研究提供了新的思路和方法。例如，一些研究通过引入注意力机制和预训练语言模型，进一步提高了问题分类的准确性。

以上内容由AI搜集并总结生成