CogComp/trec|文本分类数据集|多类别分类数据集
收藏hugging_face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/CogComp/trec
下载链接
链接失效反馈资源简介:
Text Retrieval Conference (TREC) 问题分类数据集包含5500个训练问题和500个测试问题。该数据集有6个粗粒度类别标签和50个细粒度类别标签。数据来源于四个不同的来源,包括USC发布的4500个英语问题、手动构建的约500个问题、TREC 8和TREC 9的894个问题以及TREC 10的500个测试问题。所有问题都经过人工标注。数据集的任务类别是文本分类,具体是多类分类任务。
提供机构:
CogComp
原始信息汇总
数据集概述
基本信息
- 数据集名称: Text Retrieval Conference Question Answering (TRECQA)
- 语言: 英语 (en)
- 许可证: 未知
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 文本分类
- 任务ID: 多类别分类
- 论文ID: trecqa
- 美观名称: Text Retrieval Conference Question Answering
数据集结构
特征
- text: 字符串类型,问题文本。
- coarse_label: 类别标签类型,粗分类标签。可能的值包括:
- ABBR (0): 缩写。
- ENTY (1): 实体。
- DESC (2): 描述和抽象概念。
- HUM (3): 人类。
- LOC (4): 位置。
- NUM (5): 数值。
- fine_label: 类别标签类型,细分类标签。可能的值包括:
- ABBREVIATION:
- ABBR:abb (0): 缩写。
- ABBR:exp (1): 缩写表达。
- ENTITY:
- ENTY:animal (2): 动物。
- ENTY:body (3): 身体器官。
- ENTY:color (4): 颜色。
- ENTY:cremat (5): 创作作品。
- ENTY:currency (6): 货币名称。
- ENTY:dismed (7): 疾病和药物。
- ENTY:event (8): 事件。
- ENTY:food (9): 食物。
- ENTY:instru (10): 乐器。
- ENTY:lang (11): 语言。
- ENTY:letter (12): 字母。
- ENTY:other (13): 其他实体。
- ENTY:plant (14): 植物。
- ENTY:product (15): 产品。
- ENTY:religion (16): 宗教。
- ENTY:sport (17): 运动。
- ENTY:substance (18): 元素和物质。
- ENTY:symbol (19): 符号和标志。
- ENTY:techmeth (20): 技术和方法。
- ENTY:termeq (21): 等效术语。
- ENTY:veh (22): 车辆。
- ENTY:word (23): 特殊属性的词。
- DESCRIPTION:
- DESC:def (24): 定义。
- DESC:desc (25): 描述。
- DESC:manner (26): 行为方式。
- DESC:reason (27): 原因。
- HUMAN:
- HUM:gr (28): 人群或组织。
- HUM:ind (29): 个人。
- HUM:title (30): 人名。
- HUM:desc (31): 人的描述。
- LOCATION:
- LOC:city (32): 城市。
- LOC:country (33): 国家。
- LOC:mount (34): 山。
- LOC:other (35): 其他位置。
- LOC:state (36): 州。
- NUMERIC:
- NUM:code (37): 代码。
- NUM:count (38): 数量。
- NUM:date (39): 日期。
- NUM:dist (40): 距离。
- NUM:money (41): 价格。
- NUM:ord (42): 顺序。
- NUM:other (43): 其他数字。
- NUM:period (44): 时间段。
- NUM:perc (45): 百分比。
- NUM:speed (46): 速度。
- NUM:temp (47): 温度。
- NUM:volsize (48): 体积和大小。
- NUM:weight (49): 重量。
- ABBREVIATION:
数据分割
- train: 5452 个样本
- test: 500 个样本
数据集创建
数据集摘要
- 训练集: 5452 个标记问题
- 测试集: 500 个标记问题
- 粗分类标签: 6 个
- 细分类标签: 50 个
- 平均句子长度: 10
- 词汇量: 8700
数据来源
- 4500 个英语问题来自 USC (Hovy et al., 2001)
- 约 500 个手动构建的问题用于少数罕见类别
- 894 个 TREC 8 和 TREC 9 问题
- 500 个 TREC 10 问题作为测试集
引用信息
@inproceedings{li-roth-2002-learning, title = "Learning Question Classifiers", author = "Li, Xin and Roth, Dan", booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics", year = "2002", url = "https://www.aclweb.org/anthology/C02-1150", } @inproceedings{hovy-etal-2001-toward, title = "Toward Semantics-Based Answer Pinpointing", author = "Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Lin, Chin-Yew and Ravichandran, Deepak", booktitle = "Proceedings of the First International Conference on Human Language Technology Research", year = "2001", url = "https://www.aclweb.org/anthology/H01-1069", }
AI搜集汇总
数据集介绍

构建方式
该数据集的构建基于专家生成的方法,汇集了来自多个来源的英语问题,包括USC发布的4500个问题、针对少数罕见类别手动构建的约500个问题,以及TREC 8、TREC 9和TREC 10的问题。这些问题经过专家的手动标注,形成了包含5452个训练样本和500个测试样本的数据集。
特点
该数据集的显著特点在于其精细的分类体系,包含6个粗粒度类别和50个细粒度类别,涵盖了从缩写、实体到描述和数字等多个领域。此外,数据集的平均句子长度为10,词汇量达到8700,为多类分类任务提供了丰富的语料资源。
使用方法
该数据集适用于多类文本分类任务,特别适合于需要精细分类的问题解答系统。使用者可以通过加载数据集中的训练和测试分割,利用'text'字段进行模型训练,并根据'coarse_label'和'fine_label'字段进行分类性能评估。数据集的结构清晰,便于直接应用于各种自然语言处理模型。
背景与挑战
背景概述
在自然语言处理领域,问题分类是一个关键任务,旨在将自然语言问题映射到预定义的类别中。CogComp/trec数据集,即Text Retrieval Conference Question Answering数据集,由宾夕法尼亚大学计算机与信息科学系的研究团队创建,主要用于训练和评估问题分类模型。该数据集包含了5500个标注问题,分为训练集和测试集,涵盖了6个粗粒度类别和50个细粒度类别。数据集的构建旨在解决复杂问题分类的挑战,推动了问答系统和信息检索技术的发展。
当前挑战
CogComp/trec数据集在构建过程中面临多个挑战。首先,问题分类的复杂性在于需要准确捕捉问题的语义和上下文信息,以便将其归类到正确的类别中。其次,数据集的标注过程依赖于专家知识,确保了标注的高质量,但也增加了数据集构建的难度和成本。此外,数据集的多样性和覆盖范围有限,可能影响模型在处理未见类别问题时的泛化能力。这些挑战共同构成了该数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在自然语言处理领域,CogComp/trec数据集的经典使用场景主要集中在问答系统的分类任务上。该数据集包含了5500个训练问题和500个测试问题,每个问题都被标注了粗粒度和细粒度的类别标签。通过这些标注,研究者可以训练和评估模型在多类分类任务中的表现,从而提升问答系统对不同类型问题的理解和响应能力。
实际应用
在实际应用中,CogComp/trec数据集被广泛用于开发和优化问答系统,特别是在搜索引擎和智能助手中。通过使用该数据集训练的模型,系统能够更准确地理解用户的查询意图,并提供更为精准的答案。此外,该数据集还可用于教育领域的智能辅导系统,帮助学生快速找到所需信息,提升学习效率。
衍生相关工作
基于CogComp/trec数据集,研究者们开展了一系列相关工作,包括但不限于改进分类算法、探索多标签分类技术以及开发基于深度学习的问答模型。这些工作不仅提升了问答系统的性能,还为自然语言处理领域的其他研究提供了新的思路和方法。例如,一些研究通过引入注意力机制和预训练语言模型,进一步提高了问题分类的准确性。
以上内容由AI搜集并总结生成