QTL|动物科学数据集|命名实体识别数据集

arXiv2024-02-26 更新2024-06-21 收录

动物科学

命名实体识别

下载链接：

https://github.com/liyp0095/CuPUL/tree/main

下载链接

链接失效反馈

资源简介：

QTL数据集是由爱荷华州立大学创建的一个实际应用数据集，专注于动物科学领域的命名实体识别（NER）任务。该数据集包含18706条从PubMed精心挑选的与六种物种相关的定量性状位点（QTL）研究摘要，总计有18706个句子，514176个Tokens。数据集的创建过程中，收集了来自四个领域本体专业的3884个性状名称字典，用于远距离标注过程。QTL数据集主要用于解决动物基因组学研究和育种方法中的重要任务，即识别描述性表达的性状实体。

提供机构：

爱荷华州立大学

创建时间：

2024-02-23

AI搜集汇总

数据集介绍

构建方式

QTL数据集通过远监督（Distant Supervision）方法构建，利用专业领域的知识库对命名实体识别（NER）任务进行自动标注。具体而言，该数据集从PubMed中收集了1,716篇与定量性状位点（QTL）研究相关的摘要，涵盖六种物种，并从四个领域本体中提取了3,884个特征名称作为标注字典。为了评估模型性能，领域专家对107篇摘要进行了人工标注，并将其分为验证集和测试集。

特点

QTL数据集的主要特点在于其专注于动物科学领域的‘特征’实体识别，这与传统的NER数据集（如人名、地名等）不同。此外，该数据集的标注过程引入了远监督的噪声问题，如假阳性、假阴性和类型错误，这使得数据集更具挑战性。数据集的验证集规模较小，仅包含21个句子，这反映了实际应用中常见的资源限制问题。

使用方法

QTL数据集可用于评估和改进远监督命名实体识别（DS-NER）方法的性能。研究者可以通过该数据集测试其模型在噪声标注环境下的鲁棒性，并探索如何通过课程学习（Curriculum Learning）等方法减少噪声对模型训练的影响。此外，数据集的标注方式和领域特性使其特别适合用于生物医学和动物科学领域的NER研究。

背景与挑战

背景概述

QTL数据集是由爱荷华州立大学的研究人员Yuepei Li、Kang Zhou、Qiao Qiao、Qing Wang和Qi Li于2024年创建的，旨在解决远监督命名实体识别（DS-NER）中的标签噪声问题。该数据集专注于动物科学领域，特别是基因型-表型数据库构建中的‘性状’实体识别，旨在推动畜牧业基因组研究和育种方法的进步。QTL数据集通过使用专业领域词典进行远监督标注，包含1,716篇来自PubMed的摘要，涵盖18,706个句子，514,176个标记。该数据集的创建为评估现有DS-NER方法在实际应用中的表现提供了新的基准，揭示了现有方法在处理标签噪声时的不足。

当前挑战

QTL数据集的构建和应用面临多重挑战。首先，远监督标注过程中产生的标签噪声，如假阳性、假阴性和类型错误，严重影响了模型的性能。其次，在实际应用中，验证集的规模较小（仅21个句子），导致超参数调优困难，可能影响模型的最终表现。此外，现有的DS-NER方法在处理标签噪声时，通常依赖于中等训练程度的模型进行噪声检测，但这种模型的训练本身也受到噪声标签的影响，可能导致检测结果存在偏差。最后，QTL数据集中的‘性状’实体多为描述性表达，而非传统NER数据集中的专有名词，这进一步增加了实体识别的复杂性。

常用场景

经典使用场景

QTL数据集在远监督命名实体识别（DS-NER）任务中被广泛使用，尤其是在处理标签噪声问题时。该数据集通过远监督方法生成标签，适用于评估现有DS-NER方法在实际应用中的表现。经典的应用场景包括使用QTL数据集来测试和改进现有的DS-NER模型，特别是在处理标签噪声（如假阳性、假阴性和类型错误）时，评估模型的鲁棒性和性能。

衍生相关工作

QTL数据集的提出催生了一系列基于课程学习的DS-NER方法，特别是CuPUL方法的提出，显著提升了模型在噪声标签环境下的表现。此外，QTL数据集还激发了对远监督方法的进一步研究，尤其是在处理标签噪声和提升模型鲁棒性方面的探索。相关工作包括对现有DS-NER方法的重新评估，以及对不同领域（如生物医学）中远监督方法的扩展应用。

数据集最近研究