SciER|科学信息提取数据集|人工智能数据集

arXiv2024-10-28 更新2024-10-30 收录

科学信息提取

人工智能

下载链接：

https://github.com/edzq/SciER

下载链接

链接失效反馈

资源简介：

SciER是一个用于科学文档中实体和关系提取的数据集，由天普大学创建。该数据集包含106篇手动标注的全文科学出版物，涵盖超过24,000个实体和12,000个关系。数据集内容来自Papers with Code网站，涉及人工智能领域的自然语言处理、机器学习、计算机视觉等主题。创建过程中，数据集采用了细粒度的关系标签集，以捕捉实体在全文中的复杂交互。SciER数据集主要用于评估和开发科学信息提取模型，旨在解决科学文献中实体和关系的精确提取问题。

提供机构：

天普大学

创建时间：

2024-10-28

原始信息汇总

SciER 数据集概述

数据集内容

实体标注：包含科学文档中的实体标注。
关系标注：包含科学文档中的关系标注。

实体类型

Dataset
Method
Task

数据格式

LLM 文件夹

文件格式：每行是一个句子，包含以下结构： json { "doc_id": "文档ID", "sentence": "句子文本", "ner": [["实体字符串", "实体类型"]], "rel": [["主体实体", "关系类型", "客体实体"]], "rel_plus": [["主体实体:实体类型", "关系类型", "客体实体:实体类型"]] }

PLM 文件夹

文件格式：用于训练监督模型，包含以下结构： json { "doc_key": "文档ID", "sentences": [["句子中的词"]], "ner": [[边界位置, 实体类型]], "relations": [[主体实体边界, 客体实体边界, 关系类型]] }

AI搜集汇总

数据集介绍

构建方式

SciER数据集的构建基于106篇经过人工标注的全文科学出版物，涵盖了与数据集、方法和任务相关的实体及其关系。这些出版物来自Papers with Code网站，涵盖了人工智能领域的多个子领域，如自然语言处理、机器学习和计算机视觉。数据集包含了超过24,000个实体和12,000个关系，通过精细的标注过程捕捉了全文中的复杂交互。此外，数据集还提供了一个分布外的测试集，以评估模型在面对新发布文献时的鲁棒性。

特点

SciER数据集的主要特点在于其全面性和精细性。首先，它涵盖了全文科学出版物，而非仅限于摘要或特定段落，从而捕捉了更多上下文中的实体提及和关系。其次，数据集引入了细粒度的关系标签集，用于描述数据集、方法和任务之间的交互，如TRAINED-WITH和EVALUATED-WITH等。此外，SciER还提供了分布外的测试集，以更真实地评估模型的泛化能力。

使用方法

SciER数据集可用于评估和开发科学信息提取模型，特别是命名实体识别（NER）和关系提取（RE）任务。研究者可以使用该数据集来训练和验证模型，以识别和分类科学文献中的实体及其关系。数据集支持单独的NER和RE任务，也支持端到端的实体和关系提取（ERE）任务。通过使用SciER，研究者可以开发出更精确和鲁棒的科学信息提取模型，从而推动科学文献挖掘领域的发展。

背景与挑战

背景概述

SciER数据集由Temple University和University of Illinois Chicago的研究团队于2024年发布，专注于从科学文献中提取实体及其关系。该数据集的核心研究问题是如何从复杂的科学文本中准确提取与数据集、方法和任务相关的实体及其关系。SciER的发布填补了现有数据集在全文本标注方面的空白，提供了106篇手动标注的科学出版物，包含超过24,000个实体和12,000个关系。这一数据集的推出，极大地推动了科学信息提取（SciIE）领域的发展，特别是在科学知识图谱构建、数据搜索和学术问答等下游应用中。

当前挑战

SciER数据集在构建过程中面临多项挑战。首先，科学文本的高度复杂性和专业性使得数据标注成本高昂，且依赖于专家标注者，导致高质量标注数据的稀缺。其次，科学文本中不断涌现的新术语和概念使得实体和关系的提取更加复杂，与一般领域信息提取相比，科学信息提取面临更严重的时态和概念偏移问题。此外，现有数据集多限于特定部分的标注，如摘要或特定段落，而SciER则致力于全文本的标注，这增加了标注的难度和工作量。最后，SciER引入了细粒度的关系标签集，以捕捉实体间复杂的交互，这对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

SciER数据集在科学文献信息提取领域中被广泛应用于实体和关系的提取任务。其经典使用场景包括从科学文档中识别和提取与数据集、方法和任务相关的实体及其关系。通过提供细粒度的标签集，SciER能够捕捉到科学文献中复杂的实体交互，从而支持更精确的关系提取。此外，SciER还提供了分布外测试集，以评估模型在处理新发布文献时的鲁棒性。

解决学术问题

SciER数据集解决了科学信息提取（SciIE）领域中常见的学术研究问题，如科学命名实体识别（SciNER）和科学关系提取（SciRE）。由于科学文本的高复杂性和标注成本，现有数据集通常仅限于特定部分的标注，导致多样化的实体提及和关系丢失。SciER通过全文本的手动标注，提供了丰富的实体和关系信息，促进了创新模型的开发，进一步推动了SciIE领域的发展。

衍生相关工作

SciER数据集的发布催生了一系列相关的经典工作，特别是在科学信息提取和自然语言处理领域。例如，基于SciER数据集的研究工作提出了新的模型和方法，用于改进实体和关系的提取性能。此外，SciER还激发了对分布外测试集的研究，探索模型在处理新领域文献时的表现。这些衍生工作不仅提升了SciIE的研究水平，也为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。