PubLayNet|文档布局分析数据集|科学文档处理数据集

arXiv2019-08-16 更新2024-06-21 收录

文档布局分析

科学文档处理

下载链接：

https://github.com/ibm-aur-nlp/PubLayNet

下载链接

链接失效反馈

资源简介：

PubLayNet是由IBM研究院澳大利亚分部创建的大型文档布局分析数据集，包含超过36万篇科学文章的图像，这些图像中的典型文档布局元素如文本、标题、列表、图表和表格均被标注。数据集通过自动匹配PubMed Central™的XML表示和PDF内容生成，旨在支持更先进的文档布局分析模型的开发和评估。PubLayNet的应用领域包括文本分类、实体识别和图表理解等，旨在解决科学文档自动解析中的布局识别问题。

提供机构：

IBM研究院澳大利亚分部

创建时间：

2019-08-16

AI搜集汇总

数据集介绍

构建方式

PubLayNet数据集的构建方式是通过自动匹配超过一百万篇公开可用的PDF文章的XML表示和内容。该数据集包含超过36万张文档图像，其中标注了典型的文档布局元素，如文本、标题、列表、图表和表格。通过将PMCOA数据集中的XML版本与PDF版本进行匹配，可以识别文档布局组件，从而实现自动标注。

特点

PubLayNet数据集的特点在于其规模庞大，包含超过36万张文档图像，并且涵盖了多种典型的文档布局元素。此外，该数据集的自动标注方法保证了标注的高质量，使得训练出的深度神经网络能够准确识别文档布局。同时，该数据集的构建方式也使得其能够支持更高级的文档布局分析模型的发展与评估。

使用方法

PubLayNet数据集的使用方法主要包括以下几个方面：首先，可以使用该数据集训练深度神经网络模型，以实现对文档布局的准确识别。其次，可以利用该数据集进行模型微调，使其能够适应不同领域的文档布局分析任务。最后，该数据集还可以用于评估模型在不同领域中的泛化能力，从而为更高级的文档布局分析模型提供支持。

背景与挑战

背景概述

在处理非结构化数字文档时，识别文档布局是将其解析为结构化机器可读格式的重要步骤。深度神经网络在计算机视觉领域的应用已证明是分析文档布局的有效方法。然而，当前公开可用的文档布局数据集规模远远小于已建立的计算机视觉数据集。模型必须通过在传统计算机视觉数据集上预训练的基础模型进行迁移学习来训练。本文中，我们通过自动匹配超过100万篇公开可用的PubMed Central™ PDF文章的XML表示和内容，开发了用于文档布局分析的PubLayNet数据集。该数据集的规模与已建立的计算机视觉数据集相当，包含超过36万张文档图像，其中标注了典型的文档布局元素。实验表明，在PubLayNet上训练的深度神经网络能够准确地识别科学文章的布局。预训练模型也是对不同的文档领域进行迁移学习的更有效的基模型。我们发布该数据集以支持开发更先进的文档布局分析模型。该数据集由IBM Research Australia的研究人员创建，包括Xu Zhong、Jianbin Tang和Antonio Jimeno Yepes等人。该数据集对文档布局分析领域产生了深远的影响，推动了该领域的发展。

当前挑战

PubLayNet数据集面临的挑战主要包括：1)解决领域问题：尽管PubLayNet数据集规模庞大，但其主要集中于科学文献领域，对于其他类型的文档布局分析，如政府文件、保险文件等，其适用性仍有待提高；2)构建过程中遇到的挑战：由于PubMed Central™的XML和PDF版本在内容上存在细微差异，需要采用模糊字符串匹配算法来容忍这些差异，并确保自动标注的质量。此外，为了提高模型在不同领域的泛化能力，需要对数据集进行进一步的扩展和优化。

常用场景

经典使用场景

PubLayNet数据集在文档布局分析领域扮演着至关重要的角色。其最经典的使用场景之一是作为深度学习模型的训练数据集，用以识别和理解文档图像中的布局元素。通过训练，模型能够准确地识别文档中的文本、标题、列表、表格和图形等布局元素，从而实现对文档内容的解析和提取。

解决学术问题

在学术研究方面，PubLayNet数据集解决了文档布局分析领域的一个关键问题，即缺乏大规模的标注数据。由于手动标注文档布局既耗时又成本高昂，现有的公开数据集规模远小于计算机视觉领域的数据集。PubLayNet通过自动匹配超过100万篇公开的PDF文章的XML表示和内容，生成了一个包含超过36万张文档图像的数据集，为深度学习模型提供了丰富的训练资源。此外，该数据集还展示了预训练模型在迁移学习中的优势，使得模型能够在不同的文档领域进行有效的应用。

衍生相关工作

PubLayNet数据集的发布也促进了相关领域的研究和发展。基于该数据集，研究人员开发了一系列先进的模型，如Mask-RCNN和Faster-RCNN，用于文档布局分析。这些模型在PubLayNet数据集上取得了显著的性能提升，并成功地应用于不同的文档领域，如医学文献、政府文档和健康保险文档等。此外，PubLayNet还衍生出了一系列相关的研究工作，如自动标注算法、文档内容理解和跨领域迁移学习等，为文档布局分析领域的研究提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。