PubLayNet|文档布局分析数据集|自然语言处理数据集

github2024-04-01 更新2024-05-31 收录

文档布局分析

自然语言处理

下载链接：

https://github.com/creative-graphic-design/huggingface-datasets_PubLayNet

下载链接

链接失效反馈

资源简介：

PubLayNet是一个用于文档布局分析的数据集。它包含研究论文和文章的图像以及这些研究论文图像中各种元素（如“文本”、“列表”、“图形”等）的注释。该数据集是通过自动匹配公开可用的PubMed Central上超过100万篇PDF文章的XML表示和内容获得的。

PubLayNet is a dataset designed for document layout analysis. It comprises images of research papers and articles, along with annotations for various elements within these images, such as 'text', 'lists', 'figures', and more. This dataset was acquired by automatically matching the XML representations and contents of over a million PDF articles available on PubMed Central.

创建时间：

2023-10-29

AI搜集汇总

数据集介绍

构建方式

PubLayNet数据集的构建基于对PubMed Central上超过100万篇公开PDF文章的自动匹配处理。通过提取这些文章的XML表示形式与内容，系统生成了包含研究论文和文章图像的标注数据。这一过程主要依赖于机器生成的方式，确保了数据的高效性和一致性。

特点

PubLayNet数据集以其丰富的文档布局分析标注而著称，涵盖了页面中的多种元素，如文本、列表、图表等。该数据集为单语言（英语）设计，适用于图像分类、图像分割、图像到文本转换等多种任务。其规模庞大，标注精确，为文档布局分析领域的研究提供了坚实的基础。

使用方法

使用PubLayNet数据集时，可以通过Hugging Face的`datasets`库进行加载。用户需指定数据集路径，并选择是否解码Run-length Encoding（RLE）以转换为二进制掩码。加载后的数据集可直接应用于图像分类、分割等任务，为研究人员和开发者提供了便捷的实验平台。

背景与挑战

背景概述

PubLayNet数据集由IBM研究院于2019年推出，旨在推动文档布局分析领域的研究。该数据集基于PubMed Central上超过100万篇公开的PDF文章，通过自动匹配XML表示与图像内容，生成了包含研究论文和文章图像的丰富标注数据。其核心研究问题在于如何高效识别和分类文档中的不同元素，如文本、列表、图表等。PubLayNet的发布为文档布局分析任务提供了大规模、高质量的基准数据，显著提升了相关算法的性能，并在国际文档分析与识别会议（ICDAR）等重要学术平台上得到了广泛认可。

当前挑战

PubLayNet数据集在解决文档布局分析问题时面临多重挑战。首先，文档布局的多样性和复杂性使得精确识别和分类各类元素成为一项艰巨任务，尤其是在处理多列布局、嵌套结构或非标准格式时。其次，数据集的构建过程中，自动匹配XML与图像内容的技术难度较高，需确保标注的准确性和一致性。此外，尽管数据集规模庞大，但其来源局限于PubMed Central，可能导致数据分布偏向特定领域，限制了模型的泛化能力。这些挑战为研究者提供了进一步优化算法和扩展数据多样性的研究方向。

常用场景

经典使用场景

PubLayNet数据集在文档布局分析领域具有重要应用，尤其在研究论文和文章的自动布局识别中表现突出。该数据集通过自动匹配PubMed Central上超过100万篇PDF文章的XML表示和内容，生成了包含文本、列表、图表等元素的标注数据。研究人员利用这些标注数据，训练深度学习模型以实现文档布局的自动识别与分类，从而提升文档处理的效率与准确性。

实际应用

在实际应用中，PubLayNet数据集被广泛用于自动化文档处理系统，如智能文档编辑器、学术论文格式检查工具以及文档内容提取系统。通过利用该数据集训练的模型，企业能够实现文档布局的自动分析与优化，从而提高文档处理的自动化水平，降低人工成本，提升工作效率。

衍生相关工作

PubLayNet数据集的发布催生了一系列相关研究工作，如基于深度学习的文档布局生成、多模态文档理解以及文档元素关系建模。这些研究不仅扩展了文档布局分析的应用范围，还为相关领域的技术创新提供了新的思路。例如，基于PubLayNet的模型在文档生成与编辑任务中表现出色，为智能文档处理系统的开发奠定了坚实基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

NIST Thermochemical Database

NIST Thermochemical Database（NIST热化学数据库）是一个包含大量热化学数据的数据集，涵盖了各种化学物质的热力学性质，如焓、熵、自由能等。该数据库由美国国家标准与技术研究院（NIST）维护，旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录