five

FormulaNet|数学公式检测数据集|机器学习数据集

收藏
github2022-11-21 更新2024-05-31 收录
数学公式检测
机器学习
下载链接:
https://github.com/felix-schmitt/FormulaNet
下载链接
链接失效反馈
资源简介:
FormulaNet是一个新的、大规模的数学公式检测数据集,包含来自arXiv的46,672页STEM文档,并具有13种不同的标签类型。数据集被分为训练集和验证集,用户可以通过提供的链接下载和处理数据。

FormulaNet is a novel, large-scale dataset for mathematical formula detection, comprising 46,672 pages of STEM documents sourced from arXiv, annotated with 13 distinct label types. The dataset is partitioned into training and validation sets, and users can download and process the data via the provided links.
创建时间:
2022-07-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
FormulaNet数据集的构建基于arXiv平台上的46,672页STEM文档,涵盖了13种不同类型的标签。数据集被划分为44,338页的训练集和2,334页的验证集。由于版权限制,数据集仅提供论文列表,用户需自行下载并处理相关文档。
使用方法
FormulaNet数据集的使用方法提供了两种选项:Docker方式和经典方式。Docker方式推荐使用Docker容器进行环境搭建,用户需克隆GitHub仓库并下载标注文件,随后通过Docker命令构建和运行容器。经典方式则要求用户在Ubuntu系统上安装LaTeX和Python环境,并通过脚本下载数据。两种方式均支持用户快速部署并使用该数据集进行数学公式检测任务。
背景与挑战
背景概述
FormulaNet数据集由Felix M. Schmitt-Koopmann等人于2022年创建,旨在为数学公式检测领域提供一个大规模、多样化的基准数据集。该数据集包含来自arXiv的46,672页STEM文档,涵盖了13种不同类型的标签,如内联公式、显示公式、标题、表格等。FormulaNet的创建不仅填补了数学公式检测领域数据集的空白,还为相关研究提供了丰富的实验数据,推动了该领域的技术进步。通过其开源性和广泛的应用场景,FormulaNet已成为数学公式检测研究的重要资源。
当前挑战
FormulaNet数据集在构建和应用过程中面临多重挑战。首先,数学公式的多样性和复杂性使得标注过程极为繁琐,尤其是公式与文本、图像等元素的混合布局增加了标注难度。其次,由于数据来源于arXiv,版权问题限制了数据集的直接分发,用户需自行下载和处理原始文档,增加了使用门槛。此外,数学公式检测任务本身具有较高的技术难度,尤其是在处理复杂的排版和公式结构时,现有模型的性能仍有待提升。这些挑战不仅体现在数据集的构建过程中,也反映了该领域在技术实现上的瓶颈。
常用场景
经典使用场景
FormulaNet数据集在数学公式检测领域具有广泛的应用,尤其是在处理科学、技术、工程和数学(STEM)文档时。该数据集通过提供大量标注的arXiv文档页面,支持研究人员开发和测试自动化公式检测算法。这些算法能够识别文档中的内联公式、显示公式以及其他文本元素,如表格、图表和段落,从而提升文档解析的准确性和效率。
解决学术问题
FormulaNet解决了数学公式检测中的关键问题,如公式的精确识别与分类。通过提供多样化的标注数据,该数据集帮助研究人员克服了传统方法在处理复杂文档布局时的局限性。其丰富的标注类型不仅支持公式检测,还为文档结构分析提供了基础,推动了文档理解技术的进步。
实际应用
FormulaNet的实际应用场景包括学术文献的自动化处理、科学文档的语义分析以及教育技术中的智能内容提取。例如,在学术搜索引擎中,该数据集可用于增强公式检索功能;在教育领域,它支持开发智能辅导系统,帮助学生更好地理解数学内容。此外,FormulaNet还可用于科学出版物的自动化排版和格式转换。
数据集最近研究
最新研究方向
FormulaNet数据集作为数学公式检测领域的重要资源,近年来在学术研究中得到了广泛应用。该数据集涵盖了来自arXiv的46,672页STEM文档,包含13种不同类型的标注,为数学公式检测任务提供了丰富的训练和验证数据。当前的研究方向主要集中在提升模型的检测精度和泛化能力,特别是在复杂文档环境下的公式识别。FCOS-50和FCOS-101等基线模型的引入,为后续研究提供了可靠的基准。FormulaNet的发布不仅推动了数学公式检测技术的发展,还为文档理解、信息提取等领域的交叉研究提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

D4LA-版面分析数据集

# D4LA 文档版面分析数据集 (the most Diverse and Detailed Dataset ever for Document Layout Analysis) ## 数据集概述 D4LA是面向文档版面分析的数据集。 ### 数据集简介 包含12类文档工27类文档版面类型,详细如下: ![d4la](./d4la.jpg) ### 标注格式 ``` D4LA ├── train_images │ ├── 1.jpg ├── test_images │ ├── 2.jpg ├── VGT_D4LA_grid_pkl │ ├── 1.pkl │ └── 2.pkl ├── json │ ├── train.json │ └── test.json ``` ### 引用方式 If you find this repository useful, please consider citing our work: ``` @inproceedings{da2023vgt, title={Vision Grid Transformer for Document Layout Analysis}, author={Cheng Da and Chuwei Luo and Qi Zheng and Cong Yao}, year={2023}, booktitle = {ICCV}, } ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/damo/D4LA.git ```

魔搭社区 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录