StainDoc|文档污渍去除数据集|文档数字化数据集
收藏StainRestorer 数据集概述
数据集介绍
- 名称: StainDoc
- 描述: StainDoc 是首个大规模高分辨率数据集,专门用于文档污渍去除任务,包含真实世界的数据和对应的地面真值数据。
- 来源: 由 Kaggle 提供。
数据集类型
- 类型: 文档污渍去除
- 子集:
- StainDoc_mark
- StainDoc_seal
数据集生成
- 生成方法: 基于 DocDiff 的处理流程生成。
使用方法
训练
-
下载数据集。
-
在
config.yml
文件的 TRAINING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。 -
单 GPU 训练: bash python train.py
-
多 GPU 训练: bash accelerate config accelerate launch train.py
- 如遇
accelerate
使用问题,请参考 Accelerate。
- 如遇
推理
- 在
config.yml
文件的 TESTING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。 - 运行推理脚本: bash python infer.py
引用
- 暂无引用信息。

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv2024-09-20 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心2024-03-04 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github2024-05-31 收录
中国近海台风路径集合数据集(1945-2023)
1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。
国家海洋科学数据中心2024-03-04 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github2024-06-17 收录