jpft/danbooru2023|动漫图像数据集|计算机视觉数据集
收藏Danbooru2023 数据集概述
基本信息
- 名称: Danbooru2023
- 类型: 动漫图像数据集
- 图像数量: 超过500万张
- 标签数量: 平均每张图像30个标签
- 语言: 英语、日语
- 许可证: MIT
- 共享者: Nyanko Devs
数据集描述
Danbooru2023是一个大规模的动漫图像数据集,由爱好者社区贡献并详细标注。图像标签涵盖角色、场景、版权、艺术家等方面。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等计算机视觉任务。
数据集扩展
该数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,新增超过180万张图像,总大小约为8TB(8000GB)。
数据格式
图像以原始格式(JPG、PNG、GIF等)提供,便于参考和存档。图像被分桶到1000个子目录(0000-0999),这是Danbooru ID对1000取模的结果。文件布局如下:
bash / ├── danbooru2023 -> /mnt/diffusionstorage/workspace/danbooru/ │ ├── metadata │ ├── readme.md │ ├── original │ │ ├── 0000 -> data-0000.tar │ │ ├── 0001 -> data-0001.tar │ │ │ ├── 10001.jpg │ │ │ ├── 210001.png │ │ │ ├── 3120001.webp │ │ │ ├── 6513001.jpg
当前支持的文件扩展名包括:avi/bmp/gif/html/jpeg/jpg/mp3/mp4/mpg/pdf/png/rar/swf/webm/wmv/zip。
原始文件可能存在一些问题,如截断、非sRGB色彩空间、错误的文件扩展名等。在使用原始数据集时需谨慎。

Dunhuang Grottoes Painting Dataset
该数据集专为敦煌石窟壁画修复而设计,提供了大量的训练和测试样本,足以支持深度学习方法的应用。
arXiv 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
AerialMegaDepth
AerialMegaDepth数据集是由卡内基梅隆大学研究者创建的,该数据集结合了伪合成渲染和真实地面图像,旨在推进从地面和空中视角的图像中学习几何重建和视图合成任务。数据集通过将3D城市级网格的伪合成渲染与来自MegaDepth的真实地面级图像在统一坐标系中注册,包含了137个地标和132,137个地理注册图像。该数据集在具有挑战性的地面-空中场景中,显著提高了基于学习的方法在多视图几何预测和新型视图合成任务上的性能。
arXiv 收录
ELSA
ELSA(English Longitudinal Study of Ageing)是一个纵向研究项目,旨在调查英国50岁及以上人群的健康、经济状况和社会关系。数据集包括参与者的健康状况、生活方式、经济状况、社会网络等多方面的信息。
www.elsa-project.ac.uk 收录
FishBase Species List
FishBase Species List 是一个包含全球鱼类物种信息的全面数据库。该数据集提供了关于鱼类物种的详细信息,包括物种名称、分类学信息、分布区域、生态习性、繁殖行为、食性等。此外,数据集还包括了每个物种的图片和参考文献,以便用户进行深入研究。
www.fishbase.se 收录