Public Domain 12M|文本到图像生成数据集|AI训练数据集数据集

arXiv2024-10-30 更新2024-11-04 收录

文本到图像生成

AI训练数据集

12,400,000条

下载链接：

https://huggingface.co/datasets/Spawning/PD12M

下载链接

链接失效反馈

资源简介：

Public Domain 12M（PD12M）是由Spawning创建的大规模图像-文本数据集，包含1240万张高质量的公共领域及CC0许可图片，搭配合成字幕，旨在训练文本到图像的模型。该数据集是目前最大的公共领域图像-文本数据集，以其庞大的规模和明确的版权声明，为AI模型的训练提供了坚实的基础，同时最小化了版权担忧。PD12M的数据来源包括画廊、图书馆、档案馆、博物馆（GLAM）以及Wikimedia Commons等，通过精心筛选和治理，确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。特别地，PD12M通过Source.Plus平台引入了社区驱动的数据治理机制，以支持数据集的持续改进和维护。该数据集不仅为AI领域提供了丰富的训练资源，也为负责任的AI实践提供了范例，促进了公共AI资源的保护和利用。

提供机构：

Spawning

开放时间：

2024-10-30

创建时间：

2024-10-30

AI搜集汇总

数据集介绍

构建方式

Public Domain 12M（PD12M）数据集的构建过程严格遵循了高质量和高透明度的标准。首先，数据集从画廊、图书馆、档案馆和博物馆（GLAM）以及内容聚合器中直接收集了2310万张图像，这些机构提供了额外的质量、安全性和许可审查。此外，从Wikimedia Commons和iNaturalist分别收集了1130万和320万张图像，确保了图像的多样性和质量。所有图像在收集前都经过严格的元数据解析和过滤，仅保留明确标记为公共领域或CC0许可的图像。最终，通过自动化和手动筛选，数据集精选出1240万张高质量图像及其合成标题，确保了数据集的美学质量和版权合规性。

特点

Public Domain 12M（PD12M）数据集以其大规模、高质量和明确的版权状态著称。作为迄今为止最大的公共领域图像-文本数据集，PD12M包含1240万张图像及其合成标题，适用于训练文本到图像的模型。数据集的独特之处在于其通过Source.Plus平台引入了社区驱动的数据集治理机制，确保了数据集的持续维护和更新，减少了潜在的危害，并支持了长期的复现性。此外，PD12M的图像来源多样，涵盖了GLAM机构、Wikimedia Commons和iNaturalist，确保了数据集的广泛性和代表性。

使用方法

Public Domain 12M（PD12M）数据集主要用于训练文本到图像的生成模型。研究人员和开发者可以通过Hugging Face平台访问该数据集，并利用其提供的图像和合成标题进行模型训练。数据集的治理机制通过Source.Plus平台实现，用户可以在此平台上探索、审查和改进数据集，同时通过公开的反馈机制报告和解决潜在的问题。为了确保数据集的稳定性和复现性，数据集的维护团队定期更新和审核数据内容，确保其符合最新的版权和质量标准。

背景与挑战

背景概述

Public Domain 12M（PD12M）数据集由Jordan Meyer、Nick Padgett、Cullen Miller和Laura Exline于2024年创建，旨在为文本到图像模型的训练提供一个高质量、无版权争议的图像-文本数据集。该数据集包含了1240万张公共领域和CC0许可的图像，并配有合成标题，是目前最大的公共领域图像-文本数据集。PD12M的创建不仅解决了大规模数据集在版权、隐私和内容不当等方面的常见问题，还通过Source.Plus平台引入了创新的社区驱动数据集治理机制，确保数据集的长期维护和可重复性。

当前挑战

PD12M数据集在构建过程中面临多重挑战。首先，确保所有图像的版权状态清晰无误，避免版权纠纷，这是一个复杂且耗时的过程。其次，数据集的规模和多样性带来了内容过滤和质量控制的难题，特别是在处理可能包含不当内容或个人身份信息（PII）的图像时。此外，数据集的长期维护和更新也是一个重要挑战，需要持续的社区参与和技术支持，以确保数据集的稳定性和可用性。最后，数据集的地理、文化和历史偏见问题也需要不断监控和修正，以提高数据集的公平性和代表性。

常用场景

经典使用场景

Public Domain 12M（PD12M）数据集因其庞大的规模和高质量的图像-文本对，成为训练文本到图像模型的理想选择。该数据集包含1240万对高质量的公共领域和CC0许可的图像及其合成标题，能够有效支持基础模型的训练，同时减少版权问题的担忧。通过Source.Plus平台，PD12M还引入了创新的社区驱动数据集治理机制，确保数据集的长期维护和减少潜在危害。

实际应用

在实际应用中，PD12M数据集被广泛用于开发和训练各种文本到图像生成模型，如图像生成、图像描述和视觉问答系统等。其高质量的图像和合成标题对，使得这些模型在生成逼真图像和准确描述方面表现出色。此外，PD12M的治理机制确保了数据集的持续更新和质量维护，使其在商业和研究项目中具有广泛的应用前景。

衍生相关工作

PD12M数据集的发布催生了多项相关研究和工作，特别是在文本到图像生成模型和数据集治理领域。例如，基于PD12M的模型训练方法被应用于开发更高效的图像生成算法，而其治理机制也为其他数据集的维护和更新提供了参考。此外，PD12M的成功经验还推动了公共AI基础设施的发展，促进了AI资源的共享和保护，进一步推动了AI技术的民主化和透明化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4120个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github2024-05-31 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab2024-05-09 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv2024-10-02 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface2024-12-12 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github2024-06-06 收录