legacy-datasets/wikipedia|自然语言处理数据集|多语言文本数据数据集
收藏数据集卡片 - Wikipedia
数据集描述
数据集摘要
Wikipedia数据集包含所有语言的已清理文章。该数据集是从Wikipedia dump(https://dumps.wikimedia.org/)构建的,每个语言有一个分割。每个示例包含一个完整的Wikipedia文章内容,并进行了清理以去除markdown和不需要的部分(如参考文献等)。
文章使用mwparserfromhell
工具解析,可以通过以下命令安装:
bash
pip install mwparserfromhell
然后,您可以按语言和日期加载Wikipedia的任何子集: python from datasets import load_dataset
load_dataset("wikipedia", language="sw", date="20220120")
您可以在这里找到完整的语言和日期列表。
一些Wikipedia子集已经由HuggingFace预处理,您可以直接加载: python from datasets import load_dataset
load_dataset("wikipedia", "20220301.en")
预处理的子集列表包括:
- "20220301.de"
- "20220301.en"
- "20220301.fr"
- "20220301.frr"
- "20220301.it"
- "20220301.simple"
支持的任务和排行榜
该数据集通常用于语言建模。
语言
您可以在这里找到语言列表。
数据集结构
数据实例
一个示例如下: json { "id": "1", "url": "https://simple.wikipedia.org/wiki/April", "title": "April", "text": "April is the fourth month..." }
数据字段
所有配置的数据字段相同:
id
(str
): 文章的ID。url
(str
): 文章的URL。title
(str
): 文章的标题。text
(str
): 文章的文本内容。
数据分割
以下是几个配置的示例数量:
名称 | 训练集 |
---|---|
20220301.de | 2665357 |
20220301.en | 6458670 |
20220301.fr | 2402095 |
20220301.frr | 15199 |
20220301.it | 1743035 |
20220301.simple | 205328 |
数据集创建
策划理由
源数据
初始数据收集和规范化
源语言生产者是谁?
注释
注释过程
注释者是谁?
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
Wikipedia的大部分文本和许多图像都是共同许可的,使用Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA) 和 GNU Free Documentation License (GFDL)(未版本化,没有不变部分,封面文本或封底文本)。
引用信息
bibtex @ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }
贡献
感谢 @lewtun, @mariamabarham, @thomwolf, @lhoestq, @patrickvonplaten 添加此数据集。