five

legacy-datasets/wikipedia|自然语言处理数据集|多语言文本数据数据集

收藏
hugging_face2024-03-11 更新2024-06-15 收录
自然语言处理
多语言文本数据
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/wikipedia
下载链接
资源简介:
Wikipedia数据集包含所有语言的清理后的文章。该数据集是从Wikipedia的转储文件中构建的,每种语言都有一个单独的分割。每个示例包含一篇完整的Wikipedia文章的内容,并经过清理以去除标记和不需要的部分(如参考文献等)。数据集支持语言建模和掩码语言建模等任务,并且提供了多种语言的配置。
提供机构:
legacy-datasets
原始信息汇总

数据集卡片 - Wikipedia

数据集描述

数据集摘要

Wikipedia数据集包含所有语言的已清理文章。该数据集是从Wikipedia dump(https://dumps.wikimedia.org/)构建的,每个语言有一个分割。每个示例包含一个完整的Wikipedia文章内容,并进行了清理以去除markdown和不需要的部分(如参考文献等)。

文章使用mwparserfromhell工具解析,可以通过以下命令安装: bash pip install mwparserfromhell

然后,您可以按语言和日期加载Wikipedia的任何子集: python from datasets import load_dataset

load_dataset("wikipedia", language="sw", date="20220120")

您可以在这里找到完整的语言和日期列表。

一些Wikipedia子集已经由HuggingFace预处理,您可以直接加载: python from datasets import load_dataset

load_dataset("wikipedia", "20220301.en")

预处理的子集列表包括:

  • "20220301.de"
  • "20220301.en"
  • "20220301.fr"
  • "20220301.frr"
  • "20220301.it"
  • "20220301.simple"

支持的任务和排行榜

该数据集通常用于语言建模。

语言

您可以在这里找到语言列表。

数据集结构

数据实例

一个示例如下: json { "id": "1", "url": "https://simple.wikipedia.org/wiki/April", "title": "April", "text": "April is the fourth month..." }

数据字段

所有配置的数据字段相同:

  • id (str): 文章的ID。
  • url (str): 文章的URL。
  • title (str): 文章的标题。
  • text (str): 文章的文本内容。

数据分割

以下是几个配置的示例数量:

名称 训练集
20220301.de 2665357
20220301.en 6458670
20220301.fr 2402095
20220301.frr 15199
20220301.it 1743035
20220301.simple 205328

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁?

更多信息需要

注释

注释过程

更多信息需要

注释者是谁?

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

Wikipedia的大部分文本和许多图像都是共同许可的,使用Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA) 和 GNU Free Documentation License (GFDL)(未版本化,没有不变部分,封面文本或封底文本)。

引用信息

bibtex @ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }

贡献

感谢 @lewtun, @mariamabarham, @thomwolf, @lhoestq, @patrickvonplaten 添加此数据集。