vblagoje/cc_news|新闻分析数据集|信息提取数据集
收藏hugging_face2024-01-04 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/vblagoje/cc_news
下载链接
链接失效反馈资源简介:
CC-News数据集包含来自全球新闻网站的英文新闻文章,文章发布时间在2017年1月至2019年12月之间。数据集主要用于语言模型训练,包含文章的标题、文本、描述、发布日期、来源域名、图片URL和文章URL等信息。数据集的创建使用了news-please工具,并对文章进行了语言检测以确保其为英文。
提供机构:
vblagoje
原始信息汇总
数据集概述
名称: CC-News
描述: CC-News数据集包含来自全球新闻网站的708,241篇英语新闻文章,这些文章发布于2017年1月至2019年12月之间。该数据集主要用于语言模型训练,特别是文本生成和掩码语言建模任务。
语言: 英语
许可: 未知
多语言性: 单语
大小: 100K<n<1M
源数据: 原始数据
任务类别:
- 文本生成
- 掩码语言建模
数据结构:
- 数据实例: 每个实例包含文章本身及其相关字段。
- 数据字段:
date
: 发布日期description
: 文章描述或摘要domain
: 文章来源域名image_url
: 文章图片URLtext
: 文章文本title
: 文章标题url
: 文章原始URL
- 数据分割: 仅包含训练集,需通过
train
分割加载数据。
数据创建:
- 源数据: 数据由Sebastian Nagel提出、创建和维护,使用news-please进行准备,通过Spacy langdetect pipeline筛选英语文章。
- 个人和敏感信息: 数据可能包含当代公众人物或新闻中出现的个人。
使用考虑:
- 社会影响: 旨在帮助语言模型研究人员开发更好的语言模型。
- 偏见讨论: 信息不足
- 其他已知限制: 信息不足
贡献者: @vblagoje