vblagoje/cc_news|新闻分析数据集|信息提取数据集

hugging_face2024-01-04 更新2024-04-19 收录

新闻分析

信息提取

下载链接：

https://hf-mirror.com/datasets/vblagoje/cc_news

下载链接

链接失效反馈

资源简介：

CC-News数据集包含来自全球新闻网站的英文新闻文章，文章发布时间在2017年1月至2019年12月之间。数据集主要用于语言模型训练，包含文章的标题、文本、描述、发布日期、来源域名、图片URL和文章URL等信息。数据集的创建使用了news-please工具，并对文章进行了语言检测以确保其为英文。

提供机构：

vblagoje

原始信息汇总

名称: CC-News

描述: CC-News数据集包含来自全球新闻网站的708,241篇英语新闻文章，这些文章发布于2017年1月至2019年12月之间。该数据集主要用于语言模型训练，特别是文本生成和掩码语言建模任务。

语言: 英语

许可: 未知

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

数据结构:

数据实例: 每个实例包含文章本身及其相关字段。
数据字段:
- date: 发布日期
- description: 文章描述或摘要
- domain: 文章来源域名
- image_url: 文章图片URL
- text: 文章文本
- title: 文章标题
- url: 文章原始URL
数据分割: 仅包含训练集，需通过train分割加载数据。

数据创建:

源数据: 数据由Sebastian Nagel提出、创建和维护，使用news-please进行准备，通过Spacy langdetect pipeline筛选英语文章。
个人和敏感信息: 数据可能包含当代公众人物或新闻中出现的个人。

使用考虑:

贡献者: @vblagoje