five

vblagoje/cc_news|新闻分析数据集|信息提取数据集

收藏
hugging_face2024-01-04 更新2024-04-19 收录
新闻分析
信息提取
下载链接:
https://hf-mirror.com/datasets/vblagoje/cc_news
下载链接
链接失效反馈
资源简介:
CC-News数据集包含来自全球新闻网站的英文新闻文章,文章发布时间在2017年1月至2019年12月之间。数据集主要用于语言模型训练,包含文章的标题、文本、描述、发布日期、来源域名、图片URL和文章URL等信息。数据集的创建使用了news-please工具,并对文章进行了语言检测以确保其为英文。
提供机构:
vblagoje
原始信息汇总

数据集概述

名称: CC-News

描述: CC-News数据集包含来自全球新闻网站的708,241篇英语新闻文章,这些文章发布于2017年1月至2019年12月之间。该数据集主要用于语言模型训练,特别是文本生成和掩码语言建模任务。

语言: 英语

许可: 未知

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

  • 文本生成
  • 掩码语言建模

数据结构:

  • 数据实例: 每个实例包含文章本身及其相关字段。
  • 数据字段:
    • date: 发布日期
    • description: 文章描述或摘要
    • domain: 文章来源域名
    • image_url: 文章图片URL
    • text: 文章文本
    • title: 文章标题
    • url: 文章原始URL
  • 数据分割: 仅包含训练集,需通过train分割加载数据。

数据创建:

  • 源数据: 数据由Sebastian Nagel提出、创建和维护,使用news-please进行准备,通过Spacy langdetect pipeline筛选英语文章。
  • 个人和敏感信息: 数据可能包含当代公众人物或新闻中出现的个人。

使用考虑:

  • 社会影响: 旨在帮助语言模型研究人员开发更好的语言模型。
  • 偏见讨论: 信息不足
  • 其他已知限制: 信息不足

贡献者: @vblagoje