five

MNBVC|中文语料库数据集|预训练数据集数据集

收藏
github2024-05-12 更新2024-05-31 收录
中文语料库
预训练数据集
下载链接:
https://github.com/esbatmop/MNBVC
下载链接
链接失效反馈
资源简介:
MNBVC数据集是一个超大规模的中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
开放时间:
2022-12-31
创建时间:
2022-12-31
原始信息汇总

MNBVC超大规模中文语料集概述

数据集描述

  • 名称: MNBVC(Massive Never-ending BT Vast Chinese corpus)
  • 内容: 包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
  • 数据来源: 互联网收集。

数据集特点

  • 多样性: 涵盖主流文化及小众文化,甚至包括火星文。
  • 数据量: 目前总数据量33091GB,目标达到chatGPT3.5的40T数据,目前进度83%。
  • 数据格式: 压缩包内中文语料清洗为txt和json(包括jsonl)格式。
  • 数据脱敏: 收录的数据将去掉大于等于8位的数字串。
  • 数据加工: 只做粗加工,如html&xml转txt、csv&tsv转json等。

数据集使用

  • 下载方式:
    • 通过p2p微力同步全部压缩包并接收更新。
    • 通过百度网盘下载。
  • 版权声明: 数据集不提供压缩包内数据的索引和分类,以避免版权争议。

数据集贡献

  • 贡献方式: 通过参加语料元气弹项目,上传语料文档。
  • 技术支持: 提供多种清洗工具和爬虫工具,以优化数据处理效率。

引用信息

  • 引用格式:

@misc{mnbvc, author = {{MOP-LIWU Community} and {MNBVC Team}}, title = {MNBVC: Massive Never-ending BT Vast Chinese corpus}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/esbatmop/MNBVC}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MNBVC数据集的构建方式主要依赖于互联网上的广泛数据收集,涵盖了新闻、小说、论文、聊天记录等多种文本形式。数据来源于中文互联网的各个角落,包括主流文化与小众文化的内容。数据经过初步处理,如HTML和XML转换为纯文本,CSV和TSV转换为JSON等,并进行了脱敏处理,去除了包含8位及以上数字的敏感信息。最终数据以txt、json、jsonl和parquet格式存储,并计划统一为jsonl和parquet格式。
特点
MNBVC数据集的显著特点在于其超大规模和多样性。目前数据量已达42915GB,超过了ChatGPT3.5的40T目标,进度达到107.2%。数据集不仅包含主流文化内容,还涵盖了小众文化和火星文等多种形式,体现了中文语料的广泛性和深度。此外,数据集的构建过程中注重隐私保护和版权规避,通过脱敏处理和避免提供详细的索引和分类信息,确保了数据集的长期可持续性。
使用方法
MNBVC数据集的使用方法多样,用户可以通过Hugging Face平台获取清洗完成的分类数据,或通过P2P微力同步和百度网盘下载原始数据。数据集支持多种格式,包括txt、json、jsonl和parquet,适合不同类型的数据处理需求。用户在使用数据时应注意遵守项目的三条红线,避免讨论数据的索引和具体内容,以支持数据集的长期更新和维护。此外,项目提供了多种清洗和处理工具,帮助用户更高效地利用数据集。
背景与挑战
背景概述
MNBVC(Massive Never-ending BT Vast Chinese corpus)是由MOP里屋社区于2023年1月1日发起的超大规模中文语料集项目。该项目旨在收集和整理涵盖广泛主题的中文文本数据,包括新闻、小说、论文、聊天记录等多种形式,以支持自然语言处理和人工智能领域的研究。MNBVC不仅包括主流文化内容,还涵盖了小众文化和火星文等多样化的语料,总数据量已达42915GB,目标是达到40TB,超越ChatGPT 3.5的数据规模。该项目由社区自发组织,致力于为中文算法圈提供丰富的语料资源,推动中文自然语言处理技术的发展。
当前挑战
MNBVC项目面临的主要挑战包括数据来源的多样性和复杂性,以及数据清洗和版权审核的困难。首先,语料来源广泛,涵盖了从主流媒体到小众社区的多种文本形式,这增加了数据处理的复杂性。其次,由于数据来源于互联网,版权问题成为一大挑战,尽管项目组提供了数据来源信息,但仍需避免潜在的法律风险。此外,数据清洗工作量大,涉及多种格式的转换和重复内容的剔除,这对技术实现和人力资源提出了高要求。最后,如何确保数据的质量和一致性,以及如何高效地进行多模态数据的处理,也是项目面临的重要技术挑战。
常用场景
经典使用场景
MNBVC数据集的经典使用场景主要体现在自然语言处理(NLP)领域,尤其是在中文语言模型的训练与优化中。该数据集包含了从新闻、小说、论文到聊天记录等多种文本形式,为研究人员提供了丰富的语料资源,用于构建和验证中文语言模型,如文本生成、情感分析、机器翻译等任务。
实际应用
在实际应用中,MNBVC数据集被广泛用于开发智能客服、自动文本摘要、内容推荐系统等应用。例如,企业可以利用该数据集训练模型,提升客户服务的自动化水平;媒体机构则可以利用其进行新闻内容的自动生成与编辑。此外,教育领域也可利用该数据集开发智能辅导系统,提供个性化的学习内容。
衍生相关工作
基于MNBVC数据集,许多相关研究工作得以展开,包括但不限于中文预训练语言模型的开发、多模态数据处理技术的研究以及跨语言翻译模型的优化。例如,有研究者利用该数据集训练了高性能的中文BERT模型,进一步推动了中文NLP的发展。此外,该数据集还激发了对多模态数据处理技术的探索,如结合图像与文本进行联合建模。
以上内容由AI搜集并总结生成