Chinese-Lyric-Corpus|中文歌词数据集|自然语言处理数据集

github2023-09-07 更新2024-05-31 收录

中文歌词

自然语言处理

下载链接：

https://github.com/gaussic/Chinese-Lyric-Corpus

下载链接

链接失效反馈

资源简介：

这是一个用于中文歌词生成任务的语料库，包含近50,000首来自500位艺术家的歌词，数据从网易云音乐爬取，已清理时间线和大部分工作人员信息。

This is a corpus designed for the task of Chinese lyric generation, comprising nearly 50,000 lyrics from 500 artists. The data was scraped from NetEase Cloud Music and has been cleaned of timelines and most staff information.

创建时间：

2018-01-22

原始信息汇总

Chinese-Lyric-Corpus 数据集概述

数据集目的

用于中文歌词生成任务，是当前流行的自然语言处理任务之一。

数据集内容

包含近50,000首歌词，来自500位艺术家。

数据来源

数据爬取自NetEase Cloud Music。

数据处理

时间线和大部分工作人员信息已清理。

示例数据

你住的巷子里我租了一间公寓为了想与你不期而遇高中三年我为什么为什么不好好读书没考上跟你一样的大学我找了份工作离你宿舍很近当我开始学会做蛋饼才发现你不吃早餐喔你又擦肩而过你耳机听什么能不能告诉我

躺在你学校的操场看星空教室里的灯还亮着你没走记得我写给你的情书都什么年代了到现在我还在写着 ...

AI搜集汇总

数据集介绍

构建方式

Chinese-Lyric-Corpus数据集的构建基于从网易云音乐平台爬取的近5万首歌词，涵盖了500位艺术家的作品。数据集的构建过程中，对时间线和大部分工作人员信息进行了清洗，确保了数据的质量和一致性。通过系统化的爬取和清洗流程，该数据集为中文歌词生成任务提供了丰富且结构化的文本资源。

特点

Chinese-Lyric-Corpus数据集的显著特点在于其规模和多样性。该数据集包含了近5万首歌词，覆盖了500位艺术家的作品，为研究者提供了广泛的中文歌词样本。此外，数据集中的歌词内容经过清洗，去除了不必要的信息，使得数据更加纯净，便于进行自然语言处理任务。

使用方法

Chinese-Lyric-Corpus数据集适用于多种自然语言处理任务，特别是中文歌词生成。研究者可以通过加载该数据集，利用其中的歌词文本进行模型训练和测试。数据集的结构化特性使得它可以轻松集成到各种机器学习和深度学习框架中，为歌词生成、情感分析等任务提供支持。

背景与挑战

背景概述

在自然语言处理（NLP）领域，中文歌词生成任务近年来备受关注，其不仅涉及语言模型的应用，还与文化表达和情感传递密切相关。Chinese-Lyric-Corpus数据集由研究人员从网易云音乐平台爬取，包含了近5万首来自500位艺术家的歌词，旨在为中文歌词生成提供丰富的语料资源。该数据集的创建不仅填补了中文歌词生成领域的数据空白，还为研究者提供了探索语言风格、情感表达和创作模式的新视角。通过清洗时间线和大部分工作人员信息，该数据集为研究者提供了高质量的歌词文本，推动了中文歌词生成及相关NLP任务的发展。

当前挑战

尽管Chinese-Lyric-Corpus数据集为中文歌词生成提供了宝贵的资源，但在构建和应用过程中仍面临诸多挑战。首先，歌词文本的情感和风格多样性要求模型具备高度的语义理解和情感表达能力，这对现有的NLP技术提出了更高的要求。其次，歌词创作往往具有较强的个人风格和时代特征，如何在生成过程中保持这些特性是一个技术难点。此外，数据集的构建过程中，如何确保数据的版权合法性和隐私保护也是一个不容忽视的问题。这些挑战不仅影响了数据集的应用效果，也对未来歌词生成技术的发展提出了新的研究方向。

常用场景

经典使用场景

Chinese-Lyric-Corpus数据集的经典使用场景主要集中在自然语言处理领域，特别是在中文歌词生成任务中。该数据集包含了近5万首来自500位艺术家的歌词，为研究者提供了丰富的文本资源，用于训练和评估歌词生成模型。通过分析这些歌词，研究者可以探索如何生成具有情感表达和艺术美感的文本，从而推动中文歌词生成技术的发展。

衍生相关工作

基于Chinese-Lyric-Corpus数据集，研究者已开展了一系列相关工作，包括歌词生成模型的优化、情感分析模型的构建以及文本风格迁移的研究。这些工作不仅推动了中文歌词生成技术的发展，还为其他文本生成任务提供了宝贵的经验和方法，进一步丰富了自然语言处理领域的研究内容。

数据集最近研究

最新研究方向

在自然语言处理领域，中文歌词生成任务近年来备受关注，Chinese-Lyric-Corpus数据集的推出为这一研究方向提供了丰富的资源。该数据集包含了来自500位艺术家的近5万首歌词，这些歌词不仅为研究者提供了多样化的文本数据，还为探索情感表达、韵律结构和文化内涵等复杂语言现象提供了宝贵的素材。当前，研究者正利用该数据集进行深度学习模型的训练，旨在提升歌词生成的质量和创造性，特别是在情感共鸣和语言风格的模拟方面取得了显著进展。此外，该数据集的应用也扩展到了音乐推荐系统和文化研究领域，为跨学科研究提供了新的视角和工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

基于站点观测的中国1km土壤湿度日尺度数据集（2000-2022）

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0)，SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度（10-100cm）的高时空分辨率土壤湿度，数据单位为0.001m³/m³，缺失值为-999，投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准，使用ERA5_Land气象强迫数据、叶面积指数（LAI）、土地覆盖类型（Landtypes）、地形（DEM）和土壤特性（Soil properties）作为协变量，通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度，时间尺度上：ubRMSE为0.041-0.052，R为0.883-0.919；空间尺度上：ubRMSE为0.045-0.051，R为0.866-0.893。由于SMCI1.0是基于实地观测的土壤湿度，它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模，尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述，请阅读说明文档。为便于使用，本研究提供了两种不同分辨率的版本：30 秒（~1km）和0.1度（~9km）。

国家青藏高原科学数据中心收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

Lifan-Z/Chinese-poetries-txt

这个数据集从《全唐诗》和《全宋诗》中提取了四种不同风格的诗歌，包括五绝（5x4）17521首、五律（5x8）60896首、七绝（7x4）84485首和七律（7x8）71818首。每行数据对应一首诗，适用于文本生成任务。

hugging_face 收录