汉语现代诗歌语料库|现代诗歌数据集|语料库数据集

github2024-05-20 更新2024-05-31 收录

现代诗歌

语料库

下载链接：

https://github.com/a996544315/modern-chinese-poetry-corpus

下载链接

链接失效反馈

资源简介：

汉语现代诗歌语料库整理，包含3489位诗人，81.7K首诗歌，共计15.43M字。

The Modern Chinese Poetry Corpus comprises works from 3,489 poets, encompassing 81.7K poems and totaling 15.43 million characters.

创建时间：

2019-04-16

AI搜集汇总

数据集介绍

构建方式

汉语现代诗歌语料库的构建，依托于对大量现代汉语诗歌的系统性收集与整理。该数据集通过广泛收录自1917年以来的现代诗歌作品，涵盖了3489位诗人的创作，总计81.7万首诗歌，总字数达到15.43百万。数据集的构建不仅依赖于人工的筛选与校对，还结合了自动化工具进行文本清洗与格式标准化，确保了数据的完整性与一致性。

特点

该数据集的显著特点在于其规模庞大且内容丰富，涵盖了从现代诗歌诞生至今的广泛作品，为研究者提供了丰富的语料资源。此外，数据集的结构化设计使得诗歌的检索与分析变得便捷，支持多种研究需求，如语言学分析、文学研究及自然语言处理等。

使用方法

使用汉语现代诗歌语料库，研究者可以通过提供的在线查阅平台或直接下载数据集进行本地分析。数据集支持多种编程语言（如Java、Python3）进行处理，用户可根据需求编写脚本进行数据提取、清洗及分析。此外，数据集的开放性允许用户根据贡献指南进行扩展与优化，进一步丰富其内容与功能。

背景与挑战

背景概述

汉语现代诗歌语料库是由一群热衷于中文诗歌的研究者和爱好者共同创建的，旨在为诗歌研究、自然语言处理以及文化传承提供丰富的资源。该语料库收录了3489位诗人的作品，总计超过81.7万首诗歌，涵盖了1543万字的内容，极大地丰富了现代汉语诗歌的研究素材。这一数据集的创建不仅为学术界提供了宝贵的研究材料，也为诗歌爱好者和教育工作者提供了丰富的学习资源。通过这一语料库，研究者可以深入探讨现代汉语诗歌的语言特征、文化内涵及其在社会中的作用，从而推动相关领域的研究进展。

当前挑战

汉语现代诗歌语料库在构建过程中面临了多重挑战。首先，诗歌文本的收集与整理是一项复杂的工作，涉及大量的版权问题和文本质量控制。其次，诗歌语言的特殊性，如隐喻、象征等修辞手法，增加了自然语言处理的难度。此外，如何有效地标注和分类这些诗歌，以便于后续的分析和应用，也是一大挑战。最后，随着时间的推移，如何持续更新和维护这一语料库，确保其内容的时效性和完整性，也是需要解决的问题。

常用场景

经典使用场景

汉语现代诗歌语料库作为一个丰富的文本资源，广泛应用于自然语言处理领域，特别是在诗歌生成、情感分析和语言模型训练等方面。研究者可以利用该语料库训练模型，以生成具有诗歌特质的文本，或分析诗歌中的情感倾向和主题分布。此外，该语料库还可用于探索中文诗歌的韵律结构和词汇使用规律，为语言学研究提供宝贵的数据支持。

解决学术问题

该数据集为解决中文诗歌的自动生成、情感分析和语言模型训练等学术问题提供了重要资源。通过分析诗歌的韵律、词汇和情感表达，研究者能够深入理解诗歌的创作规律，进而开发出能够自动生成诗歌的算法。此外，该语料库还为语言学研究提供了丰富的文本数据，有助于揭示中文诗歌的语言特征和结构模式，推动相关领域的学术进展。

衍生相关工作

基于汉语现代诗歌语料库，研究者已开展了多项相关工作，包括诗歌生成模型、情感分析算法和语言模型训练等。例如，有研究利用该语料库训练生成对抗网络（GAN），以生成具有诗歌风格的文本。此外，还有研究通过分析语料库中的情感词汇，开发了诗歌情感分析工具。这些工作不仅丰富了自然语言处理领域的研究内容，也为诗歌创作和文化传播提供了新的技术手段。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录