Chinese-Poetry-Dataset|古典文学数据集|文化遗产数据集

github2024-04-16 更新2024-05-31 收录

古典文学

文化遗产

下载链接：

https://github.com/hlthu/Chinese-Poetry-Dataset

下载链接

链接失效反馈

资源简介：

最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.

The most comprehensive database of Chinese classical literature, encompassing 55,000 Tang poems, 260,000 Song poems, and 21,000 Song lyrics. It includes nearly 14,000 ancient poets from the Tang and Song dynasties, and 1,500 lyricists from the Song period. The data is sourced from the internet.

创建时间：

2017-12-18

AI搜集汇总

数据集介绍

构建方式

Chinese-Poetry-Dataset的构建基于对互联网上广泛分布的古典文集进行系统性采集与整理。该数据集涵盖了唐诗、宋诗及宋词等多个文类，总计包含超过33万首诗歌，涉及近1.4万名唐代诗人和1.5千名宋代词人。数据采集过程虽未详细记录，但通过持续的爬取与中断恢复，最终形成了这一庞大的古典诗歌数据库。值得一提的是，2017年新增的全宋词数据集，其爬取过程及数据分析已在相关文献中详细阐述。

特点

Chinese-Poetry-Dataset的显著特点在于其全面性和多样性。该数据集不仅收录了大量的唐诗和宋诗，还包含了宋词、五代花间集、南唐二主词等，几乎涵盖了中国古典诗歌的各个重要时期和流派。此外，数据以JSON格式存储，便于检索和分析，为研究者提供了极大的便利。数据的高频词和作者作品榜的可视化分析，进一步增强了其学术价值和应用潜力。

使用方法

Chinese-Poetry-Dataset的使用方法多样，适用于多种研究与应用场景。研究者可以通过直接下载JSON格式的数据文件，进行文本分析、语言模型训练或文化研究。此外，该数据集也支持在线访问，用户可以通过相关网站进行诗词检索和学习。对于开发者而言，数据集的开源特性允许其集成到各种应用程序中，如诗词生成器、教育软件或文化展示平台，从而推动古典诗歌的现代化传播与应用。

背景与挑战

背景概述

中华古典诗词作为中华民族的文化瑰宝，承载着深厚的历史与文化价值。然而，尽管这些诗词文集在传统书籍中广泛流传，但现代社会中，许多人并未能轻易接触到这些珍贵的文化遗产。为解决这一问题，Chinese-Poetry-Dataset应运而生，该数据集由一群致力于传承中华文化的研究者于2017年创建，包含了5.5万首唐诗、26万首宋诗以及2.1万首宋词，涵盖了唐宋两朝近1.4万名诗人和1.5千名词人的作品。这一数据集的建立不仅为学术研究提供了丰富的资源，也为普通大众提供了便捷的电子版诗词文集，极大地促进了古典诗词的普及与传承。

当前挑战

尽管Chinese-Poetry-Dataset在传承中华古典诗词方面做出了巨大贡献，但其构建过程中仍面临诸多挑战。首先，数据的采集过程复杂且耗时，由于目标网站的限制，数据采集经常中断，导致项目进展缓慢。其次，数据的质量控制也是一个重要挑战，如何确保所采集诗词的准确性和完整性，避免错误或遗漏，是数据集构建过程中必须解决的问题。此外，随着时间的推移，如何持续更新和扩展数据集，以涵盖更多朝代和类型的诗词，也是未来需要面对的挑战。这些挑战不仅考验着数据集的维护者，也对相关领域的研究者提出了更高的要求。

常用场景

经典使用场景

在古典文学研究领域，Chinese-Poetry-Dataset 数据集的经典使用场景主要体现在对唐诗、宋诗及宋词的深度分析与挖掘。研究者可以利用该数据集进行高频词汇分析、作者作品榜统计以及词牌名偏好研究，从而揭示唐宋时期文学创作的内在规律与风格特征。此外，该数据集还为自然语言处理领域的研究提供了丰富的语料资源，支持如诗歌生成、文本分类等任务的模型训练与验证。

实际应用

在实际应用中，Chinese-Poetry-Dataset 数据集展现了广泛的潜力。例如，教育领域可以利用该数据集开发智能教学工具，帮助学生更直观地理解古典诗词的内涵与结构。文化传播方面，该数据集支持开发诗词推荐系统，为用户提供个性化的诗词阅读体验。此外，在创意产业中，数据集可用于生成具有古典风格的现代诗歌，为文学创作提供新的灵感来源。

衍生相关工作

基于 Chinese-Poetry-Dataset 数据集，已衍生出多项经典工作。例如，有研究者开发了基于字符级RNN的诗歌生成模型，能够自动创作符合古典风格的诗词。此外，还有团队利用该数据集构建了诗词周历、诗词桌面等应用，增强了古典文学的互动性与趣味性。这些衍生工作不仅丰富了数据集的应用场景，也为古典文学的数字化与智能化研究开辟了新的方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录