PoeTree|多语言文学数据集|语料库数据集

github2024-01-17 更新2024-05-31 收录

多语言文学

语料库

下载链接：

https://github.com/perechen/poetRee

下载链接

链接失效反馈

资源简介：

PoeTree是一个标准化的诗歌语料库集合，包含超过300,000首诗歌，涵盖九种语言（捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语）。每个语料库都经过去重处理，增加了通用依赖关系，提供了额外的元数据，并转换为统一的JSON结构。

创建时间：

2023-12-22

AI搜集汇总

数据集介绍

构建方式

PoeTree数据集的构建基于对九种语言（捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语）的诗歌语料库的标准化处理。该数据集包含了超过30万首诗歌，每首诗歌都经过去重处理，并附加了Universal Dependencies的标注，同时提供了丰富的元数据，并以统一的JSON结构进行存储。这一过程确保了数据集的高质量和一致性，为多语言诗歌研究提供了坚实的基础。

特点

PoeTree数据集的显著特点在于其多语言覆盖和丰富的元数据支持。该数据集不仅涵盖了九种语言的诗歌，还通过Universal Dependencies的标注，提供了详细的语法和句法信息。此外，每首诗歌都附带了作者、出版年份、语言代码等元数据，使得研究者能够进行跨语言和跨时间的诗歌分析。数据集的统一JSON结构也便于不同语言和工具的集成与处理。

使用方法

PoeTree数据集的使用方法简便且灵活。研究者可以通过poetRee库直接访问PoeTree的REST API，获取诗歌的元数据、作者信息、诗集来源以及诗歌文本等内容。该库遵循tidy数据格式，支持R语言中的tidytext包进行文本分析。通过调用get_metadata()、get_authors()、get_sources()、get_poems()和get_text()等函数，用户可以轻松获取所需的数据，并进行进一步的分析和处理。

背景与挑战

背景概述

PoeTree数据集是由Petr Plecháč、Silvie Cinková、Robert Kolár等研究人员于2023年创建的，旨在为多语言诗歌文本提供标准化的语料库。该数据集包含了超过30万首诗歌，涵盖了九种语言，包括捷克语、英语、法语、德语、匈牙利语、意大利语、葡萄牙语、西班牙语和俄语。每首诗歌都经过去重处理，并附加了Universal Dependencies的注释，提供了丰富的元数据，并以统一的JSON结构存储。PoeTree的构建不仅为诗歌研究提供了丰富的资源，还为跨语言文本分析和自然语言处理领域带来了新的研究机会。

当前挑战

PoeTree数据集在构建过程中面临了多重挑战。首先，多语言诗歌文本的收集与标准化处理是一项复杂任务，涉及不同语言的语法、文化背景和诗歌形式的差异。其次，为每首诗歌添加Universal Dependencies注释需要高度专业化的语言学知识，确保注释的准确性和一致性。此外，数据集的规模庞大，如何高效地存储、检索和管理这些数据也是一个技术挑战。最后，跨语言的诗歌文本分析需要克服语言间的语义差异和文化背景的多样性，这对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

PoeTree数据集的经典使用场景主要集中在多语言诗歌文本的分析与研究。该数据集提供了超过30万首诗歌，涵盖九种语言，并附有详细的元数据和通用依赖关系标注。研究者可以利用这些数据进行跨语言的诗歌风格比较、情感分析、以及语言学特征的挖掘。通过整合的JSON结构和R语言的`poetRee`包，用户能够轻松获取和处理诗歌数据，特别适用于文本挖掘和自然语言处理领域的研究。

解决学术问题

PoeTree数据集解决了多语言诗歌文本的标准化处理问题，为学术界提供了丰富的资源。它不仅解决了诗歌文本的重复性问题，还通过通用依赖关系标注，使得跨语言的诗歌分析成为可能。这一数据集为语言学、文学研究、以及自然语言处理领域的学者提供了宝贵的研究材料，推动了多语言诗歌文本的比较研究和深度分析，具有重要的学术意义和影响。

衍生相关工作

PoeTree数据集的发布催生了一系列相关研究工作，特别是在多语言诗歌文本的分析和处理领域。例如，基于该数据集的跨语言诗歌风格比较研究、情感分析模型构建、以及诗歌生成算法等。此外，`poetRee`包的开发也为R语言用户提供了便捷的工具，进一步推动了诗歌文本的自动化处理和分析。这些衍生工作不仅丰富了诗歌研究的工具箱，也为多语言文本处理领域提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注：时间为北京时间。

国家海洋科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录