Chinese Polyphones with Pinyin (CPP)|汉语多音字数据集|语音合成数据集

arXiv2020-09-17 更新2024-06-21 收录

汉语多音字

语音合成

下载链接：

https://github.com/kakaobrain/g2pM

下载链接

链接失效反馈

资源简介：

Chinese Polyphones with Pinyin (CPP) 数据集是由韩国科学技术院创建，旨在解决汉语拼音转换中的多音字问题。该数据集包含超过99,000个句子，专门用于训练和测试多音字发音的识别模型。数据集通过从维基百科提取中文文本，并由两名母语为中文的标注者进行人工标注，确保每个多音字的发音准确无误。CPP数据集的应用领域主要集中在汉语语音合成系统中，以提高多音字发音的准确性和自然度。

提供机构：

韩国科学技术院

创建时间：

2020-04-07

AI搜集汇总

数据集介绍

构建方式

在构建Chinese Polyphones with Pinyin (CPP)数据集时，研究团队首先从最新的中文维基百科数据中提取了纯中文文本，并过滤掉包含繁体字或长度不符合要求的句子。随后，他们筛选出包含至少一个多音字的句子，并在这些句子中随机标记一个多音字。为了确保数据的平衡性，团队对每个多音字的句子数量进行了裁剪，使其在10到250之间。最后，两名母语为中文的标注者对每个多音字进行标注，并确保标注结果的一致性。

特点

CPP数据集的显著特点在于其规模和多样性。该数据集包含了超过99,000个句子，涵盖了623个多音字，每个多音字平均有159个句子。此外，数据集中的多音字具有不同的发音可能性，其中88.8%的多音字有两种发音，9.6%的有三种发音，而极少数（1.6%）有多达五种发音。这种多样性使得CPP数据集成为研究多音字消歧的理想资源。

使用方法

使用CPP数据集时，研究者可以将其分为训练集、开发集和测试集，比例为8:1:1。数据集的结构使得研究者能够训练和评估各种多音字消歧模型。此外，研究团队还开发了一个名为g2pM的Python库，该库基于CPP数据集训练的模型，能够方便地将中文文本转换为拼音。用户只需几行代码即可调用该库，实现中文文本的拼音转换。

背景与挑战

背景概述

在汉语语音合成系统中，汉字到拼音（G2P）转换是一个关键步骤。由于汉字本身不直接表示发音，因此需要通过G2P转换将汉字文本转换为拼音。然而，汉字中存在多音字现象，即同一个汉字在不同语境下有不同的发音，这为G2P转换带来了巨大挑战。尽管已有许多学术研究致力于解决这一问题，但长期以来缺乏一个公开的标准基准数据集，使得不同研究之间的比较变得困难。为此，Kyubyong Park和Seanie Lee在2020年创建了Chinese Polyphones with Pinyin (CPP)数据集，该数据集包含超过99,000个句子，旨在为汉语多音字消歧提供一个标准基准。这一数据集的发布不仅填补了领域的空白，还推动了相关研究的进展，特别是在文本到语音合成领域。

当前挑战

CPP数据集的构建面临多重挑战。首先，多音字消歧本身是一个复杂的问题，需要模型能够根据上下文准确判断汉字的发音。其次，数据集的构建过程中，研究人员需要从大量文本中筛选出包含多音字的句子，并进行人工标注，以确保数据的准确性和一致性。此外，由于多音字在不同语境下的发音频率不同，数据集的平衡性也是一个重要挑战。最后，尽管CPP数据集的发布为研究提供了基准，但如何进一步提升模型的性能，特别是在处理罕见多音字和复杂语境下的消歧问题，仍然是未来研究的重点。

常用场景

经典使用场景

Chinese Polyphones with Pinyin (CPP) 数据集在汉语拼音转换系统中扮演着至关重要的角色。其经典使用场景主要体现在汉语多音字的发音消歧任务中。通过提供大量包含多音字的句子及其正确拼音标注，CPP 数据集为训练和评估拼音转换模型提供了坚实的基础。例如，在文本到语音（TTS）系统中，正确识别多音字的发音对于生成自然流畅的语音输出至关重要。

实际应用

在实际应用中，CPP 数据集及其衍生的拼音转换工具广泛应用于各种需要汉语文本处理的场景。例如，在智能语音助手、机器翻译、语音识别和语音合成等领域，准确的多音字发音消歧是确保系统性能的关键。此外，教育软件和语言学习平台也可以利用这些工具来提供更准确的拼音教学和发音指导。

衍生相关工作

基于 CPP 数据集，研究者们开发了多种拼音转换模型和工具，如 g2pM 库。这些工作不仅提升了拼音转换的准确性，还促进了相关技术的普及和应用。例如，双向长短期记忆网络（Bi-LSTM）和预训练语言模型（如 BERT）在拼音转换任务中的应用，展示了深度学习技术在这一领域的巨大潜力。此外，g2pM 库的发布为开发者提供了便捷的拼音转换接口，进一步推动了技术的实际应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

基于站点观测的中国1km土壤湿度日尺度数据集（2000-2022）

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0)，SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度（10-100cm）的高时空分辨率土壤湿度，数据单位为0.001m³/m³，缺失值为-999，投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准，使用ERA5_Land气象强迫数据、叶面积指数（LAI）、土地覆盖类型（Landtypes）、地形（DEM）和土壤特性（Soil properties）作为协变量，通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度，时间尺度上：ubRMSE为0.041-0.052，R为0.883-0.919；空间尺度上：ubRMSE为0.045-0.051，R为0.866-0.893。由于SMCI1.0是基于实地观测的土壤湿度，它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模，尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述，请阅读说明文档。为便于使用，本研究提供了两种不同分辨率的版本：30 秒（~1km）和0.1度（~9km）。

国家青藏高原科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据，涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数（AQI）等信息。数据按小时记录，提供了详细的空气质量监测数据。