five

Opencpop|歌唱语音合成数据集|中文流行歌曲数据集

收藏
arXiv2022-01-20 更新2024-06-21 收录
歌唱语音合成
中文流行歌曲
下载链接:
https://wenet.org.cn/opencpop/
下载链接
链接失效反馈
资源简介:
Opencpop是一个专为歌唱语音合成(SVS)设计的高质量开源中文流行歌曲数据集,由西北工业大学和网易公司伏羲AI实验室共同创建。该数据集包含100首由专业女歌手演唱的流行中文歌曲,音频以44,100 Hz的采样率录制,并提供了相应的歌词和乐谱。所有歌唱录音都进行了语音学标注,包括音素边界和音节(音符)边界。数据集的创建过程涉及歌曲选择、录音、标注和后处理等多个步骤,旨在为SVS研究提供一个可靠的基准。Opencpop的应用领域包括虚拟角色和艺术创作等,旨在解决中文SVS领域的高质量数据集缺乏问题。
提供机构:
西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU),网易公司伏羲AI实验室
创建时间:
2022-01-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
Opencpop数据集的构建过程详尽而精细。首先,从多个中国流行歌曲排行榜中挑选了300首歌曲,经过筛选,最终选择了100首具有足够音节和每分钟节拍(BPM)覆盖率的流行歌曲进行录制。录音在专业录音室进行,确保了音频质量,并采用44,100 Hz的采样率录制。随后,对录音进行了详细的标注,包括音符音高、音符边界、音素边界、音节边界、单词边界、句子边界以及音符是否为连音的指示。标注过程采用了半自动化的方法,结合了Logic Pro和Praat软件,以及专业标注人员的参与。最后,将录音分割成更小的片段,以便于SVS系统的训练,并设置了测试集和训练集。
特点
Opencpop数据集的特点在于其高质量和详细的标注。该数据集包含了100首由专业女歌手演唱的流行歌曲,所有音频均以44,100 Hz的采样率录制,总时长约为5.2小时。数据集的标注信息丰富,包括音素边界、音符边界等,为SVS模型的训练提供了准确的基础。此外,数据集的BPM分布广泛,覆盖了从40到130的BPM值,使得基于Opencpop训练的系统能够处理各种BPM条件。音符音高和音素的分布也较为均匀,能够满足SVS系统对各种音素的处理需求。
使用方法
Opencpop数据集的使用方法涉及多个步骤。首先,用户需要将数据集下载到本地。然后,可以使用数据集中的音频和标注信息进行SVS模型的训练。在训练过程中,可以根据需要选择不同的模型,如Fastspeech2、HiFi-GAN等。训练完成后,可以使用测试集对模型进行评估,包括客观指标和主观评价。此外,用户还可以使用数据集中的音频进行语音合成,生成高质量的歌唱声音。Opencpop数据集的发布,为SVS领域的研究和应用提供了重要的资源。
背景与挑战
背景概述
Opencpop数据集是一个高质量的开源中文流行歌曲语料库,专门为歌唱语音合成(SVS)任务设计。该数据集由王宇、王晓升、朱鹏程等研究人员共同创建,并由西北工业大学计算机科学与技术学院的音频、语音和语言处理小组(ASLP@NPU)以及网易伏羲AI实验室提供支持。数据集包含由一位专业女歌手演唱的100首流行中文歌曲,录音质量达到专业级别,采样率为44,100 Hz,并提供相应的歌词和乐谱。所有演唱录音均经过音素边界和音节(音符)边界的语音标注。为了证明所发布数据的可靠性并为进一步研究提供基准,研究人员建立了基于深度神经网络的SVS模型,并使用客观指标和主观平均意见得分(MOS)进行评估。实验结果表明,在Opencpop数据库上训练的最佳SVS模型实现了3.70的MOS,证明了所提供语料库的可靠性。Opencpop已被开源社区WeNet1发布,语料库以及合成的演示可以在项目主页2上找到。该数据集的创建对于推动中文SVS技术的发展具有重要意义,为相关研究提供了高质量的数据资源。
当前挑战
Opencpop数据集的创建面临的主要挑战包括:1) 语音合成领域的挑战,特别是歌唱语音合成(SVS)需要处理与普通语音合成不同的音乐信息,如音符和节奏,这使得SVS模型的设计和训练更加复杂;2) 数据集构建过程中的挑战,例如,高质量SVS语料库的标注需要专业人员进行音素边界和音节边界的语音标注,这需要大量的人力和时间投入。此外,由于歌唱语音与乐谱的精确对齐难度较大,因此需要手动后处理,如声音塑形或乐谱重新标注,这进一步增加了数据集构建的难度。尽管存在这些挑战,Opencpop数据集的创建仍然为SVS研究提供了重要的数据资源,并为未来研究提供了基准性能。
常用场景
经典使用场景
Opencpop数据集,作为一款高质量的开源中文流行歌曲语料库,其经典的使用场景主要集中于歌唱语音合成(SVS)领域。该数据集包含了100首由专业女歌手演唱的中文流行歌曲,录音质量达到专业录音室标准,采样率为44,100 Hz。同时,每首歌曲都提供了对应的歌词和乐谱,并对语音进行了音素边界和音节(音符)边界的标注。这些丰富的标注信息使得Opencpop数据集成为训练和评估SVS模型的重要资源。
衍生相关工作
Opencpop数据集的发布也衍生出了一系列相关的工作。例如,一些研究者使用Opencpop数据集训练了基于深度神经网络的SVS模型,并取得了较好的效果。此外,Opencpop数据集还被用于评估和比较不同的SVS模型,推动了该领域的技术发展。
数据集最近研究
最新研究方向
Opencpop数据集为中文流行歌曲的歌唱语音合成(SVS)任务提供了高质量的语料库,其包含100首由专业女歌手演唱的流行歌曲。该语料库的音频文件以44,100 Hz的采样率录制,并提供相应的歌词和乐谱。所有的歌唱录音都经过音素边界和音节(音符)边界的语音注释。为验证所提供数据的可靠性并为未来研究提供基准,构建了基于深度神经网络的SVS模型,并使用客观指标和主观平均意见得分(MOS)进行评估。实验结果表明,在Opencpop数据库上训练的最佳SVS模型实现了3.70 MOS,证明了所提供语料库的可靠性。Opencpop数据集的发布将有助于推动中文歌唱语音合成领域的研究,特别是在高质量语音合成、风格化语音和情感语音合成等方面。此外,该数据集的开放性也将促进学术交流和合作,为研究人员提供一个共同的基准平台,以评估和比较不同SVS模型的表现。
相关研究论文
  • 1
    Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU),网易公司伏羲AI实验室 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录