five

CVSS|语音翻译数据集|多语言处理数据集

收藏
github2022-08-26 更新2024-05-31 收录
语音翻译
多语言处理
下载链接:
https://github.com/google-research-datasets/cvss
下载链接
链接失效反馈
资源简介:
CVSS是一个大规模多语言到英语的语音到语音翻译数据集,涵盖了21种语言到英语的句子级并行语音到语音翻译对。CVSS源自Common Voice语音数据集和CoVoST 2语音到文本翻译数据集,使用两种最先进的TTS模型进行合成。数据集包括两种版本的语音翻译,CVSS-C和CVSS-T,分别提供单一标准发音和源语音转换的发音。此外,CVSS还提供与翻译语音发音匹配的标准化翻译文本,适用于模型训练和标准化评估。
开放时间:
2022-01-05
创建时间:
2022-01-05
原始信息汇总

数据集概述

名称: CVSS (A Massively Multilingual Speech-to-Speech Translation Corpus)

描述: CVSS是一个大规模的多语言到英语的语音到语音翻译语料库,包含21种语言到英语的句子级平行语音到语音翻译对。该数据集源自Common Voice语音语料库和CoVoST 2语音到文本翻译语料库。翻译语音使用基于LibriTTS语料库训练的两个最先进的TTS模型合成。

版本:

  • CVSS-C: 所有翻译语音使用单一规范发言人声音,具有高自然度和清洁度,以及一致的说话风格。
  • CVSS-T: 翻译语音声音从相应源语音转移,每对翻译在不同语言中保持相似声音。

数据量: 每个版本包含约1,900小时的语音数据。

额外提供: 与翻译语音匹配的标准化翻译文本,用于模型训练和标准化评估。

数据获取

数据可通过以下链接下载,每个链接包含train, dev, test目录的音频剪辑和train.tsv, dev.tsv, test.tsv文件的标准化翻译文本。

源语言 代码 CVSS-C CVSS-T
... ... link link
... ... link link
... ... link link

许可证

CVSS数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证发布。

引用

当引用CVSS语料库时,请使用以下引用信息:

@inproceedings{jia2022cvss, title={{CVSS} Corpus and Massively Multilingual Speech-to-Speech Translation}, author={Jia, Ye and Tadmor Ramanovich, Michelle and Wang, Quan and Zen, Heiga}, booktitle={Proceedings of Language Resources and Evaluation Conference (LREC)}, pages={6691--6703}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CVSS数据集的构建基于大规模多语言语音到语音翻译的需求,整合了来自Common Voice的语音数据和CoVoST 2的语音到文本翻译数据。翻译语音通过两个先进的文本到语音合成模型生成,这些模型在LibriTTS语料库上进行了训练。CVSS数据集包含两个版本:CVSS-C和CVSS-T。CVSS-C使用单一标准发音人的语音,确保了语音的自然性和一致性;而CVSS-T则通过语音迁移技术,使翻译后的语音保留了源语音的音色特征。
特点
CVSS数据集的显著特点在于其多语言覆盖广泛,涵盖了21种语言到英语的语音翻译对。CVSS-C版本提供了高度自然且风格一致的合成语音,适合用户应用;CVSS-T版本则通过语音迁移技术,保留了源语音的音色,适合构建能够保持说话者声音特征的翻译模型。此外,数据集还提供了与语音匹配的规范化翻译文本,支持模型训练和标准化评估。
使用方法
使用CVSS数据集时,用户可以通过提供的链接下载包含训练、开发和测试集的音频文件及相应的规范化翻译文本。这些数据应与Common Voice的版本4音频文件配对使用。CVSS数据集也可通过Hugging Face平台获取。用户在训练和评估语音到语音翻译模型时,可以利用CVSS-C和CVSS-T的不同特性,分别优化语音质量和音色保留。
背景与挑战
背景概述
CVSS(Massively Multilingual Speech-to-Speech Translation Corpus)是一个大规模多语言语音到语音翻译语料库,涵盖了从21种语言到英语的句子级并行语音到语音翻译对。该数据集源自[Common Voice](https://commonvoice.mozilla.org/)语音语料库和[CoVoST 2](https://github.com/facebookresearch/covost)语音到文本翻译语料库,并利用了[LibriTTS](http://www.openslr.org/60/)语料库训练的两种最先进的TTS模型进行语音合成。CVSS的创建旨在推动多语言语音到语音翻译技术的发展,特别是通过提供高质量的合成语音和标准化翻译文本,为模型训练和评估提供了坚实的基础。
当前挑战
CVSS数据集在构建过程中面临了多项挑战。首先,多语言语音到语音翻译的复杂性要求模型能够处理不同语言之间的语音特征转换,同时保持语音的自然性和一致性。其次,语音合成的质量直接影响翻译结果的自然度,因此需要高保真的合成技术。此外,数据集的构建还需要解决多语言之间的语音风格一致性和语音转换的准确性问题。最后,标准化翻译文本的生成也是一个挑战,特别是在处理数字、货币、缩写等特殊词汇时,确保翻译文本与语音发音的匹配度至关重要。
常用场景
经典使用场景
CVSS数据集在多语言语音到语音翻译领域展现了其经典应用场景。该数据集通过提供从21种语言到英语的语音到语音翻译对,支持了跨语言语音翻译模型的训练与评估。CVSS-C版本通过单一标准语音合成,确保了语音的高自然度和一致性,适用于构建高质量的翻译语音模型。CVSS-T版本则通过源语音的语音风格转移,保留了源语音的特征,适用于需要保持说话者语音特征的翻译应用。
解决学术问题
CVSS数据集解决了多语言语音到语音翻译中的关键学术问题,包括语音合成质量、语音风格一致性以及跨语言语音特征保留等。通过提供高质量的合成语音和语音风格转移数据,CVSS促进了语音翻译模型的研究,特别是在自然语言处理和语音合成领域。其提供的标准化翻译文本进一步支持了模型的训练和评估,推动了语音翻译技术的进步。
衍生相关工作
CVSS数据集的发布催生了一系列相关研究工作,包括基于该数据集的语音翻译模型优化、语音风格转移技术的深入研究以及多语言语音合成模型的改进。研究者们利用CVSS数据集进行模型训练和评估,提出了多种创新方法,如改进的语音合成算法和跨语言语音特征提取技术。这些工作不仅提升了语音翻译的准确性和自然度,也为多语言语音处理领域的发展提供了新的思路。
以上内容由AI搜集并总结生成