EmoSpeech|情感分析数据集|文本到语音数据集

arXiv2024-12-09 更新2024-12-11 收录

情感分析

文本到语音

下载链接：

https://drive.google.com/drive/folders/1bd3HXdqmIPNV4jz6w7eGtXGbaDlWpgJN?usp=sharing

下载链接

链接失效反馈

资源简介：

EmoSpeech数据集是由香港科技大学和香港浸会大学联合创建的情感丰富且上下文详细的语音标注语料库。该数据集包含约16小时的音频，主要从电影和电视剧中提取，涵盖了多种情感表达和场景。每个样本都通过自然语言句子进行详细描述，而非传统的固定情感标签，为情感控制的文本到语音（TTS）系统提供了更准确的数据。数据集的创建过程包括目标语音提取、情感识别和数据增强，利用生成模型和大型语言模型（LLM）进行自动标注和数据扩充，减少了手动标注的成本。该数据集的应用领域主要集中在情感控制的TTS系统开发，旨在解决现有情感语音数据库标注简单、情感表达不足的问题。

提供机构：

香港科技大学、香港浸会大学

创建时间：

2024-12-09

AI搜集汇总

数据集介绍

构建方式

EmoSpeech数据集的构建过程融合了先进的语音处理技术与自然语言生成模型，旨在提取并标注情感丰富的语音片段。首先，通过目标语音提取模块，利用Fast Whisper模型将音频转录为文本，并根据预定义规则过滤情感较弱的片段，确保仅保留情感特征明显的对话内容。随后，情感识别模块采用SECap预训练模型，通过自然语言描述对语音情感进行详细标注，替代传统的单一情感标签。最后，数据增强模块利用大型语言模型（LLM）生成多样化的情感描述，进一步丰富数据集的情感表达。

特点

EmoSpeech数据集的显著特点在于其情感标注的细致性与多样性。与传统情感数据库仅使用有限的情感标签不同，EmoSpeech通过自然语言描述捕捉情感的细微差异，提供了更丰富的情感粒度。此外，数据集涵盖了多种情感状态、不同年龄、性别和口音的语音样本，确保了语音的多样性和模型的泛化能力。通过LLM的增强，数据集的情感描述不仅准确，还具有高度的表达多样性，为情感可控的TTS系统提供了强大的数据支持。

使用方法

EmoSpeech数据集可广泛应用于情感可控的文本到语音（TTS）系统开发。研究者可以通过该数据集训练模型，使其能够根据输入文本生成具有特定情感色彩的语音。具体使用方法包括：首先，利用数据集中的情感标注进行模型训练，使模型能够识别并生成与情感描述相匹配的语音。其次，通过数据增强模块生成的多样化情感描述，进一步提升模型的情感表达能力。此外，该数据集还可用于情感识别、语音合成等领域的研究，为开发更加自然和动态的语音交互系统提供基础。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，文本到语音（TTS）系统的质量得到了显著提升，尤其是在语音生成方面，已经能够逼真地模仿目标说话者的音色和语调。然而，由于人类情感表达的复杂性，开发能够精确控制细微情感差异的TTS系统仍然是一个巨大的挑战。现有的情感语音数据库通常采用过于简化的标签方案，无法捕捉广泛的情感状态，从而限制了情感合成在TTS应用中的有效性。为了解决这一问题，EmoSpeech数据集应运而生，由香港科技大学和香港浸会大学的研究人员共同开发。该数据集通过系统地提取情感丰富的语音片段，并使用自然语言描述进行详细标注，旨在增强情感粒度，减少对昂贵手动标注的依赖，为开发更细致和动态的情感控制TTS系统提供了可扩展且经济可行的解决方案。

当前挑战

EmoSpeech数据集的构建面临多个挑战。首先，情感识别的复杂性要求系统能够准确捕捉和描述情感的细微差别，而传统的单一情感标签无法满足这一需求。其次，数据集的构建过程中，如何从海量音频数据中高效提取情感丰富的语音片段，并确保这些片段的情感强度和多样性，是一个技术难点。此外，自动化的数据增强和标注过程虽然减少了人工成本，但也带来了如何确保生成描述的准确性和多样性的问题。最后，数据集的多样性，包括不同年龄、性别、情感和口音的语音样本，也是确保模型泛化能力的关键挑战。

常用场景

经典使用场景

EmoSpeech数据集的经典使用场景主要集中在情感控制的文本到语音（TTS）系统中。该数据集通过提取和标注情感丰富的语音片段，并使用自然语言描述情感内容，为TTS系统提供了更为细致和动态的情感表达基础。这种详细标注的方式使得TTS系统能够更精确地控制语音中的情感变化，从而生成更加自然和富有表现力的语音输出。

解决学术问题

EmoSpeech数据集解决了现有情感语音数据库在情感表达上的不足，特别是传统数据库中情感标签过于简单、无法捕捉复杂情感状态的问题。通过引入自然语言描述的情感标注，EmoSpeech显著提升了情感表达的粒度和准确性，为情感识别和TTS系统的情感控制提供了更为丰富的训练数据。这一改进对于提升TTS系统的情感表达能力和用户体验具有重要意义。

衍生相关工作

EmoSpeech数据集的发布催生了一系列相关研究工作，特别是在情感语音合成和情感识别领域。例如，基于EmoSpeech的情感标注方法被用于改进现有的情感识别模型，提升了模型对复杂情感的识别能力。此外，EmoSpeech的标注方式也为其他情感语音数据库的设计提供了新的思路，推动了情感语音数据的标注标准化和多样化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国250米灌溉耕地分布数据集（2000-2020）

灌溉耕地分布是开展生态、水文和气候研究的关键数据，并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型，融合多源遥感数据（包括耕地分布、植被指数、水稻田分布）、灌溉统计和调查数据，以及灌溉适宜性分析，生成了中国逐年、250米灌溉耕地分布图（CIrrMap250）。利用2万个参考样本和高分辨率灌溉取水数据，对灌溉耕地分布数据的精度进行评估。结果显示，CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88，优于现有的同类产品。

国家青藏高原科学数据中心收录

Large and Multi-modality Satellite Datasets

随着遥感数据的不断丰富和大模型技术的快速发展，大量用于预训练和图像生成等任务的大规模遥感数据集相继发布。为了便于更好地理解和利用这些数据集，我们整理并总结了目前可用的资源，特别关注全球分布和多模态数据集。

github 收录