Multi-Domain Cantonese Corpus (MDCC)|粤语语音数据集|自动语音识别数据集

arXiv2022-01-17 更新2024-06-21 收录

粤语语音

自动语音识别

下载链接：

http://compling.hss.ntu.edu.sg/hkcancor/

下载链接

链接失效反馈

资源简介：

Multi-Domain Cantonese Corpus (MDCC)是由香港科技大学创建的一个包含73.6小时干净朗读语音的数据集，涵盖哲学、政治、教育、文化、生活方式和家庭等多个领域。该数据集从香港的粤语有声读物中收集，包含约83,275条语音记录，每条记录时长在0.22至15秒之间。MDCC旨在解决粤语自动语音识别（ASR）系统中数据稀缺的问题，并通过与现有数据集如Common Voice zh-HK的比较，展示了其在ASR研究中的有效性。

提供机构：

香港科技大学

创建时间：

2022-01-07

AI搜集汇总

数据集介绍

构建方式

Multi-Domain Cantonese Corpus (MDCC) 的构建方式主要通过收集香港粤语有声读物来实现。该数据集包含了来自不同领域的粤语有声读物，涵盖哲学、政治、教育、文化、生活方式和家庭等多个主题。为了确保数据的质量和适用性，研究团队聘请了母语为粤语的专家对有声读物进行筛选，剔除不适合自动语音识别（ASR）系统的部分。随后，通过语音活动检测（VAD）工具将有声读物分割成更短的音频片段，最终形成了83,275个音频片段，总时长为73.6小时。为了提高转录的准确性，研究团队首先使用Google Cloud Speech-to-Text API进行自动转录，然后聘请母语为粤语的专家对自动生成的转录进行手动校正。

使用方法

MDCC 数据集主要用于粤语自动语音识别（ASR）的研究和模型训练。研究者可以使用该数据集训练和评估ASR模型，特别是基于深度学习的模型。数据集的训练、验证和测试集已经预先划分，分别为57.53小时、5.05小时和11.01小时，便于直接用于模型训练和性能评估。此外，MDCC 可以与其他粤语数据集（如Common Voice zh-HK）结合使用，通过多数据集学习进一步提升模型的鲁棒性和泛化能力。研究者还可以利用该数据集进行语音增强、语音合成等相关研究，探索粤语语音处理的各种应用场景。

背景与挑战

背景概述

自动语音识别（ASR）技术在低资源语言中的应用，尤其是粤语，对于提升语言少数群体对人工智能技术优势的获取至关重要。香港科技大学的一组研究人员，包括Tiezheng Yu、Rita Frieske、Peng Xu等，于2022年创建了多领域粤语语料库（Multi-Domain Cantonese Corpus, MDCC）。该数据集包含73.6小时的清晰朗读语音，来源于香港的粤语有声读物，涵盖哲学、政治、教育、文化、生活方式和家庭等多个领域。MDCC的创建旨在解决粤语数据稀缺的问题，并为粤语自动语音识别研究提供丰富的资源。通过与现有的粤语数据集进行比较，MDCC展示了其在提升ASR模型性能方面的有效性。

当前挑战

MDCC的构建面临多项挑战。首先，粤语作为一种低资源语言，其数据稀缺性限制了ASR系统的发展。尽管香港有大量粤语使用者，但现有的粤语数据集规模较小，且质量参差不齐，难以支持深度学习模型的训练。其次，数据集的构建过程中，研究人员需要从多种有声读物中筛选出适合ASR系统的语音材料，并进行高质量的转录和校对。此外，如何有效地利用多领域数据进行模型训练，以提高模型的泛化能力和鲁棒性，也是MDCC面临的重要挑战。最后，尽管MDCC在提升粤语ASR性能方面取得了显著成果，但其数据规模仍相对较小，未来需要进一步扩展数据集，以支持更复杂的ASR任务。

常用场景

经典使用场景

Multi-Domain Cantonese Corpus (MDCC) 最经典的使用场景之一是用于构建和优化自动语音识别（ASR）系统。该数据集包含了73.6小时的清晰朗读语音，涵盖了哲学、政治、教育、文化、生活方式和家庭等多个领域，为研究人员提供了丰富的语料资源。通过使用MDCC，研究人员可以训练和验证ASR模型，尤其是在低资源语言环境中，提升模型的识别准确率和鲁棒性。

解决学术问题

MDCC 解决了低资源语言（如粤语）在自动语音识别（ASR）研究中的数据稀缺问题。由于粤语在学术界和工业界的资源相对匮乏，现有的ASR系统在粤语上的表现往往不尽如人意。MDCC通过提供高质量的多领域语音数据，填补了这一研究空白，使得研究人员能够更好地训练和评估ASR模型，推动粤语及其他低资源语言的语音识别技术发展。

实际应用

MDCC 在实际应用中具有广泛的前景，尤其是在粤语为主要语言的地区，如香港。该数据集可以用于开发智能语音助手、语音翻译工具、语音输入法等应用，提升用户体验。此外，MDCC还可用于教育领域，帮助开发粤语学习软件，促进语言文化的传承与推广。通过这些实际应用，MDCC为粤语社区提供了更多技术支持，增强了人工智能技术在语言多样性中的包容性。

数据集最近研究

相关研究论文

1
Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset香港科技大学 · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL（数量性状位点）分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究，支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录