GigaSpeech 2|自动语音识别数据集|低资源语言数据集

arXiv2024-06-17 更新2024-06-20 收录

自动语音识别

低资源语言

下载链接：

https://huggingface.co/datasets/speechcolab/gigaspeech2

下载链接

链接失效反馈

资源简介：

GigaSpeech 2是由上海交通大学人工智能重点实验室X-LANCE实验室开发的大型、多领域、多语言自动语音识别语料库，专注于低资源语言。该数据集包含约30,000小时的自动转录语音，涵盖泰语、印尼语和越南语，数据来源于未标记的YouTube视频。创建过程中采用自动化管道进行数据爬取、转录和标签精炼，使用Whisper进行初步转录，TorchAudio进行强制对齐，并通过多维过滤确保数据质量。数据集的应用领域主要在于提升低资源语言的语音识别技术，解决传统ASR模型依赖大量标记训练数据的瓶颈问题。

提供机构：

人工智能重点实验室，X-LANCE实验室，上海交通大学

创建时间：

2024-06-17

AI搜集汇总

数据集介绍

构建方式

GigaSpeech 2 数据集的构建采用了自动化的数据爬取、转录和标签精炼流程。首先，通过 YouTube 平台爬取大量未标注的音频数据，涵盖泰语、印尼语和越南语等多种低资源语言。随后，利用 Whisper 模型进行初步转录，并通过 TorchAudio 进行强制对齐，确保转录的准确性。为了进一步提升数据质量，引入了多维度的过滤机制，包括字符集过滤、语言置信度过滤和音频时长过滤等。最后，通过改进的 Noisy Student Training (NST) 方法对伪标签进行迭代精炼，逐步提升数据质量。

特点

GigaSpeech 2 数据集具有大规模、多领域和多语言的特点，涵盖了约 30,000 小时的自动转录语音数据，其中精炼后的数据集包含 10,000 小时的泰语、6,000 小时的印尼语和越南语数据。该数据集特别关注低资源语言，避免了传统语音识别数据集中对标注数据的依赖。通过自动化的数据爬取和精炼流程，GigaSpeech 2 提供了高质量的语音数据，适用于多种语音识别任务。

使用方法

GigaSpeech 2 数据集的使用方法主要包括模型的训练和评估。用户可以通过该数据集训练自动语音识别 (ASR) 模型，特别是在低资源语言上的表现。数据集提供了训练集、开发集和测试集，开发集和测试集包含手动转录的 10 小时数据，确保了评估的准确性。用户还可以利用改进的 Noisy Student Training (NST) 方法对模型进行迭代训练，进一步提升模型性能。实验结果表明，基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语上的词错误率显著降低，性能优于现有的商业服务。

背景与挑战

背景概述

GigaSpeech 2是由上海交通大学、香港中文大学、清华大学等机构的研究团队于2024年发布的一个大规模、多领域、多语言的自动语音识别（ASR）语料库。该数据集旨在解决低资源语言的语音识别问题，特别是针对泰语、印尼语和越南语等东南亚语言。GigaSpeech 2包含了约30,000小时的自动转录语音数据，主要从YouTube视频中爬取，并通过自动化流程进行转录和标签优化。该数据集的创新之处在于其不依赖于成对的语音和文本数据，而是通过自动化的数据爬取、转录和过滤流程，结合改进的Noisy Student Training（NST）方法，逐步优化伪标签的质量。实验结果表明，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的识别任务中，相较于Whisper large-v3模型，词错误率降低了25%至40%，且仅使用了10%的模型参数。这一成果为低资源语言的语音识别研究开辟了新的方向。

当前挑战

GigaSpeech 2在构建过程中面临了多重挑战。首先，低资源语言的语音数据稀缺且分布不均，传统的语音识别模型依赖于大量标注数据，而这在低资源语言中难以实现。其次，自动转录的准确性难以保证，尤其是在YouTube视频中，自动生成的字幕往往与语音内容不完全匹配，导致数据质量参差不齐。为此，研究团队开发了一套自动化流程，结合Whisper进行初始转录，并使用TorchAudio进行强制对齐，同时通过多维度的过滤机制确保数据质量。此外，改进的Noisy Student Training方法被用于迭代优化伪标签，进一步提升了模型的性能。尽管取得了显著进展，GigaSpeech 2仍面临数据规模不足、领域不匹配等挑战，特别是在印尼语和越南语的数据量相对较少的情况下，模型的泛化能力仍有待提升。

常用场景

经典使用场景

GigaSpeech 2数据集在自动语音识别（ASR）领域中被广泛用于低资源语言的模型训练与评估。其经典使用场景包括多语言、多领域的语音识别任务，尤其是在泰语、印尼语和越南语等低资源语言的识别中表现出色。通过自动化的数据爬取、转录和标签优化流程，GigaSpeech 2为研究人员提供了一个高质量、大规模的语音数据集，极大地推动了低资源语言ASR模型的发展。

衍生相关工作

GigaSpeech 2的发布催生了一系列相关研究工作，尤其是在低资源语言ASR领域。基于GigaSpeech 2的研究成果，许多学者进一步优化了ASR模型的训练方法，尤其是在伪标签生成和数据过滤方面。此外，GigaSpeech 2的自动化数据生成流程也被广泛应用于其他低资源语言数据集的构建，推动了多语言语音识别技术的发展。其改进的Noisy Student Training方法也被其他领域的研究人员借鉴，用于提升其他类型数据集的标签质量。

数据集最近研究

相关研究论文

1
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement人工智能重点实验室，X-LANCE实验室，上海交通大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国250米灌溉耕地分布数据集（2000-2020）

灌溉耕地分布是开展生态、水文和气候研究的关键数据，并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型，融合多源遥感数据（包括耕地分布、植被指数、水稻田分布）、灌溉统计和调查数据，以及灌溉适宜性分析，生成了中国逐年、250米灌溉耕地分布图（CIrrMap250）。利用2万个参考样本和高分辨率灌溉取水数据，对灌溉耕地分布数据的精度进行评估。结果显示，CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88，优于现有的同类产品。

国家青藏高原科学数据中心收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录