AISHELL/AISHELL-1|语音识别数据集|中文普通话数据集

hugging_face2024-01-08 更新2024-03-04 收录

语音识别

中文普通话

下载链接：

https://hf-mirror.com/datasets/AISHELL/AISHELL-1

下载链接

链接失效反馈

资源简介：

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

提供机构：

AISHELL

AI搜集汇总

数据集介绍

构建方式

AISHELL/AISHELL-1数据集的构建，采取了在全国不同方言区域招募400名发音人进行录音的方式，录音在静谧的室内环境中进行，使用高保真麦克风进行采集，并统一降至16kHz采样率。通过专业的语音标注与严格的质量审核，确保了语音转录的准确性超过95%，为语音识别领域的新研究者提供了质量上乘的语料资源。

特点

该数据集以其开源、高质量的特性著称，涵盖了丰富的汉语普通话语音样本。它不仅转录精度高，而且参与录音的发音人地域广泛，使得数据集在语音识别研究中具有极高的实用价值。此外，数据集遵循Apache-2.0协议，免费用于学术研究，为学术界的语音识别技术发展提供了有力支撑。

使用方法

使用AISHELL/AISHELL-1数据集，研究者可以依据Apache-2.0协议的规定，自由地应用于学术研究和非商业用途。数据集可通过官方网站获取，同时在使用时，应遵循数据集的引用规范，正确引用相关论文，以尊重数据集的版权和贡献者的工作成果。

背景与挑战

背景概述

AISHELL/AISHELL-1语音数据集，由北京壳壳科技有限公司发布，是一个开源的普通话语音语料库。该数据集的创建旨在为语音识别领域的新研究者提供适量的数据资源，其成立时间为2017年。数据集的构建汇聚了来自中国不同方言区域的400位参与者的录音，这些录音在安静的环境下使用高保真麦克风进行，并下采样至16kHz。经过专业的语音标注和严格的质量检验，手工转录的准确度超过95%，且该数据集免费用于学术研究。AISHELL/AISHELL-1数据集的研究团队包括Hui Bu, Jiayu Du, Xingyu Na, Bengu Wu, Hao Zheng等成员，该数据集对推动中文语音识别技术发展产生了积极影响。

当前挑战

在领域问题解决方面，AISHELL/AISHELL-1数据集面临的挑战包括如何通过有限的样本量实现高准确度的语音识别。在构建过程中，数据集构建团队遭遇了方言多样性带来的语音变体处理挑战，以及在室内环境录音中如何降低噪声干扰的挑战。此外，确保数据集的可用性和质量，如维持高标准的转录准确度，也是构建过程中的重要挑战。

常用场景

经典使用场景

在语音识别领域，AISHELL-1数据集以其严谨的采集流程和高质量的标注成为研究者的首选。该数据集收集了来自中国各地不同口音的400位发音人的语音，为自动语音识别技术提供了丰富的样本资源，使得研究者在算法训练和模型评估时能够获得更加全面和准确的结果。

实际应用

在实际应用中，AISHELL-1数据集广泛应用于语音识别系统的开发和优化，如语音助手、语音翻译和语音识别软件等。该数据集的利用，显著提高了这些系统的准确性和鲁棒性，为用户提供更加精准和流畅的语音交互体验。

衍生相关工作

基于AISHELL-1数据集，研究者们开展了一系列后续工作，包括但不限于改进语音识别算法、探索跨语种语音识别技术，以及构建更加完善的语音识别模型。这些工作不仅拓宽了语音识别技术的应用领域，也为相关领域的学术交流和技术创新提供了丰富的资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录