five

Jzuluaga/uwb_atcc|航空通信数据集|语音识别数据集

收藏
hugging_face2022-12-05 更新2024-03-04 收录
航空通信
语音识别
下载链接:
https://hf-mirror.com/datasets/Jzuluaga/uwb_atcc
下载链接
链接失效反馈
资源简介:
UWB-ATCC Corpus是由University of West Bohemia的Department of Cybernetics提供的航空交通控制语音通信数据集。该数据集包含飞行员与控制员之间的对话录音,总时长约20小时,音频格式为8kHz, 16bit PCM, mono。数据集中的每个记录包括音频、文本转录、时间戳和持续时间等详细信息,主要用于英语自动语音识别(ASR)任务的研究。
提供机构:
Jzuluaga
AI搜集汇总
数据集介绍
main_image_url
构建方式
UWB-ATCC数据集由西波希米亚大学网络与控制系提供,其构建基于空中交通管制(ATC)通信的真实录音。这些录音涵盖了飞行员与空中交通管制员之间的对话,经过手动转录并标注了说话者的角色信息。数据集的音频格式为8kHz、16位PCM、单声道,总时长约为20小时。数据来源包括捷克领空的地面控制、塔台控制、进近控制和区域控制通信,分别对应不同的飞行阶段。
特点
UWB-ATCC数据集的主要特点在于其专注于空中交通管制通信,具有高度的领域特定性。数据集中的音频和文本均经过标准化处理,且提供了详细的元数据,如录音的开始和结束时间、持续时间等。此外,数据集通过ID字段区分了不同说话者的角色,如飞行员(PI)、管制员(AT)或两者混合(PIAT),为语音识别和说话者角色检测任务提供了丰富的标注信息。
使用方法
UWB-ATCC数据集适用于自动语音识别(ASR)任务,尤其是针对空中交通管制通信的领域适应性研究。用户可以通过HuggingFace平台直接访问该数据集,并利用提供的音频和文本数据进行模型训练和评估。数据集的音频采样率为16kHz,适合用于基于Wav2Vec 2.0等预训练模型的微调。此外,数据集的标注信息可用于说话者角色检测和语音分割任务,进一步扩展了其应用场景。
背景与挑战
背景概述
UWB-ATCC数据集由西波希米亚大学网络与控制系提供,专注于航空交通管制(ATC)通信的语音记录。该数据集包含了飞行员与空中交通管制员之间的对话,这些对话经过手动转录并标注了说话者的角色(如飞行员或管制员)。尽管目前数据集规模较小(约20小时),但其独特性在于其专注于特定领域,即航空交通管制通信,这对于自动语音识别(ASR)和文本转语音(TTS)系统的开发具有重要意义。该数据集的创建旨在解决特定领域语音识别的挑战,尤其是噪声环境下的语音识别问题。
当前挑战
UWB-ATCC数据集面临的主要挑战包括:首先,数据集规模较小,限制了模型的泛化能力;其次,航空交通管制通信的特殊性,如专业术语和噪声环境,增加了语音识别的难度。此外,数据集的构建过程中,如何确保转录的准确性和标注的一致性也是一个重要挑战。这些挑战不仅影响了数据集的实用性,也对相关领域的研究提出了更高的要求。
常用场景
经典使用场景
UWB-ATCC数据集的经典使用场景主要集中在自动语音识别(ASR)领域,特别是在航空交通管制(ATC)通信的语音识别任务中。该数据集包含了飞行员与空中交通管制员之间的对话录音,这些录音经过手动转录并标注了说话者的角色(如飞行员或管制员)。通过这些数据,研究人员可以训练和评估语音识别模型,以提高在嘈杂环境下的语音识别准确性,尤其是在复杂的ATC通信场景中。
实际应用
在实际应用中,UWB-ATCC数据集主要用于开发和优化航空交通管制系统中的语音识别技术。这些技术可以应用于自动化的语音转录、实时语音指令解析以及语音辅助决策系统,从而提高空中交通管理的效率和安全性。此外,该数据集还可用于训练语音合成(TTS)模型,以生成逼真的ATC语音指令,进一步推动航空通信技术的智能化发展。
衍生相关工作
基于UWB-ATCC数据集,研究人员开发了多项经典工作,包括基于Wav2Vec 2.0的语音识别模型和BERTraffic系统。Wav2Vec 2.0模型通过预训练和微调,展示了在ATC通信中的优异性能,而BERTraffic系统则专注于联合检测说话者角色和说话者变化,进一步提升了语音识别的准确性和鲁棒性。此外,ATCO2语料库的开发也借鉴了UWB-ATCC的经验,扩展了数据集的规模和应用范围,推动了航空通信领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

中国250米灌溉耕地分布数据集(2000-2020)

灌溉耕地分布是开展生态、水文和气候研究的关键数据,并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型,融合多源遥感数据(包括耕地分布、植被指数、水稻田分布)、灌溉统计和调查数据,以及灌溉适宜性分析,生成了中国逐年、250米灌溉耕地分布图(CIrrMap250)。利用2万个参考样本和高分辨率灌溉取水数据,对灌溉耕地分布数据的精度进行评估。结果显示,CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88,优于现有的同类产品。

国家青藏高原科学数据中心 收录