TalkBank|自动语音识别数据集|多语言处理数据集

arXiv2024-09-18 更新2024-09-20 收录

自动语音识别

多语言处理

下载链接：

https://github.com/Diabolocom-Research/ConversationalDataset

下载链接

链接失效反馈

资源简介：

TalkBank是一个多语言的对话数据集，由Diabolocom和ISIA Lab - 蒙斯大学创建，主要用于自动语音识别（ASR）系统的基准测试。该数据集包含151,705条音频数据，涵盖八种语言，包括中文、英语、日语、德语、法语、西班牙语等。数据集的创建过程包括对原始音频和转录文本进行预处理，如手动过滤、通道分离、时间戳对齐等，以确保数据的质量和准确性。TalkBank数据集的应用领域主要是改进ASR系统在真实对话环境中的表现，解决现有基准数据集在处理非结构化对话时的不足。

提供机构：

Diabolocom 和 ISIA Lab - 蒙斯大学

创建时间：

2024-09-18

原始信息汇总

ConversationalDataset: Benchmarking Conversations

数据集概述

数据集类型: 对话式AI任务的基准和数据集。
数据集状态: 正在进行中，数据集和预处理代码即将发布。

即将发布的内容

预处理代码: 用于清理、格式化和准备TalkBannk数据集子集的脚本。
数据集: 用于基准测试的数据集。

AI搜集汇总

数据集介绍

构建方式

TalkBank数据集的构建基于TalkBank数据库，该数据库是一个公开访问的大型语料库，包含支持多种研究领域的口语语言数据，如言语语言病理学、语言习得和双语研究。研究团队特别关注Conversation Banks（CABank），该部分主要用于成人之间对话的分析。数据集包括CallFriend和CallHome两个子集，均为成人之间的电话对话录音。在预处理阶段，研究团队进行了多项操作，包括手动筛选音频文件和对应的转录文本，确保音频与文本的一致性；使用语音活动检测（VAD）方法将说话者与音频通道对齐；去除无时间戳的注释；通过VAD模型调整时间戳以确保与语音段对齐；以及基于ASR模型的自动筛选过程，确保数据质量。最终，数据集包含151,705个音频段，涵盖八种语言，并提供了详细的测试-训练分割和预处理细节。

特点

TalkBank数据集的主要特点在于其真实世界对话的复杂性，包括非结构化的语音、停顿、打断和多样化的口音等。这些特点使得该数据集成为评估自动语音识别（ASR）系统在真实对话环境中性能的理想工具。此外，数据集的多语言特性也增加了其应用的广泛性。研究团队通过广泛的预处理步骤，确保了数据集的准确性和可靠性，使其成为ASR系统性能评估的基准。

使用方法

TalkBank数据集适用于评估和改进ASR系统在真实对话环境中的性能。研究者可以使用该数据集来训练和测试各种ASR模型，特别是那些旨在处理复杂对话场景的模型。数据集的详细预处理步骤和测试-训练分割提供了标准化的评估框架。此外，数据集的多语言特性使其适用于跨语言ASR系统的开发和评估。研究者可以通过分析模型在不同语言和对话复杂性下的表现，进一步优化和改进ASR技术。

背景与挑战

背景概述

TalkBank数据集是由Diabolocom和ISIA Lab - University of Mons的研究人员于近年推出的一个多语言对话数据集。该数据集的核心研究问题在于解决现有自动语音识别（ASR）系统在真实世界对话环境中表现不佳的问题。这些系统在如LibriSpeech和Fleurs等广泛使用的基准测试中表现出色，但在非结构化、包含多种口音和语音不流畅性的对话环境中，其性能显著下降。TalkBank数据集的引入旨在填补这一空白，通过提供一个包含成人之间非结构化电话对话的语料库，来评估和提升ASR系统在复杂对话环境中的表现。这一研究不仅对ASR技术的发展具有重要意义，也为语言病理学、语言习得和双语研究等领域提供了宝贵的资源。

当前挑战

TalkBank数据集在构建过程中面临多项挑战。首先，数据集的原始录音与转录文本之间存在不一致，需要进行手动筛选和校正。其次，录音中缺乏明确的说话者通道信息，这要求研究人员采用语音活动检测（VAD）技术来准确映射说话者与通道。此外，转录文本采用的CHAT格式包含特殊符号，这些符号无法直接与ASR模型输出进行比较，因此需要进行预处理以确保数据的一致性。最后，数据集中存在大量不准确的转录片段，这些片段通过自动筛选机制被剔除，以保证数据质量。这些挑战不仅反映了构建真实世界对话数据集的复杂性，也凸显了现有ASR系统在处理这些复杂数据时的局限性。

常用场景

经典使用场景

TalkBank数据集的经典使用场景主要集中在自动语音识别（ASR）系统的评估与优化上。该数据集特别适用于模拟真实世界中的对话环境，其中包含了大量的非结构化语音数据，如电话交谈中的停顿、打断和多样化的口音。通过使用TalkBank，研究人员能够更准确地评估现有ASR模型在复杂对话场景中的表现，从而推动模型在实际应用中的性能提升。

解决学术问题

TalkBank数据集解决了现有ASR基准数据集在代表真实对话环境方面的不足。传统数据集如LibriSpeech和Fleurs主要基于受控环境下的录音，无法充分反映实际对话中的复杂性。TalkBank通过提供多语言、非结构化的对话数据，帮助学术界更全面地理解和解决ASR系统在处理自然对话时的挑战，如语音不流畅性和多变背景噪音，从而推动了ASR技术的进步。

衍生相关工作

基于TalkBank数据集，许多相关研究工作得以展开。例如，有研究利用该数据集开发了新的ASR模型，这些模型在处理非结构化对话数据时表现更为出色。此外，TalkBank还促进了跨语言和跨文化对话分析的研究，推动了多语言ASR系统的发展。这些衍生工作不仅提升了ASR技术的水平，也为语言学和语音病理学等领域的研究提供了新的工具和视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录