simon3000/genshin-voice|语音识别数据集|游戏数据数据集

hugging_face2024-06-06 更新2024-05-25 收录

语音识别

游戏数据

下载链接：

https://hf-mirror.com/datasets/simon3000/genshin-voice

下载链接

链接失效反馈

资源简介：

Genshin Voice数据集包含来自热门游戏《原神》的语音台词，涵盖多种语言（中文、英文、日文、韩文）。这些语音台词由游戏中的角色说出，内容广泛，包括问候、战斗和故事对话等。数据集包含音频、转录文本、语言、说话者、说话者类型、类型和游戏内文件名等特征。

提供机构：

simon3000

原始信息汇总

数据集概述

数据集名称: Genshin Voice

数据集描述: Genshin Voice 是一个包含流行游戏《Genshin Impact》中角色语音线的数据集。该数据集涵盖多种语言，包括中文、英文、日文和韩文，内容涉及问候、战斗和故事对话等多个主题。

数据集特征:

audio: 音频数据
transcription: 字符串类型的转录文本
language: 字符串类型的语言标识
speaker: 字符串类型的说话者名称
speaker_type: 字符串类型的说话者类型
type: 字符串类型的语音类型
inGameFilename: 字符串类型的游戏内文件名

数据集拆分:

train: 训练集，包含413429个样本，总大小为234468423940.616字节

数据集大小与下载大小:

下载大小: 202116725683字节
数据集大小: 234468423940.616字节

数据集配置:

config_name: default
data_files:
- split: train
- path: data/train-*

数据集使用示例: python from datasets import load_dataset import soundfile as sf import os

dataset = load_dataset(simon3000/genshin-voice, split=train, streaming=True) chinese_ganyu = dataset.filter(lambda voice: voice[language] == Chinese and voice[speaker] == Ganyu and voice[transcription] != )

数据集创建:

源数据: 数据来源于《Genshin Impact》游戏的解包内容。
数据处理: 数据处理详情请参考Genshin-Voice和w4123/GenshinVoice。
源数据生产者: 游戏开发者miHoYo。

数据集注释:

包含官方注释，如语言、说话者名称和转录文本。

数据集偏差、风险和限制:

注释不完全，部分语音线缺少说话者名称和转录文本。
说话者和转录文本可能包含标记和占位符。

许可证信息:

版权所有 © COGNOSPHERE. 保留所有权利。

其他信息:

可根据需求上传wav文件。

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于热门游戏《原神》中的语音片段，通过解包游戏资源获得。数据集包含了游戏中多个角色的语音，涵盖了多种语言，包括中文、英文、日文和韩文。语音内容涉及问候、战斗和剧情对话等多个主题。数据集的构建过程中，保留了原始的语音文件及其对应的转录文本、语言标签、说话者信息等元数据。

特点

该数据集的显著特点在于其多语言覆盖和丰富的语音内容。每个语音片段都附带了详细的元数据，包括语言、说话者、说话者类型、游戏内文件名等。此外，数据集还包含了部分缺失的转录文本和说话者信息，用户在使用时需注意这些不完整性。

使用方法

用户可以通过Hugging Face的datasets库加载该数据集，并根据需要进行筛选和处理。例如，用户可以筛选出特定语言和角色的语音片段，并将其保存为音频文件和对应的转录文本。数据集的使用方法灵活，适用于多种音频处理任务，如语音识别、文本转语音等。

背景与挑战

背景概述

Genshin Voice数据集是由miHoYo开发的流行游戏《原神》中的语音片段组成，涵盖了多种语言，包括中文、英文、日文和韩文。该数据集包含了游戏角色在不同情境下的语音，如问候、战斗和故事对话等。数据集的创建旨在支持音频分类、自动语音识别和文本到语音转换等任务。其核心研究问题在于如何利用这些多语言语音数据来提升语音处理技术的性能，尤其是在多语言环境下的应用。该数据集的发布时间为2024年8月30日，由Simon3000和w4123等研究人员共同处理和发布，对语音处理领域的研究具有重要影响。

当前挑战

Genshin Voice数据集在构建过程中面临多项挑战。首先，数据集中的部分语音片段缺失了说话者名称和转录文本，这为语音识别和分类任务带来了不确定性。其次，语音片段中可能包含标记和占位符，增加了数据处理的复杂性。此外，由于数据来源于游戏，可能存在版权和使用限制，这限制了数据集的广泛应用。最后，多语言数据的处理和标注也是一个技术难题，需要确保不同语言的语音和文本能够准确对应。这些挑战需要在未来的研究和应用中得到解决，以充分发挥该数据集的潜力。

常用场景

经典使用场景

Genshin Voice数据集的经典使用场景主要集中在语音识别和多语言处理领域。研究者可以利用该数据集进行自动语音识别（ASR）模型的训练，尤其是在处理多语言语音数据时，能够有效提升模型对中文、英文、日文和韩文语音的识别能力。此外，该数据集还可用于语音分类任务，帮助模型区分不同角色和语言的语音特征。

衍生相关工作

基于Genshin Voice数据集，研究者已开展多项相关工作，包括多语言语音识别模型的优化、跨语言语音数据的特征分析以及游戏语音数据的深度学习应用。这些工作不仅推动了语音识别技术的发展，还为多语言语音处理提供了新的研究方向。此外，该数据集的开放也为游戏语音数据的处理和分析提供了宝贵的资源。

数据集最近研究

最新研究方向

在语音识别与合成领域，Genshin Voice数据集因其丰富的多语言语音数据和高质量的标注信息，成为研究者们关注的焦点。该数据集不仅涵盖了中、英、日、韩四种语言，还包含了游戏角色的多样化语音内容，为跨语言语音识别、语音合成以及情感分析等前沿研究提供了宝贵的资源。特别是在自动语音识别（ASR）和文本到语音（TTS）转换任务中，Genshin Voice数据集的多样性和高质量标注为模型训练提供了有力支持，推动了多语言语音技术的进一步发展。此外，该数据集的开放性也为游戏语音数据的分析与应用开辟了新的研究方向，尤其是在游戏角色语音情感识别和个性化语音合成方面，具有重要的学术和应用价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

rock-crack and concrete-crack dataset, CT-slice-crack dataset

岩石裂缝与CT岩心裂缝语义分割数据集，用于识别道路、建筑物和其他民用结构上的裂缝。

github 收录

PU Dataset

德国帕德博恩大学（PU）轴承故障诊断数据集提供了丰富的轴承故障信号数据，包括内圈、外圈和滚动体故障等多种类型的轴承故障。与其他数据集相比，PU数据集的特色在于包含了大量的电机驱动系统故障数据，为轴承故障诊断研究提供了一个全面的实验平台。

github 收录

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表，论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

轴承故障数据集

本项目集成了多个公开的轴承故障数据集，所有数据均被处理为1秒/个的数据样本，并使用fft得到其频域特征。支持通过数据集、通道、故障、严重程度对所有样本进行筛选，并选择时域或频域显示。

github 收录