five

ccmusic-database/CTIS|中国传统乐器数据集|音频分类数据集

收藏
hugging_face2024-07-14 更新2024-03-04 收录
中国传统乐器
音频分类
下载链接:
https://hf-mirror.com/datasets/ccmusic-database/CTIS
下载链接
链接失效反馈
资源简介:
Chinese Traditional Instrument Sound Dataset(CTIS)包含287种中国传统乐器、改良中国乐器和少数民族乐器的录音,其中一些乐器对大多数中国人来说较为罕见。数据集经过清理,最终包含200种乐器的3974个音频片段,每个乐器平均有约20个音频片段。数据集的音频文件为.wav格式,采样率为22050Hz,标签列包含200个类别,对应乐器的拼音名称,另外还有一列是乐器的中文名称。数据集可用于中国乐器识别或乐器声学分析等任务。

The Chinese Traditional Instrument Sound Dataset (CTIS) contains recordings from 287 varieties of Chinese traditional instruments, modified instruments, and instruments from ethnic minority groups. After data cleaning, the dataset comprises 3,974 audio clips of 200 types of instruments. The data structure includes audio files in .wav format, mel spectrograms, and labels corresponding to the instrument names in Chinese pinyin and Chinese characters. The dataset is intended for tasks such as Chinese instrument recognition and acoustic analysis. It is curated to address the lack of datasets for Chinese traditional musical instruments and is part of a broader effort to digitize traditional Chinese instruments.
提供机构:
ccmusic-database
原始信息汇总

数据集概述

数据集描述

  • 名称: Chinese Traditional Instrument Sound Dataset (CTIS)
  • 任务类别: 音频分类
  • 语言: 中文, 英文
  • 标签: 音乐, 艺术
  • 大小: 1K<n<10K
  • 许可证: MIT

数据集摘要

  • 原始数据: 包含287种中国传统乐器、改良乐器及少数民族乐器的录音。
  • 清洗后数据: 包含200种中国传统乐器的录音,共3,974个音频片段,平均每种乐器约20个音频片段。
  • 数据结构: 包含三列,分别是音频文件(.wav格式,22,050 Hz采样率)、标签(200个类别,对应乐器名称的拼音)和中文乐器名称。

支持的任务

  • 音频分类: 用于中国乐器识别或乐器声学分析。

数据集结构

  • 音频文件: .wav格式,22,050 Hz采样率
  • 标签: 200个类别,对应乐器名称的拼音
  • 中文乐器名称: 字符串格式

数据实例

  • 格式: .zip(包含.wav文件)和.csv文件

数据字段

  • 乐器种类: 最多287种中国传统乐器、改良乐器及少数民族乐器

数据分割

  • 乐器: 乐器分类
  • 打击乐器: 打击乐器分类

数据集创建

  • 动机: 缺乏中国传统乐器的数据集
  • 数据收集与标准化: 由Zhaorui Liu和Monan Zhou进行
  • 语言生产者: CCMUSIC的学生
  • 注释过程: 构建高质量音乐声数据库,考虑录音环境、表演者、样本内容、注释标准和录音及表演质量。
  • 注释者: CCMUSIC的学生

使用数据集的考虑

  • 社会影响: 推进中国传统乐器的数字化进程
  • 偏见讨论: 仅限于中国传统乐器
  • 已知限制: 样本不平衡

额外信息

  • 数据集策展人: Zijin Li
  • 评估: 相关研究论文和会议论文
  • 许可证信息: MIT许可证
  • 引用信息: bibtex @dataset{zhaorui_liu_2021_5676893, author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han}, title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research}, month = {mar}, year = {2024}, publisher = {HuggingFace}, version = {1.2}, url = {https://huggingface.co/ccmusic-database} }

贡献

  • 提供数据集: 为中国传统乐器声音提供数据集
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自[中国传统乐器音响数据库](https://ccmusic-database.github.io/en/database/ctis.html),经过数据清洗和整合,剔除了无明确乐器标签的录音,最终包含来自200多种中国传统乐器、改良乐器及少数民族乐器的3,974个音频片段。每种乐器平均有约20个音频样本。数据集结构包括音频文件(.wav格式,采样率为22,050 Hz)、标签(对应乐器名称的拼音)及中文乐器名称列。
使用方法
用户可通过`datasets`库中的`load_dataset`函数加载CTIS数据集,并指定`split='train'`以获取训练集。数据集适用于中国乐器识别和乐器声学分析等任务。例如,用户可以遍历数据集中的每个项目,打印其内容以进行进一步分析或模型训练。
背景与挑战
背景概述
在中华文化的丰富宝库中,传统乐器以其独特的音色和深厚的文化底蕴占据着重要地位。然而,长期以来,针对中国传统乐器的研究与应用缺乏系统性的数据支持。为此,由Zhaorui Liu和Monan Zhou等研究人员主导,于2024年创建了CTIS数据集,旨在填补这一领域的空白。该数据集收录了超过200种中国传统乐器、改良乐器及少数民族乐器的录音,不仅涵盖了常见乐器,还包括一些鲜为人知的珍稀乐器。这一数据集的构建,不仅为音乐信息检索(MIR)和音频分类等任务提供了宝贵的资源,也极大地推动了传统乐器数字化进程的研究与应用。
当前挑战
尽管CTIS数据集在丰富性和多样性上取得了显著成就,但其构建过程中仍面临诸多挑战。首先,数据收集与标准化过程中,如何确保每种乐器的录音质量与一致性是一个复杂的问题。其次,由于部分乐器极为罕见,获取高质量的录音样本成为一大难题。此外,数据集中的样本不平衡问题也亟待解决,以确保在实际应用中能够公平地代表每种乐器的特性。最后,如何有效地标注和分类这些乐器,以适应不同的研究需求,也是该数据集未来需要克服的挑战。
常用场景
经典使用场景
在音乐信息检索领域,CTIS数据集的经典使用场景主要集中在传统中国乐器的分类与识别。该数据集通过收录超过200种中国传统乐器及其变种的音频样本,为研究人员提供了一个丰富的资源库,用于开发和验证音频分类算法。这些算法不仅能够识别常见的乐器,还能处理一些罕见或少数民族的乐器,从而拓宽了音乐信息检索的应用范围。
解决学术问题
CTIS数据集解决了传统中国乐器数据稀缺的问题,填补了学术研究中的一个重要空白。通过提供高质量的音频数据,该数据集促进了音乐信息检索(MIR)技术的发展,特别是在中国传统音乐领域的应用。这不仅有助于提升乐器识别的准确性,还为音乐学研究提供了新的工具和方法,推动了传统音乐文化的数字化进程。
实际应用
在实际应用中,CTIS数据集被广泛用于音乐教育、文化遗产保护和音乐创作等领域。例如,音乐教育机构可以利用该数据集开发互动教学工具,帮助学生更好地理解和识别各种传统乐器。文化遗产保护机构则可以借助这些数据进行乐器声音的数字化存档,确保传统音乐的传承。此外,音乐创作者也可以从中获取灵感,创作出融合传统与现代元素的音乐作品。
数据集最近研究
最新研究方向
在音乐信息检索领域,CTIS数据集的最新研究方向主要集中在传统中国乐器的自动识别与分类上。该数据集收录了超过200种中国传统乐器及其变种的音频记录,为研究者提供了丰富的数据资源。前沿研究不仅关注于提升乐器识别的准确性,还探索如何通过深度学习模型捕捉乐器音色的细微差别,以实现更精细的分类。此外,数据集的多样性也激发了对少数民族乐器和改良乐器的研究兴趣,推动了跨文化音乐分析的发展。这些研究不仅有助于音乐文化遗产的数字化保存,还为音乐教育和创作提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

BraTS

BraTS(Brain Tumor Segmentation)数据集是一个专门用于脑肿瘤分割研究的数据集。它包含了多模态的MRI图像,包括T1、T1c(对比增强T1)、T2和FLAIR序列,以及相应的肿瘤分割标签。数据集主要用于评估和比较不同脑肿瘤分割算法的效果。

www.med.upenn.edu 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录