five

FMA (Free Music Archive)|音乐信息检索数据集|音乐分析数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
音乐信息检索
音乐分析
下载链接:
https://opendatalab.org.cn/OpenDataLab/FMA
下载链接
链接失效反馈
资源简介:
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
提供机构:
OpenDataLab
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
FMA数据集的构建基于Free Music Archive(FMA)平台,该平台是一个开放的音乐库,提供了大量免费的音乐资源。数据集的构建过程包括从FMA平台下载音乐文件,并对其进行元数据标注,如音乐风格、艺术家信息、发行年份等。此外,数据集还包含了音频特征提取,如频谱图、节奏特征等,以支持音乐信息检索和音乐分析任务。
特点
FMA数据集以其丰富的音乐多样性和高质量的元数据著称。该数据集包含了超过10万首音乐作品,涵盖了800多种不同的音乐风格。其元数据详细且准确,为研究者提供了深入分析音乐特征的可能性。此外,数据集的开放性和免费使用政策,使其成为音乐信息处理领域的重要资源。
使用方法
FMA数据集适用于多种音乐信息处理任务,包括音乐分类、音乐推荐系统和音乐情感分析等。研究者可以通过访问FMA的官方网站下载数据集,并使用Python等编程语言进行数据处理和分析。数据集的结构化设计使得用户可以轻松提取所需的音频特征和元数据,从而进行定制化的研究。
背景与挑战
背景概述
FMA(Free Music Archive)数据集是由纽约大学音乐与音频研究实验室(Music and Audio Research Laboratory, NYU)于2017年创建的,旨在为音乐信息检索(Music Information Retrieval, MIR)领域的研究提供一个开放且多样化的资源。该数据集包含了超过10万首歌曲,涵盖了多种音乐风格和流派,为研究人员提供了一个丰富的音乐数据资源。FMA的创建不仅推动了音乐分类、情感分析和自动音乐推荐等研究的发展,还为音乐版权和开放数据的使用提供了新的视角。
当前挑战
尽管FMA数据集在音乐信息检索领域具有重要意义,但其构建和使用过程中仍面临诸多挑战。首先,数据集的多样性带来了分类和标注的复杂性,不同音乐风格和流派的准确分类需要高度专业化的知识。其次,数据集的规模庞大,处理和分析这些数据需要高效的计算资源和算法。此外,音乐版权问题也是FMA数据集面临的一大挑战,如何在保证数据开放性的同时遵守版权法规,是研究人员和机构需要持续关注的问题。
发展历史
创建时间与更新
FMA数据集创建于2017年,由Kirell Benzi、Paul Lamere、Michaël Defferrard、Pierre Vandergheynst和Xavier Bresson共同发布。该数据集自发布以来,未有官方更新记录,但其内容和结构在音乐信息检索领域持续发挥重要作用。
重要里程碑
FMA数据集的发布标志着音乐信息检索领域的一个重要里程碑。它包含了超过10万首歌曲,涵盖了多种音乐风格和流派,为研究人员提供了丰富的数据资源。该数据集的多样性和高质量音频文件使其成为音乐分类、推荐系统和音频特征提取等研究的热门选择。此外,FMA数据集的开源性质和免费访问权限进一步推动了学术界和工业界的研究与应用。
当前发展情况
FMA数据集自发布以来,已成为音乐信息检索领域的重要基石。其丰富的音频数据和多样的音乐风格为研究人员提供了广阔的实验平台,推动了音乐分类、情感分析和推荐系统等方向的创新。随着深度学习和人工智能技术的发展,FMA数据集的应用范围不断扩大,不仅在学术研究中占据重要地位,也在音乐产业中展现出潜在的商业价值。未来,随着更多研究者和开发者的参与,FMA数据集有望继续引领音乐信息检索领域的发展,为音乐科技的进步做出更大贡献。
发展历程
  • FMA数据集的原始数据来源Free Music Archive网站正式上线,旨在提供一个开放的音乐资源库。
    2009年
  • FMA数据集首次在学术界发表,由Defferrard等人提出,并作为音乐信息检索研究的重要资源。
    2017年
  • FMA数据集在多个音乐信息检索和机器学习研究中得到广泛应用,成为该领域的重要基准数据集。
    2018年
常用场景
经典使用场景
在音乐信息检索领域,FMA(Free Music Archive)数据集被广泛用于音乐分类和音乐情感分析等经典任务。该数据集包含了大量多样化的音乐片段,涵盖了多种风格和流派,为研究人员提供了丰富的实验材料。通过分析这些音乐片段的音频特征,研究者能够开发出更为精准的音乐分类算法,从而推动音乐信息检索技术的发展。
衍生相关工作
FMA数据集的发布催生了一系列相关研究工作,特别是在音乐信息检索和机器学习领域。例如,有研究者利用FMA数据集开发了基于深度学习的音乐分类模型,显著提升了分类准确率。此外,FMA数据集还被用于验证各种音乐情感分析算法的有效性,推动了情感计算技术的发展。这些衍生工作不仅丰富了学术研究,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在音乐信息检索领域,FMA(Free Music Archive)数据集的最新研究方向主要集中在音乐情感分析和自动音乐推荐系统上。随着深度学习技术的进步,研究人员利用FMA数据集中的丰富音频和元数据,探索如何更准确地识别和分类音乐中的情感表达。此外,结合用户行为数据,研究者们致力于开发个性化的音乐推荐算法,以提升用户体验和满足多样化的音乐需求。这些研究不仅推动了音乐信息检索技术的发展,也为音乐产业的智能化转型提供了有力支持。
相关研究论文
  • 1
    FMA: A Dataset for Music AnalysisNew York University · 2017年
  • 2
    Exploring the Use of FMA Dataset for Music Genre ClassificationUniversity of California, San Diego · 2019年
  • 3
    A Comparative Study of Music Genre Classification Using FMA and GTZAN DatasetsUniversity of Illinois at Urbana-Champaign · 2020年
  • 4
    Deep Learning Approaches for Music Genre Classification Using FMA DatasetStanford University · 2021年
  • 5
    Transfer Learning for Music Genre Classification with FMA DatasetMassachusetts Institute of Technology · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录