five

MoodsMIREX, CAL500, Yang-Dim, MoodSwings, NTWICM, Soundtracks, DEAP, AMG1608, Emotify, Moodo, CH818, 4Q-emotion, DEAM/Mediaeval, PMEmo, Jamendo Moods and Themes, VGMIDI|音乐情感识别数据集|情感分类数据集

收藏
github2024-05-24 更新2024-05-31 收录
音乐情感识别
情感分类
下载链接:
https://github.com/juansgomez87/datasets_emotion
下载链接
链接失效反馈
资源简介:
这些数据集涵盖了音乐情感识别领域的多种类型,包括情感分类和维度分析,用于研究音乐如何被感知或诱导情感。

These datasets encompass a variety of types within the field of music emotion recognition, including emotion classification and dimensional analysis, utilized to investigate how music is perceived or induces emotions.
创建时间:
2019-04-23
原始信息汇总

音乐情感识别数据集概述

数据集列表

数据集 年份 内容 格式 大小 类型 感知/诱发
MoodsMIREX 2007 269段(30秒长) MP3 736MB 分类(5种情绪集群) 感知
CAL500 2007 500首完整歌曲 MP3 366MB 分类(174个标签) 感知
Yang-Dim 2008 195段(25秒长) - - 维度 感知
MoodSwings 2008 240段(15秒长) - - 维度(时间连续A-V) 感知
NTWICM 2010 2648首完整歌曲 MP3 11.7GB 离散维度 感知
Soundtracks 2011 360+110段(15秒至1分钟长) MP3 216MB 分类和维度(愉悦、能量、紧张) 感知
DEAP 2012 120段(60秒长) 链接 - 维度 诱发
AMG1608 2015 1608段(30秒长) WAV 4.3GB 离散维度 感知
Emotify 2016 400段(60秒长) MP3 363MB 分类(GEMS) 诱发
Moodo 2016 200首(15秒) WAV 感知颜色 离散维度 感知
CH818 2017 818段(30秒长) MP3 393MB 维度 感知
4Q-emotion 2018 900段(30秒长) MP3 291MB 分类(四象限) 感知
DEAM/Mediaeval 2018 2058段(45秒长) MP3 1.4GB 维度(时间连续A-V) 感知
PMEmo 2018 794首完整歌曲 MP3 1.3GB 维度(时间连续A-V) 诱发
Jamendo Moods and Themes 2019 18486首完整歌曲 MP3 152GB 分类 感知
VGMIDI 2019 200 MIDI文件 MIDI 1.37GB 维度 感知
CCMED-WCMED 2020 800段(8-20秒长) WAV - 离散维度 感知

数据集详细信息

Moods MIREX

  • 作者:Hu, X., Downie, J.S., Laurier, C., Bay, M., Ehmann, A.F.
  • 描述和音乐风格:来自Associated Production Music (APM)的精选,涵盖多种音乐风格。
  • 注释策略:由3位评分者进行评分,提取2/3同意的子集。
  • 注释(分类):5种情绪集群。

CAL500

  • 作者:Turnbull, D., Barrington, L., Torres, D., Lanckriet G.
  • 描述和音乐风格:从作者个人收藏的西方流行音乐中选取。
  • 注释策略:66名本科生进行注释,每小时10美元报酬。
  • 注释(分类):18种情绪,按1至3级评分。

Yang-Dim

  • 作者:Yang, Y.-H., Lin, Y.-C, Su, Y.-F, Chen, H.-H.
  • 描述和音乐风格:包含西方、中国和日本的流行歌曲。
  • 注释策略:大学学生被要求选择两个值,范围从-1.0到1.0,表示他们对音乐样本的AV值的感受。
  • 注释(维度):唤醒和价态。

MoodSwings

  • 作者:Kim, Y., Schmidt, E., Emelle, L.
  • 描述和音乐风格:使用美国流行音乐收集时间变化的情绪感知。
  • 注释策略:使用游戏中的两个玩家通过鼠标在连续的AV空间中注释片段。
  • 注释(维度):时间连续的唤醒和价态注释(1 Hz)。

Now Thats What I Call Music

  • 作者:Schuller, B., Dorfner, J., Gerhard, R.
  • 描述和音乐风格:从“Now That’s What I Call Music!”系列中选择,涵盖多种流行音乐风格。
  • 注释策略:4位评分者对完整歌曲进行静态注释,范围为[-2,-1, 0, 1, 2]。
  • 注释(维度):唤醒和价态。

Soundtracks

  • 作者:Eerola, T. & Vuoskoski, J. K.
  • 描述和音乐风格:旨在克服已知问题,包含不太知名的例子。
  • 注释策略:由12位专家音乐学家进行初始评分,后由116名大学生重新测试。
  • 注释:分类和维度。

DEAP

  • 作者:Koelstra, S., Muehl, C., Soleymani, M., Lee, J.-S., Yazdani, A., Ebrahimi, T., Pun, T., Nijholt, A., Patras, I.
  • 描述和音乐风格:从YouTube和Last.FM选择视频,记录EEG和生理信号。
  • 注释策略:32名志愿者观看音乐视频并进行评分,同时记录EEG和生理信号。
  • 注释:维度(唤醒、价态和支配性)。

AMG1608

  • 作者:Chen, Y.-A, Yang, Y.-H., Wang, J.-C., Chen, H.-H.
  • 描述和音乐风格:来自AMG的当代西方音乐,定义了34种不同的情绪类别。
  • 注释策略:每位受试者被要求注释13首歌曲,通过在面板上放置光标来指示歌曲的感知VA值。
  • 注释(维度):唤醒和价态实值,范围[-1,1]。

Emotify

  • 作者:Aljanaki, A., Wiering, F., Veltkamp, R.C.
  • 描述和音乐风格:包括摇滚、古典、流行和电子音乐。
  • 注释策略:使用GEMS量表收集注释,注释分布不均,受实验和游戏设计影响。
  • 注释(分类):九个类别(惊奇、庄严、温柔、怀旧、平静、力量、快乐激活、紧张、悲伤)。

Moodo

  • 作者:M Pesek, G Strle, A Kavčič, M Marolt
  • 描述和音乐风格:包含200段(15秒),来自电子、民族、流行和电影音乐。
  • 注释策略:741名参与者被呈现10首音乐片段,并被要求选择与音乐片段最相关的颜色。
  • 注释(维度):唤醒和价态实值,范围[-1,1],映射到颜色。

CH818

  • 作者:Hu, X., Yang, Y.
  • 描述和音乐风格:中国流行歌曲,来自台湾、香港和中国大陆。
  • 注释策略:每段由三位在中国大陆出生和长大的音乐专家注释,使用连续实值范围[-10,10]的界面。
  • 注释(维度):唤醒和价态实值,范围[-10,10]。

4Q Emotion Dataset

  • 作者:Panda R., Malheiro R., Paiva R. P.
  • 描述和音乐风格:使用AllMusic API收集音乐信息,提供元数据和30秒音频片段。
  • 注释策略:从AllMusic标签中选择情绪标签,并通过手动盲验证进行验证。
  • 注释(分类):四象限(A+V+,A+V-,A-V-,A-V+)。

MediaEval Database for Emotional Analysis in Music

  • 作者:Soleymani, M., Aljanaki, A., Yang, Y.
  • 描述和音乐风格:来自freemusicarchive.org、jamendo.com和medleyDB的免费音乐。
  • 注释策略:通过MTurk进行众包,每段至少由10名工作者注释。
  • 注释(维度):时间连续的唤醒和价态注释(1 Hz)。

PMEmo

  • 作者:Zhang, K., Zhang, H., Li, S., Yang, C., Sun, L.
  • 描述和音乐风格:收集自Billboard Hot 100、iTunes Top 100 Songs (USA)和UK Top 40 Singles Chart的流行歌曲。
  • 注释策略:使用滑块收集动态注释,采样率为2 Hz,静态注释在动态标记后进行。
  • 注释(维度):时间连续的唤醒和价态注释(2 Hz)。

Jamendo Mood and Theme Subset

  • 作者:Bogdanov, D., Porter A., Tovstogan P., & Won M.
  • 描述和音乐风格:MTG-Jamendo数据集,用于音乐自动标记,包含87种流派标签。
  • 注释策略:从Jamendo平台上的社交媒体标签中众包56种情绪/主题标签。
  • 注释(分类):56种情绪/主题标签。

VGMIDI

  • 作者:Ferreira, L., Whitehead, J.
  • 描述和音乐风格:包含200个标记的钢琴曲(视频游戏配乐)的MIDI数据集。
  • 注释策略:每首曲目由30名人类受试者根据价态-唤醒模型进行注释,受试者被要求描述他们听到的短曲。
  • 注释(维度):时间连续的唤醒和价态注释。

CCMED-WCMED

  • 作者:Fan, J., Yang, Y.-H., Gong, K, Pasquier, P.
  • 描述和音乐风格:包含400段西方古典音乐录音和400段中国古典音乐录音。
  • 注释策略:进行两次众包实验以收集情绪注释(唤醒和价态),使用基于排名的方法。
  • 注释(维度):唤醒和价态实值,范围[-1,1]。

Moodo

  • 作者:M Pesek, G Strle, A Kavčič, M Marolt
  • 描述和音乐风格:包含200段(15秒),来自电子、民族、流行和电影音乐。
  • 注释策略:741名参与者被呈现10首音乐片段,并被要求选择与音乐片段最相关的颜色。
  • 注释(维度):唤醒和价态实值,范围[-1,1],映射到颜色。

以上数据集提供了丰富的音乐情感识别资源,涵盖了多种音乐风格、注释策略和情感模型,适用于不同的研究需求和应用场景。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多源音乐片段的收集与情感标注,涵盖了从流行音乐到古典音乐的广泛风格。每个数据集片段均通过专业音乐学者或众包方式进行情感标注,确保标注的多样性和准确性。例如,Mediaeval数据集通过MTurk平台进行众包标注,而PMEmo数据集则由专业音乐学者进行标注。这种多层次的标注策略旨在捕捉音乐情感的复杂性和多样性。
特点
该数据集的显著特点在于其多样性和细致的情感标注。数据集不仅包含了多种音乐风格,还提供了多维度的情感标注,如维度模型中的唤醒度和效价,以及分类模型中的情感类别。此外,部分数据集还提供了时间连续的情感标注,使得研究者能够分析音乐情感的动态变化。这种细致入微的标注方式为音乐情感识别研究提供了丰富的数据支持。
使用方法
使用该数据集时,研究者可以根据研究需求选择合适的音乐片段和标注类型。对于需要分析音乐情感动态变化的研究,可以选择提供时间连续标注的数据集。而对于情感分类研究,则可以选择分类标注的数据集。数据集的多样性使得研究者能够进行跨风格和跨文化的情感识别研究。此外,数据集的详细标注信息和丰富的元数据也为模型的训练和验证提供了坚实的基础。
背景与挑战
背景概述
音乐情感识别(Music Emotion Recognition, MER)作为一个跨学科的研究领域,致力于通过计算手段预测音乐所引发的情感反应。该领域的研究始于2000年代初,由Juan Sebastián Gómez-Cañón、Estefanía Cano、Tuomas Eerola等学者主导,旨在解决音乐情感分类与识别的核心问题。随着个性化和情境敏感应用需求的增加,MER研究逐渐成为信号处理和人工智能领域的热点。其影响力不仅体现在学术界,还推动了音乐推荐系统、情感分析工具等实际应用的发展。
当前挑战
尽管MER领域取得了显著进展,但仍面临诸多挑战。首先,数据集的开放性和实验可重复性问题亟待解决,确保研究结果的可信度和可验证性。其次,情感概念和标注的主观性导致数据集的多样性和一致性难以平衡。此外,模型的可解释性和可理解性也是重要挑战,特别是在处理复杂情感时。文化背景和情境相关性问题同样不容忽视,不同文化对音乐情感的感知存在显著差异。最后,MER应用的伦理问题,如隐私保护和情感操纵,需要深入探讨和规范。
常用场景
经典使用场景
在音乐情感识别(MER)领域,Mediaeval、PMEmo、Jamendo Moods and Themes、VGMIDI等数据集的经典使用场景主要集中在情感预测和分类任务上。这些数据集通过提供丰富的音乐片段及其对应的情感标签,支持研究人员开发和验证情感识别模型。例如,研究人员可以利用这些数据集训练机器学习模型,以预测音乐片段的情感维度(如唤醒度和效价),或进行情感类别的分类(如快乐、悲伤、愤怒等)。
实际应用
在实际应用中,这些数据集支持开发多种音乐情感识别系统,如个性化音乐推荐、情感驱动的音乐治疗、以及情感增强的多媒体内容生成。例如,在音乐推荐系统中,利用这些数据集训练的模型可以根据用户的情感状态推荐合适的音乐,提升用户体验。在音乐治疗领域,这些数据集可以帮助开发基于情感识别的治疗方案,提高治疗效果。
衍生相关工作
基于这些数据集,研究人员开展了多项经典工作。例如,Mediaeval数据集启发了多篇关于情感动态变化的研究,PMEmo数据集促进了情感识别模型的跨文化比较研究。此外,Jamendo Moods and Themes数据集支持了大规模音乐情感分类模型的开发,VGMIDI数据集则推动了MIDI音乐情感识别的研究。这些工作不仅提升了音乐情感识别的准确性,还拓展了其在不同应用场景中的潜力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录