MoodsMIREX, CAL500, Yang-Dim, MoodSwings, NTWICM, Soundtracks, DEAP, AMG1608, Emotify, Moodo, CH818, 4Q-emotion, DEAM/Mediaeval, PMEmo, Jamendo Moods and Themes, VGMIDI|音乐情感识别数据集|情感分类数据集
收藏音乐情感识别数据集概述
数据集列表
数据集 | 年份 | 内容 | 格式 | 大小 | 类型 | 感知/诱发 |
---|---|---|---|---|---|---|
MoodsMIREX | 2007 | 269段(30秒长) | MP3 | 736MB | 分类(5种情绪集群) | 感知 |
CAL500 | 2007 | 500首完整歌曲 | MP3 | 366MB | 分类(174个标签) | 感知 |
Yang-Dim | 2008 | 195段(25秒长) | - | - | 维度 | 感知 |
MoodSwings | 2008 | 240段(15秒长) | - | - | 维度(时间连续A-V) | 感知 |
NTWICM | 2010 | 2648首完整歌曲 | MP3 | 11.7GB | 离散维度 | 感知 |
Soundtracks | 2011 | 360+110段(15秒至1分钟长) | MP3 | 216MB | 分类和维度(愉悦、能量、紧张) | 感知 |
DEAP | 2012 | 120段(60秒长) | 链接 | - | 维度 | 诱发 |
AMG1608 | 2015 | 1608段(30秒长) | WAV | 4.3GB | 离散维度 | 感知 |
Emotify | 2016 | 400段(60秒长) | MP3 | 363MB | 分类(GEMS) | 诱发 |
Moodo | 2016 | 200首(15秒) | WAV | 感知颜色 | 离散维度 | 感知 |
CH818 | 2017 | 818段(30秒长) | MP3 | 393MB | 维度 | 感知 |
4Q-emotion | 2018 | 900段(30秒长) | MP3 | 291MB | 分类(四象限) | 感知 |
DEAM/Mediaeval | 2018 | 2058段(45秒长) | MP3 | 1.4GB | 维度(时间连续A-V) | 感知 |
PMEmo | 2018 | 794首完整歌曲 | MP3 | 1.3GB | 维度(时间连续A-V) | 诱发 |
Jamendo Moods and Themes | 2019 | 18486首完整歌曲 | MP3 | 152GB | 分类 | 感知 |
VGMIDI | 2019 | 200 MIDI文件 | MIDI | 1.37GB | 维度 | 感知 |
CCMED-WCMED | 2020 | 800段(8-20秒长) | WAV | - | 离散维度 | 感知 |
数据集详细信息
Moods MIREX
- 作者:Hu, X., Downie, J.S., Laurier, C., Bay, M., Ehmann, A.F.
- 描述和音乐风格:来自Associated Production Music (APM)的精选,涵盖多种音乐风格。
- 注释策略:由3位评分者进行评分,提取2/3同意的子集。
- 注释(分类):5种情绪集群。
CAL500
- 作者:Turnbull, D., Barrington, L., Torres, D., Lanckriet G.
- 描述和音乐风格:从作者个人收藏的西方流行音乐中选取。
- 注释策略:66名本科生进行注释,每小时10美元报酬。
- 注释(分类):18种情绪,按1至3级评分。
Yang-Dim
- 作者:Yang, Y.-H., Lin, Y.-C, Su, Y.-F, Chen, H.-H.
- 描述和音乐风格:包含西方、中国和日本的流行歌曲。
- 注释策略:大学学生被要求选择两个值,范围从-1.0到1.0,表示他们对音乐样本的AV值的感受。
- 注释(维度):唤醒和价态。
MoodSwings
- 作者:Kim, Y., Schmidt, E., Emelle, L.
- 描述和音乐风格:使用美国流行音乐收集时间变化的情绪感知。
- 注释策略:使用游戏中的两个玩家通过鼠标在连续的AV空间中注释片段。
- 注释(维度):时间连续的唤醒和价态注释(1 Hz)。
Now Thats What I Call Music
- 作者:Schuller, B., Dorfner, J., Gerhard, R.
- 描述和音乐风格:从“Now That’s What I Call Music!”系列中选择,涵盖多种流行音乐风格。
- 注释策略:4位评分者对完整歌曲进行静态注释,范围为[-2,-1, 0, 1, 2]。
- 注释(维度):唤醒和价态。
Soundtracks
- 作者:Eerola, T. & Vuoskoski, J. K.
- 描述和音乐风格:旨在克服已知问题,包含不太知名的例子。
- 注释策略:由12位专家音乐学家进行初始评分,后由116名大学生重新测试。
- 注释:分类和维度。
DEAP
- 作者:Koelstra, S., Muehl, C., Soleymani, M., Lee, J.-S., Yazdani, A., Ebrahimi, T., Pun, T., Nijholt, A., Patras, I.
- 描述和音乐风格:从YouTube和Last.FM选择视频,记录EEG和生理信号。
- 注释策略:32名志愿者观看音乐视频并进行评分,同时记录EEG和生理信号。
- 注释:维度(唤醒、价态和支配性)。
AMG1608
- 作者:Chen, Y.-A, Yang, Y.-H., Wang, J.-C., Chen, H.-H.
- 描述和音乐风格:来自AMG的当代西方音乐,定义了34种不同的情绪类别。
- 注释策略:每位受试者被要求注释13首歌曲,通过在面板上放置光标来指示歌曲的感知VA值。
- 注释(维度):唤醒和价态实值,范围[-1,1]。
Emotify
- 作者:Aljanaki, A., Wiering, F., Veltkamp, R.C.
- 描述和音乐风格:包括摇滚、古典、流行和电子音乐。
- 注释策略:使用GEMS量表收集注释,注释分布不均,受实验和游戏设计影响。
- 注释(分类):九个类别(惊奇、庄严、温柔、怀旧、平静、力量、快乐激活、紧张、悲伤)。
Moodo
- 作者:M Pesek, G Strle, A Kavčič, M Marolt
- 描述和音乐风格:包含200段(15秒),来自电子、民族、流行和电影音乐。
- 注释策略:741名参与者被呈现10首音乐片段,并被要求选择与音乐片段最相关的颜色。
- 注释(维度):唤醒和价态实值,范围[-1,1],映射到颜色。
CH818
- 作者:Hu, X., Yang, Y.
- 描述和音乐风格:中国流行歌曲,来自台湾、香港和中国大陆。
- 注释策略:每段由三位在中国大陆出生和长大的音乐专家注释,使用连续实值范围[-10,10]的界面。
- 注释(维度):唤醒和价态实值,范围[-10,10]。
4Q Emotion Dataset
- 作者:Panda R., Malheiro R., Paiva R. P.
- 描述和音乐风格:使用AllMusic API收集音乐信息,提供元数据和30秒音频片段。
- 注释策略:从AllMusic标签中选择情绪标签,并通过手动盲验证进行验证。
- 注释(分类):四象限(A+V+,A+V-,A-V-,A-V+)。
MediaEval Database for Emotional Analysis in Music
- 作者:Soleymani, M., Aljanaki, A., Yang, Y.
- 描述和音乐风格:来自freemusicarchive.org、jamendo.com和medleyDB的免费音乐。
- 注释策略:通过MTurk进行众包,每段至少由10名工作者注释。
- 注释(维度):时间连续的唤醒和价态注释(1 Hz)。
PMEmo
- 作者:Zhang, K., Zhang, H., Li, S., Yang, C., Sun, L.
- 描述和音乐风格:收集自Billboard Hot 100、iTunes Top 100 Songs (USA)和UK Top 40 Singles Chart的流行歌曲。
- 注释策略:使用滑块收集动态注释,采样率为2 Hz,静态注释在动态标记后进行。
- 注释(维度):时间连续的唤醒和价态注释(2 Hz)。
Jamendo Mood and Theme Subset
- 作者:Bogdanov, D., Porter A., Tovstogan P., & Won M.
- 描述和音乐风格:MTG-Jamendo数据集,用于音乐自动标记,包含87种流派标签。
- 注释策略:从Jamendo平台上的社交媒体标签中众包56种情绪/主题标签。
- 注释(分类):56种情绪/主题标签。
VGMIDI
- 作者:Ferreira, L., Whitehead, J.
- 描述和音乐风格:包含200个标记的钢琴曲(视频游戏配乐)的MIDI数据集。
- 注释策略:每首曲目由30名人类受试者根据价态-唤醒模型进行注释,受试者被要求描述他们听到的短曲。
- 注释(维度):时间连续的唤醒和价态注释。
CCMED-WCMED
- 作者:Fan, J., Yang, Y.-H., Gong, K, Pasquier, P.
- 描述和音乐风格:包含400段西方古典音乐录音和400段中国古典音乐录音。
- 注释策略:进行两次众包实验以收集情绪注释(唤醒和价态),使用基于排名的方法。
- 注释(维度):唤醒和价态实值,范围[-1,1]。
Moodo
- 作者:M Pesek, G Strle, A Kavčič, M Marolt
- 描述和音乐风格:包含200段(15秒),来自电子、民族、流行和电影音乐。
- 注释策略:741名参与者被呈现10首音乐片段,并被要求选择与音乐片段最相关的颜色。
- 注释(维度):唤醒和价态实值,范围[-1,1],映射到颜色。
以上数据集提供了丰富的音乐情感识别资源,涵盖了多种音乐风格、注释策略和情感模型,适用于不同的研究需求和应用场景。

FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录