five

melodyhub|音乐数据数据集|机器学习数据集

收藏
huggingface2024-07-02 更新2024-12-12 收录
音乐数据
机器学习
下载链接:
https://huggingface.co/datasets/sander-wood/melodyhub
下载链接
链接失效反馈
资源简介:
MelodyHub数据集是一个精心策划的数据集,主要用于训练MelodyT5模型。该数据集包含261,900个旋律,采用ABC记谱法格式,并从公共乐谱数据集和在线平台收集。数据集包括民间歌曲和其他无版权音乐乐谱,确保了传统和时代的多样性。数据集涵盖七个以旋律为中心的任务:分类、生成、和声、旋律化、分割、转录和变奏。这些任务产生了超过一百万个任务实例,为符号音乐处理提供了一个全面的资源。每个任务都以乐谱到乐谱的格式呈现,输入数据中包含任务标识符。MelodyHub的严格筛选过程确保了高质量、一致的数据,适合开发和评估符号音乐模型。
创建时间:
2024-07-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
MelodyHub数据集的构建过程体现了对音乐数据的高标准要求。数据集从公开的乐谱数据集和在线平台中收集了261,900首旋律,采用ABC记谱法进行格式化。为确保数据的多样性和质量,构建过程中排除了受版权保护的内容,并通过格式标准化、音乐复杂性过滤、非音乐内容去除、休止小节修剪、小节线验证以及去重等步骤,最终形成了一个高质量且一致的旋律集合。这一严谨的构建流程为符号音乐处理模型的训练和评估提供了坚实的基础。
使用方法
MelodyHub数据集的使用方法灵活多样,适用于多种符号音乐处理任务。用户可以通过输入任务标识符来指定具体的任务类型,如生成、和声化或变奏等。每项任务的输入输出均以ABC记谱法呈现,便于用户直接进行音乐生成或分析。此外,数据集中的控制代码和信息字段(如`E:`字段)为模型提供了额外的结构信息和相似度指标,有助于提升任务的准确性和生成质量。用户还可以结合在线ABC播放器或EasyABC等工具,进一步探索和编辑数据集中的旋律内容。
背景与挑战
背景概述
MelodyHub数据集是一个专为训练MelodyT5模型而精心策划的数据集,包含261,900首以ABC记谱法格式化的旋律,源自公共乐谱数据集和在线平台。该数据集涵盖了民谣及其他无版权音乐作品,确保了跨传统和时代的多样性。MelodyHub包含七项旋律中心任务,如编目、生成、和声化、旋律化、分段、转录和变奏,生成了超过一百万的任务实例,为符号音乐处理提供了全面的资源。该数据集由上海交通大学的研究团队于2024年创建,旨在推动符号音乐处理领域的研究与应用。
当前挑战
MelodyHub数据集在构建过程中面临多重挑战。首先,数据来源的多样性和格式不统一要求进行复杂的格式标准化处理,以确保数据的一致性。其次,排除受版权保护的内容和去除非音乐元素(如歌词和URL链接)增加了数据清洗的难度。此外,确保旋律的复杂性和独特性,如过滤少于八小节的旋律和去重,进一步提升了数据质量控制的复杂性。最后,将数据集划分为七项任务并生成相应的输入输出对,要求精细的任务定义和数据处理,以确保每项任务的准确性和实用性。这些挑战共同构成了MelodyHub数据集构建的核心难点。
常用场景
经典使用场景
MelodyHub数据集在音乐信息检索(MIR)领域具有广泛的应用,尤其是在符号音乐处理任务中。该数据集通过提供261,900首以ABC记谱法格式化的旋律,涵盖了从传统民谣到非版权音乐作品的多样性。其七种核心任务——包括编目、生成、和声化、旋律化、分段、转录和变奏——为研究人员提供了一个全面的实验平台,用于开发和评估符号音乐模型。这些任务以乐谱到乐谱的形式呈现,确保了数据的一致性和高质量,使其成为训练和测试音乐生成模型的理想选择。
解决学术问题
MelodyHub数据集解决了符号音乐处理中的多个关键学术问题。首先,它通过提供多样化的旋律数据,支持了音乐生成模型的训练,解决了传统音乐生成中数据稀缺的问题。其次,其任务设计涵盖了从音乐分析到生成的广泛领域,为研究人员提供了丰富的实验场景,能够有效评估模型在不同任务中的表现。此外,数据集的高质量和一致性确保了研究结果的可靠性和可重复性,推动了符号音乐处理领域的进一步发展。
实际应用
在实际应用中,MelodyHub数据集为音乐生成、和声分析和音乐转录等任务提供了强大的支持。例如,音乐生成模型可以利用该数据集生成具有多样性和复杂性的旋律,应用于音乐创作和自动作曲领域。和声分析任务则可以通过数据集中的和声化任务,帮助音乐家快速生成和声伴奏。此外,转录任务能够将MIDI格式的音乐转换为ABC记谱法,为音乐教育和研究提供了便利。这些应用展示了MelodyHub在音乐技术领域的广泛潜力。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)领域,MelodyHub数据集的最新研究方向聚焦于符号音乐处理的多样性与复杂性。该数据集通过包含261,900首旋律,涵盖了从传统民谣到非版权音乐作品的广泛音乐风格,为符号音乐模型的训练与评估提供了丰富的资源。当前研究热点包括旋律生成、和声化、旋律化、分段、转录和变奏等七项任务,这些任务不仅推动了音乐生成技术的发展,还为音乐分析与理解提供了新的视角。特别是MelodyT5模型的引入,进一步提升了符号音乐处理的统一性与效率,为音乐信息检索领域的创新奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录