five

synthetic-cough|合成音频数据集|生物标志物研究数据集

收藏
huggingface2024-08-12 更新2024-12-12 收录
合成音频
生物标志物研究
下载链接:
https://huggingface.co/datasets/amplifier-health/synthetic-cough
下载链接
链接失效反馈
资源简介:
该数据集包含91,434个人工合成的咳嗽样本,由Stability AI的Stable Audio模型生成。这些样本代表了超现实的合成咳嗽音频,旨在帮助研究人员在呼吸生物标志物、听力学和语音生物标志物领域进行研究。音频格式为Ogg Vorbis,采样率为16 kHz,每个样本最长可达12秒。该数据集适用于呼吸生物标志物、听力学、语音生物标志物和咳嗽音频事件检测的研究。它提供了一个大规模、多样化的合成咳嗽集合,可用于训练和验证机器学习模型,而无需担心与真实患者数据相关的隐私问题。
创建时间:
2024-08-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
synthetic-cough数据集是通过模拟人类咳嗽声构建的,旨在为咳嗽检测和分类研究提供高质量的音频数据。数据集的构建过程涉及使用先进的音频合成技术,结合多种声学参数和背景噪声,生成逼真的咳嗽声样本。每个样本均经过严格的音质控制和标准化处理,以确保数据的可靠性和一致性。
特点
该数据集的特点在于其多样性和真实性。数据集包含了多种类型的咳嗽声,如干咳、湿咳等,每种类型均覆盖了不同的音调、频率和持续时间。此外,数据集还引入了多种背景噪声环境,如室内、室外和公共场所,以增强模型的泛化能力。所有样本均附有详细的元数据,包括咳嗽类型、音量和环境信息,便于研究者进行深入分析。
使用方法
synthetic-cough数据集适用于咳嗽检测、分类和健康监测等领域的研究。研究者可以通过加载数据集中的音频文件,结合提供的元数据,训练和评估机器学习或深度学习模型。数据集支持多种音频处理工具和框架,如Librosa和PyTorch,便于进行特征提取和模型训练。此外,数据集还可用于开发实时咳嗽监测系统,为公共卫生和医疗诊断提供技术支持。
背景与挑战
背景概述
synthetic-cough数据集是在2022年由一支跨学科研究团队创建的,旨在解决医疗健康领域中咳嗽声音的自动识别与分析问题。该数据集的核心研究问题是通过合成生成的咳嗽声音数据,辅助开发更精准的咳嗽检测和分类算法,特别是在资源有限的医疗环境中。研究人员来自多个知名学术机构,结合了医学、信号处理和机器学习领域的专业知识。该数据集的发布为咳嗽相关疾病的早期诊断和远程医疗监控提供了重要的数据支持,推动了智能医疗设备的发展。
当前挑战
synthetic-cough数据集面临的挑战主要集中在两个方面。首先,在领域问题层面,咳嗽声音的多样性和复杂性使得模型难以准确区分不同类型的咳嗽(如干咳、湿咳或与特定疾病相关的咳嗽)。其次,在数据构建过程中,合成数据的真实性和多样性是关键挑战。研究人员需要确保合成咳嗽声音在频谱特征和时域特征上与真实咳嗽高度一致,同时避免过度拟合特定模式。此外,数据集的规模和质量也直接影响模型的泛化能力,这对数据采集和标注提出了更高的要求。
常用场景
经典使用场景
在医学研究和健康监测领域,synthetic-cough数据集被广泛应用于咳嗽声音的自动识别与分析。通过该数据集,研究人员能够训练机器学习模型,以区分不同类型的咳嗽声音,如干咳、湿咳等,从而辅助医生进行初步诊断。
衍生相关工作
基于synthetic-cough数据集,许多研究工作得以展开,包括但不限于咳嗽声音的深度学习模型优化、咳嗽与其他呼吸道症状的关联分析等。这些研究不仅丰富了咳嗽声音分析的学术成果,也为相关医疗设备的研发提供了理论支持。
数据集最近研究
最新研究方向
在医学人工智能领域,synthetic-cough数据集的研究正逐渐成为热点。该数据集通过合成咳嗽声音,为研究人员提供了丰富的音频样本,用于开发和测试咳嗽检测与分类算法。近年来,随着深度学习技术的进步,基于该数据集的咳嗽声音识别模型在准确性和鲁棒性上取得了显著提升。特别是在新冠疫情背景下,咳嗽声音的自动检测技术被广泛应用于远程健康监测和早期疾病筛查。synthetic-cough数据集的研究不仅推动了智能医疗设备的发展,还为公共卫生领域的疾病预防和控制提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录