Nexdata/chinese_dialect|语音识别数据集|方言研究数据集
收藏数据集概述
数据集名称
- 名称: chinese_dialect
数据集描述
- 摘要: 包含25,000小时的汉语方言语音数据,采集自多个方言区域的本地方言说话者,覆盖福建话、广东话、四川方言、河南方言、东北方言、上海方言、维吾尔语和藏语等。数据格式为16kHz, 16bit, 单声道wav格式,句子准确率超过95%。
- 任务支持: 自动语音识别(ASR)、音频说话人识别。
- 语言: 汉语方言。
数据集结构
- 数据实例: 待补充。
- 数据字段: 待补充。
- 数据分割: 待补充。
数据集创建
- 来源数据: 待补充。
- 注释: 待补充。
- 个人和敏感信息: 待补充。
使用数据注意事项
- 社会影响: 待补充。
- 偏见讨论: 待补充。
- 其他已知限制: 待补充。
附加信息
- 许可证: 商业许可证。
- 引用信息: 待补充。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn2024-10-24 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv2024-09-20 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv2024-10-02 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv2025-03-25 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github2024-05-31 收录