VoxCeleb2|说话人识别数据集|多模态识别数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

说话人识别

多模态识别

下载链接：

https://opendatalab.org.cn/OpenDataLab/VoxCeleb2

下载链接

链接失效反馈

资源简介：

VoxCeleb2 是一个从开源媒体自动获得的大规模说话人识别数据集。 VoxCeleb2 包含来自 6k 多个扬声器的超过 100 万个话语。由于数据集是“在野外”收集的，语音片段被现实世界的噪音破坏，包括笑声、串音、频道效果、音乐和其他声音。该数据集也是多语言的，来自 145 个不同国籍的演讲者，涵盖了广泛的口音、年龄、种族和语言。该数据集是视听的，因此对于许多其他应用也很有用，例如 - 视觉语音合成、语音分离、从人脸到语音的跨模态转换（反之亦然）以及从视频中训练人脸识别以补充现有的人脸识别数据集。

提供机构：

OpenDataLab

创建时间：

2022-04-27

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

RML24

RML24是首个专门为卫星信号识别和解调的深度学习应用设计的数据集。它整合了遥测和通信信号在遥测、跟踪和指挥（TT&C）系统中，并模拟了真实卫星信道中的信号损伤效应。该数据集利用软件定义无线电（SDR）平台和射频（RF）收发器进行严格的空中测量，并验证收集的数据。RML24为研究人员提供了基本的数据和建模基准，以促进智能和自适应卫星通信系统的算法验证和发展，推动数据驱动卫星通信技术的发展。

github 收录