five

Chinese Talking-Face Dataset|说话人脸生成数据集|唇音同步数据集

收藏
arXiv2025-01-03 更新2025-01-07 收录
说话人脸生成
唇音同步
下载链接:
http://arxiv.org/abs/2501.01798v1
下载链接
链接失效反馈
资源简介:
该数据集由京东和香港大学的研究团队构建,旨在促进中文环境下的说话人脸生成研究。数据集包含约1100个高质量视频,总时长达130小时,视频来源于Bilibili和抖音平台。数据经过严格筛选,确保每个视频仅包含一个可见人脸,且音频与说话者身份一致。数据集的应用领域主要集中在说话人脸视频生成,特别是唇音同步和视觉质量的提升。通过该数据集,研究者可以训练模型以实现更精确的唇音同步和高质量的视频生成。
提供机构:
京东(JD.Com, Inc.)和香港大学
创建时间:
2025-01-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese Talking-Face Dataset的构建过程体现了对高质量数据的严格筛选与精心处理。该数据集从Bilibili和Douyin平台采集了约1.1k个中文视频,总时长达到130小时。为确保数据的多样性和质量,每个账号仅选取一个视频,且每个视频中仅包含一个清晰可见的面部,音频与说话者身份严格对齐。此外,视频中的嘴部区域或牙齿清晰可见,且音频中无显著背景音乐或噪音干扰。通过这一系列严格的筛选标准,数据集在多样性和质量上均达到了较高的标准。
使用方法
Chinese Talking-Face Dataset的使用方法主要围绕音频驱动的面部生成任务展开。研究者可以通过该数据集训练模型,实现从音频到面部运动的精确映射。具体而言,数据集中的视频被分割为仅包含单个面部的片段,并通过3D重建模型提取面部关键点和深度信息。这些信息与音频特征结合,用于生成与音频同步的唇部运动。此外,数据集还可用于评估模型在唇音同步和视觉质量方面的表现,为相关研究提供了可靠的基准数据。
背景与挑战
背景概述
Chinese Talking-Face Dataset 是由京东(JD.com)和香港大学的研究团队于2025年构建的一个高质量中文说话人脸视频数据集,旨在推动中文语境下的说话人脸生成研究。该数据集包含130小时的高清视频,涵盖了多样化的中文语音内容,视频来源包括Bilibili和Douyin等平台。通过严格的筛选流程,确保了视频中仅包含单一可见人脸、清晰的嘴部区域以及无背景噪音的中文语音。该数据集的构建为中文说话人脸生成任务提供了重要的数据支持,尤其是在音频驱动的唇部运动生成和视觉外观合成方面,显著提升了模型的训练效果。
当前挑战
Chinese Talking-Face Dataset 面临的挑战主要集中在两个方面:首先,在领域问题方面,尽管现有技术在说话人脸生成领域取得了显著进展,但如何实现精确的唇部-音频同步以及高质量的视频生成仍然是一个核心难题。特别是在中文语境下,语音与唇部运动的复杂关系增加了模型训练的难度。其次,在数据集构建过程中,研究人员需要克服视频来源的多样性和质量不一致问题,确保数据集的多样性和高质量。此外,如何从海量视频中筛选出符合要求的样本,并对其进行标注和预处理,也是一个耗时且复杂的过程。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和优化提出了更高的要求。
常用场景
经典使用场景
Chinese Talking-Face Dataset 主要用于音频驱动的面部视频生成研究,特别是在中文语境下的唇音同步问题。该数据集通过提供高质量的中文视频,帮助研究人员训练和验证模型在生成自然面部表情和精确唇音同步方面的能力。其经典使用场景包括基于音频的面部动画生成、视频编辑中的唇形修正以及虚拟人物的实时对话生成。
解决学术问题
该数据集解决了音频驱动面部生成中的两大核心问题:唇音同步的精确性和视觉质量的高保真度。通过结合3D重建模型和音频特征,研究人员能够生成与输入音频高度同步的唇形动作,同时保持面部表情的自然性和细节的丰富性。这一突破为虚拟人物生成、视频编辑和人机交互等领域提供了重要的技术支持。
实际应用
在实际应用中,Chinese Talking-Face Dataset 被广泛用于虚拟主播、在线教育、视频会议等场景。例如,在虚拟主播领域,该数据集可以帮助生成与音频高度同步的虚拟人物面部动画,提升观众的沉浸感。在教育领域,教师可以通过该技术生成与教学内容同步的虚拟形象,增强教学效果。此外,视频会议中的实时唇音同步功能也能显著提升沟通效率。
数据集最近研究
最新研究方向
近年来,随着生成式模型在图像、视频和音频生成领域的快速发展,基于音频驱动的面部视频生成技术逐渐成为研究热点。特别是在中文语境下,如何实现高精度的唇音同步和高质量的视觉表现,成为了该领域的前沿挑战。JoyGen框架的提出,通过两阶段生成策略,结合3D重建模型和音频特征,显著提升了唇音同步的精度和视觉质量。此外,构建的中文面部视频数据集(Chinese Talking-Face Dataset)为中文语境下的研究提供了重要支持,推动了该领域的技术进步。未来,结合深度信息的多步预测模型以及更复杂的网络架构,有望进一步提升生成视频的视觉质量和唇音同步效果。
相关研究论文
  • 1
    JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing京东(JD.Com, Inc.)和香港大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录