five

Voxel51/WLASL|手语识别数据集|视频分类数据集

收藏
hugging_face2024-05-06 更新2024-06-12 收录
手语识别
视频分类
下载链接:
https://hf-mirror.com/datasets/Voxel51/WLASL
下载链接
链接失效反馈
资源简介:
WLASL是最大的用于单词级美国手语(ASL)识别的视频数据集,包含2000个常见的ASL单词。作者希望WLASL能够促进手语理解的研究,最终有益于聋哑人和听力正常人群之间的交流。
提供机构:
Voxel51
原始信息汇总

数据集概述

基本信息

  • 数据集名称: WLASL
  • 数据集大小: 10K<n<100K
  • 任务类别: video-classification
  • 语言: en
  • 许可证: other
  • 标签: fiftyone, video, activity-recognition, asl, sign-language
  • 样本数量: 11980

数据集描述

WLASL是一个专为Word-Level American Sign Language (ASL)识别设计的大型视频数据集,包含2000个ASL中的常用词汇。该数据集旨在促进手语理解的研究,并最终改善聋人和听觉社区之间的交流。

数据集来源

  • 仓库: https://github.com/dxli94/WLASL
  • 论文: https://arxiv.org/abs/1910.11006
  • 主页: https://dxli94.github.io/WLASL/
  • 演示: https://try.fiftyone.ai/datasets/asl-dataset/samples

使用许可

WLASL数据仅限于学术和计算用途,不允许商业使用。数据集受Computational Use of Data Agreement (C-UDA)许可。

引用信息

bibtex @misc{li2020wordlevel, title={Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison}, author={Dongxu Li and Cristian Rodriguez Opazo and Xin Yu and Hongdong Li}, year={2020}, eprint={1910.11006}, archivePrefix={arXiv}, primaryClass={cs.CV} }

@inproceedings{li2020transferring, title={Transferring cross-domain knowledge for video sign language recognition}, author={Li, Dongxu and Yu, Xin and Xu, Chenchen and Petersson, Lars and Li, Hongdong}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={6205--6214}, year={2020} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
WLASL数据集的构建基于对美国手语(ASL)中2,000个常用词汇的视频记录。通过精心策划和标注,该数据集旨在为手语识别研究提供丰富的资源。构建过程中,研究者们收集了大量高质量的视频样本,并对其进行了细致的分类和标注,以确保数据集的多样性和代表性。
特点
WLASL数据集以其大规模和高质量的视频样本著称,涵盖了美国手语中的2,000个常用词汇。该数据集不仅在样本数量上具有显著优势,还在视频质量和标注精度上达到了行业领先水平。此外,WLASL数据集的多样性也为其在手语识别领域的广泛应用提供了坚实基础。
使用方法
使用WLASL数据集时,首先需安装FiftyOne工具包,通过Python代码从HuggingFace平台加载数据集。加载后,用户可以通过FiftyOne的应用界面直观地浏览和分析数据。该数据集适用于视频分类和活动识别任务,特别适合于手语理解和识别的研究与应用。
背景与挑战
背景概述
WLASL(World Level American Sign Language)数据集是由Dongxu Li和Hongdong Li等人创建的,旨在推动美国手语(ASL)识别领域的研究。该数据集包含了2,000个常见词汇的手语视频样本,总计11,980个样本,是目前最大的单词级美国手语识别数据集。WLASL的创建不仅填补了手语识别领域数据集的空白,还为聋人和听人社区之间的沟通提供了技术支持。通过提供丰富的手语视频数据,WLASL有望促进手语理解和识别技术的发展,从而在人机交互、教育及社会融合等多个领域产生深远影响。
当前挑战
WLASL数据集在构建过程中面临多重挑战。首先,手语的多样性和复杂性使得数据标注和分类变得极为困难。其次,由于手语的动态性和依赖于上下文的特性,视频数据的采集和处理需要高度的专业知识和技能。此外,确保数据集的多样性和代表性,以覆盖不同年龄、性别和文化背景的手语使用者,也是一个重要的挑战。最后,如何在保护隐私和版权的前提下,合法地收集和使用手语数据,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
在手语识别领域,Voxel51/WLASL数据集的经典使用场景主要集中在视频分类任务中。该数据集包含了2,000个常见的美式手语词汇,为研究人员提供了丰富的资源,以开发和评估手语识别模型。通过分析视频中的手势动作,模型能够准确识别并分类不同的手语词汇,从而推动手语理解和翻译技术的发展。
实际应用
在实际应用中,Voxel51/WLASL数据集被广泛用于开发手语翻译系统和辅助沟通工具。例如,聋人学生可以通过这些系统与教师进行无障碍交流,聋人社区成员也能更方便地与外界沟通。此外,该数据集还支持开发智能手语教学软件,帮助学习者更有效地掌握手语,从而提升社会包容性和互动性。
衍生相关工作
基于Voxel51/WLASL数据集,研究者们开发了多种手语识别模型和算法。例如,Li等人提出的深度学习模型在手语识别任务中取得了显著成果,进一步推动了该领域的发展。此外,该数据集还激发了对手语理解和跨文化交流的深入研究,促进了相关技术的创新和应用,为未来的研究奠定了坚实基础。
以上内容由AI搜集并总结生成