five

Student Action Video (SAV) Dataset|教育行为分析数据集|计算机视觉数据集

收藏
arXiv2024-09-02 更新2024-09-06 收录
教育行为分析
计算机视觉
4,324条
下载链接:
https://github.com/Ritatanz/SAV
下载链接
链接失效反馈
资源简介:
学生行为视频(SAV)数据集是由重庆邮电大学通信与信息工程学院的研究团队创建的,旨在捕捉课堂中学生的细微动作动态。该数据集包含4,324个精心修剪的视频片段,来自758个不同的教室,每个视频片段都标注了15种不同的学生行为。数据集涵盖了广泛的实际课堂场景,视频分辨率高,主要为720P和1080P,提供了丰富的视觉信息。创建过程中,研究团队从在线教育平台收集公开视频,并进行细致的标注和分割,以确保数据的高质量和多样性。该数据集主要用于教育领域的动作检测和行为分析,旨在通过计算机视觉技术提升教学方法的有效性和学习成果。
提供机构:
重庆邮电大学通信与信息工程学院
开放时间:
2024-09-02
创建时间:
2024-09-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
Student Action Video (SAV) 数据集的构建过程严谨而全面。数据来源于中国不同学校的在线教育平台,共收集了758段视频,涵盖了幼儿园、小学和中学等关键学习阶段。为了确保数据的质量,仅保留了720P和1080P的高清视频,并将视频剪辑成三秒钟的片段,以捕捉学生行为的关键信息。同时,通过人工筛选,保留了包含可见学生活动的片段。在标注过程中,首先使用预训练的Faster R-CNN人员检测器进行初步的边界框检测,然后由人工进行检查和校正。所有参与者的动作均由众包标注员进行标注,形成了多标签数据集。为了确保标注的一致性和准确性,开发了全面的标注手册,并进行了多轮交叉验证。
特点
SAV数据集具有以下显著特点:首先,它包含广泛的现实课堂场景,从幼儿园到中学,涵盖了不同课程和教学阶段。其次,数据集具有高质量的视频分辨率,主要是720P和1080P,这远远超过了AVA等数据集的320×400分辨率。最后,SAV数据集的固有复杂性为现有算法带来了许多挑战,如细微的动作变化、密集的对象、显著的规模差异、不同的拍摄角度和视觉遮挡。这些挑战对于开发能够在教育环境中准确执行的学生行为检测模型至关重要。
使用方法
使用SAV数据集的方法包括多个步骤。首先,需要将视频剪辑成三秒钟的片段,并筛选出包含可见学生活动的片段。然后,使用预训练的Faster R-CNN人员检测器进行初步的边界框检测,并由人工进行检查和校正。接下来,所有参与者的动作由众包标注员进行标注,形成多标签数据集。为了确保标注的一致性和准确性,开发了全面的标注手册,并进行了多轮交叉验证。最后,可以使用基于ViT的改进方法,结合局部关系聚合器和窗口增强注意力模块,来提高对学生行为的检测和识别的准确性。
背景与挑战
背景概述
在教育研究领域,分析课堂中学生行为是一项重要而具有挑战性的任务。由于缺乏能够捕捉课堂中细微行为动态的可访问数据集,现有研究受到了限制。本文提出一个新的多标签学生行为视频(SAV)数据集,用于复杂的课堂场景。该数据集由来自758个不同课堂的4324个精心剪辑的视频片段组成,每个片段都标注了学生在课堂中表现出的15种不同的行为。与现有的行为数据集相比,我们的数据集在提供广泛的现实课堂场景、高质量的视视频数据和独特的挑战方面脱颖而出,包括微妙的运动差异、密集的对象交互、显著的规模差异、变化的拍摄角度和视觉遮挡。数据集的复杂性为基准测试动作检测带来了新的机会和挑战。创新地,我们还提出了一种新的基准方法,即视觉Transformer,用于增强对小型和密集对象区域中关键局部细节的关注。我们的方法在SAV和AVA数据集上分别实现了67.9%和27.4%的平均平均精度(mAP)。本文不仅提供了数据集,还呼吁进一步研究可能改变教学方法和学习成果的AI驱动教育工具。代码和数据集将在https://github.com/Ritatanz/SAV上发布。
当前挑战
SAV数据集带来的挑战包括:1) 多标签:学生行为在课堂中分为多个细粒度标签。单个主体可能与多个标签相关联,这要求算法能够准确关注视频中的不同区域,例如手和眼睛。此外,不同的动作通常表现出视觉相似性。2) 多对象:典型的课堂场景通常具有多个对象,如SAV数据集中的最后一行所示。SAV数据集中的课堂场景最多有68名参与者。这种高密度的对象对检测任务的完整性和准确性构成了挑战。此外,这种多人场景中的不同并发动作防止模型仅通过背景来区分动作类别,这要求模型能够捕捉细微的动作变化。3) 大规模差异:由于监控摄像头的固定位置,教室前排和后排学生的尺寸有显著差异。如图7所示,这种规模差异对检测和分析学生行为构成了挑战。因此,能够适应不同规模学生的算法对于准确地解释这些不同的视觉输入至关重要。4) 变化的拍摄角度:在SAV数据集中,不同教室中的监控录像角度各不相同,包括正面、左侧和背面视角,如图8所示。因此,相同的动作可能表现出完全不同的视觉特征。图9展示了不同课堂环境中“阅读”类别的变化。这种多样性要求动作分析算法具有鲁棒性和适应性,以有效地对各种观察条件下的动作进行分类。5) 遮挡:在课堂环境中,学生的手和脸可能由于桌子或前排学生等物体而被遮挡,如图10所示。这种严重遮挡的情况对算法识别学生行为构成了挑战,这要求算法能够处理部分可见的动作信息,并增强其对遮挡的鲁棒性。
常用场景
经典使用场景
学生动作视频(SAV)数据集是一个专门用于捕捉课堂场景中学生细微动作动态的新多标签视频数据集。该数据集包含了来自758个不同课堂的4,324个精心剪辑的视频片段,每个片段都标注了学生在课堂上展示的15种不同动作。SAV数据集最经典的使用场景是在教育研究中分析学生行为,包括评估教学方法的效率、学生参与度、学习行为等。通过捕捉和分析学生的身体语言、行为变化和互动,教育工作者可以更准确地评估学生的注意力、参与程度和对内容的兴趣,从而根据不同的学习需求调整教学策略。
解决学术问题
SAV数据集解决了当前教育研究中缺乏可用数据集来捕捉课堂中细微动作动态的问题。现有的数据集主要集中在日常生活和体育场景,而缺乏针对真实教育环境的大规模、公开可用的视频数据集。SAV数据集的引入填补了这一空白,为行为分析技术在教育环境中的应用提供了基础。此外,SAV数据集还提出了一个新的基线方法,即视觉Transformer,用于增强对小而密集物体区域的关键局部细节的关注。该方法在SAV数据集上取得了67.9%的平均平均精度(mAP),在AVA数据集上取得了27.4%的mAP,显示了其优越的性能。
衍生相关工作
SAV数据集的引入衍生了众多相关的研究工作。例如,一些研究利用SAV数据集开发新的行为分析模型,以提高对学生行为的准确识别和理解。此外,一些研究还利用SAV数据集探索新的教育方法和技术,以促进更有效的学习和教学。总之,SAV数据集的引入为教育领域的研究和应用提供了重要的数据基础,并促进了相关研究的进一步发展。
以上内容由AI搜集并总结生成