five

ActionAtlas v1.0|体育分析数据集|动作识别数据集

收藏
arXiv2024-10-08 更新2024-10-15 收录
体育分析
动作识别
下载链接:
http://arxiv.org/abs/2410.05774v1
下载链接
链接失效反馈
资源简介:
ActionAtlas v1.0是由华盛顿大学和艾伦人工智能研究所创建的一个多选视频问答基准,专注于体育领域的专业动作识别。该数据集包含934个视频,展示了56种体育中的580个独特动作,总共有1896个动作选项。数据集的视频平均时长为6.07秒,帧率为32.18帧每秒。创建过程中,研究团队利用GPT4的广泛领域知识编译动作列表,并通过YouTube爬取相关视频,结合自动过滤工具和多轮人工筛选确保数据质量。该数据集旨在测试多模态基础模型在识别复杂运动和细微差别方面的能力,适用于体育分析和动作识别等实际应用领域。
提供机构:
华盛顿大学 艾伦人工智能研究所
创建时间:
2024-10-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
ActionAtlas v1.0的构建过程采用了创新性的管道方法。首先,通过GPT-4的广泛领域知识,编译了每个领域内的动作列表,并从YouTube上抓取相关视频。随后,利用多种自动过滤工具和技术,如精确和软词汇搜索以及CLIP过滤,进一步筛选搜索结果。此外,利用大型语言模型(LLMs)和语音转录技术,快速定位长视频中包含特定动作的片段。最后,通过众包工作者和作者的多轮手动过滤,确保数据集的高质量。
特点
ActionAtlas v1.0的主要特点在于其专注于复杂动作和细微运动的识别,这些动作在单帧中可能看起来相似,但在多帧中表现出显著差异。数据集涵盖了56种体育项目中的580个独特动作,总共有1896个动作选项。与大多数仅覆盖简单动作的视频问答基准不同,ActionAtlas强调了对模型在特定领域内识别细微差别的能力的严格测试。
使用方法
ActionAtlas v1.0的使用方法包括对视频进行均匀帧采样,并将这些帧与问题和选项一起输入模型。对于Gemini模型,尽管它们可以直接处理视频输入,但为了与其他模型保持一致,也采用了帧采样的方法。数据集的评估主要基于模型的输入帧数、视频压缩后的令牌数、平均推理浮点运算次数以及准确率等指标。通过这些方法,ActionAtlas能够全面评估模型在复杂动作识别任务中的表现。
背景与挑战
背景概述
ActionAtlas v1.0,由华盛顿大学RAIVN实验室与Allen Institute for AI联合开发,是一个专注于领域特定动作识别的多选视频问答基准。该数据集于2024年发布,旨在评估多模态基础模型在识别复杂动作中的有效性。ActionAtlas v1.0涵盖了56种体育项目中的580个独特动作,包含934个视频,总计1896个动作选项。其核心研究问题在于测试模型在特定领域内区分相似动作的能力,这对于视频理解领域具有重要意义,尤其是在需要高帧采样率以捕捉细微动作变化的场景中。
当前挑战
ActionAtlas v1.0面临的挑战主要集中在两个方面:一是解决领域特定动作识别中的细微差别问题,这要求模型具备高帧采样率和精确的动作跟踪能力;二是在数据集构建过程中,如何从海量视频数据中筛选出高质量的样本,这涉及复杂的自动过滤工具和多轮人工筛选。此外,当前最先进的模型如GPT-4o在ActionAtlas v1.0上的表现仍远未达到人类水平,表明在复杂动作识别方面仍存在显著的技术差距。
常用场景
经典使用场景
ActionAtlas v1.0 数据集的经典使用场景主要集中在多模态基础模型在特定领域动作识别中的评估。该数据集通过包含多种体育项目的短视频,配以多选题形式的问题,测试模型在特定时间上下文中识别细微动作的能力。这种设计使得模型不仅需要识别单帧中的动作,还需理解动作在多帧中的连续性和细微差异,从而评估其在复杂动作识别中的表现。
衍生相关工作
ActionAtlas v1.0 数据集的发布催生了一系列相关研究工作,特别是在视频理解和多模态模型领域。例如,有研究利用该数据集进行模型优化,提升其在复杂动作识别中的准确性。此外,还有研究探讨了如何通过增加帧采样率来改进模型的性能,以及如何利用语言模型生成更准确的描述来辅助动作识别。这些研究不仅扩展了数据集的应用范围,也推动了相关技术的发展。
数据集最近研究
最新研究方向
在动作识别领域,ActionAtlas v1.0数据集的最新研究方向主要集中在多模态基础模型在特定领域动作识别中的应用。该数据集通过多选视频问答的形式,评估模型在识别复杂运动和细微差异方面的能力。研究者们发现,现有的模型在处理高帧采样率的视频时表现更为出色,这表明高帧采样率对于准确识别ActionAtlas中的动作至关重要。此外,研究还探讨了如何利用大型语言模型(LLMs)和语音转录来快速定位长视频中包含特定动作的片段,以及如何通过多轮手动过滤确保数据集的高质量。这些研究不仅推动了视频语言模型的发展,也为实际应用中的动作识别提供了新的测试平台。
相关研究论文
  • 1
    ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition华盛顿大学 艾伦人工智能研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL(数量性状位点)分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究,支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录