five

SPORTU|体育分析数据集|多模态推理数据集

收藏
arXiv2024-10-11 更新2024-10-15 收录
体育分析
多模态推理
下载链接:
https://github.com/haotianxia/SPORTU
下载链接
链接失效反馈
资源简介:
SPORTU是一个综合性的体育理解基准数据集,由加州大学欧文分校等机构创建,旨在评估多模态大语言模型在体育领域的推理能力。数据集包含两个部分:SPORTU-text和SPORTU-video。SPORTU-text包含900个多选题,涵盖规则理解和策略分析,通过文本问答测试模型的推理能力;SPORTU-video则包含1,701个慢动作视频片段和12,048个问答对,评估从简单的体育识别到复杂的犯规检测和规则应用的多层次推理。数据集的创建过程包括人工注释和多角度视频采集,旨在解决体育分析和应用中的复杂推理问题。
提供机构:
加州大学欧文分校
创建时间:
2024-10-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
SPORTU数据集通过整合文本和视频两种模态,构建了一个全面的体育理解基准。SPORTU-text部分包含900个多选题,每个问题都附有人工注释的解释,旨在测试模型对规则理解和策略分析的能力。SPORTU-video部分则包含1,701个慢动作视频片段,涵盖7种不同的体育项目,并设计了12,048个问答对,分为简单、中等和困难三个难度级别,以评估模型在不同层次上的推理能力。
特点
SPORTU数据集的显著特点在于其多模态和多层次的设计。SPORTU-text部分通过详细的解释,确保了对模型推理过程的深入评估。SPORTU-video部分则利用慢动作视频,捕捉关键动作细节,特别是那些在实时镜头中容易被忽略的细微动作,从而更有效地评估模型的表现。此外,数据集还涵盖了多种体育项目,确保了评估的全面性和多样性。
使用方法
SPORTU数据集适用于评估多模态大语言模型在体育理解方面的能力。研究者可以使用SPORTU-text部分来测试模型对体育规则和策略的理解,通过多选题和详细的解释来分析模型的推理过程。SPORTU-video部分则可以用于评估模型在视频理解方面的能力,特别是对慢动作视频中复杂动作的识别和规则应用。通过结合文本和视频两种模态,SPORTU提供了一个全面的评估框架,帮助研究者深入了解模型在体育领域的理解和推理能力。
背景与挑战
背景概述
SPORTU数据集由加州大学欧文分校、加州大学圣巴巴拉分校、斯坦福大学和莱斯大学的研究人员于2024年创建,旨在评估多模态大语言模型(MLLMs)在复杂体育场景中的推理能力。该数据集包含两个主要部分:SPORTU-text和SPORTU-video。SPORTU-text包含900个多选题,旨在测试模型通过问答形式对体育规则和策略的理解,而SPORTU-video则包含1,701个慢动作视频片段和12,048个问答对,用于评估模型在视频中的多层次推理能力。SPORTU的引入填补了现有体育问答数据集的空白,为MLLMs在体育理解和推理方面的能力提供了全面的评估。
当前挑战
SPORTU数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何有效地评估模型在体育理解和推理中的能力;二是构建过程中遇到的挑战,包括如何确保视频和文本数据的高质量和一致性。具体挑战包括:1) 现有体育问答数据集在评估模型深度推理和规则理解方面的不足;2) 视频数据的多角度和慢动作特性增加了模型理解和推理的难度;3) 需要开发新的评估方法来准确衡量模型在复杂体育场景中的表现。这些挑战要求研究人员在数据集构建和模型评估方法上进行创新。
常用场景
经典使用场景
SPORTU数据集的经典使用场景在于评估多模态大语言模型(MLLMs)在体育理解任务中的表现。通过整合文本和视频数据,SPORTU-text部分通过900道多选题测试模型对规则、策略和场景的理解能力,而SPORTU-video部分则通过1,701段慢动作视频和12,048对问答对,评估模型在识别运动、检测犯规和应用规则等复杂任务中的表现。
解决学术问题
SPORTU数据集解决了现有体育问答数据集在全面评估模型体育理解能力方面的不足。它不仅涵盖了文本和视频两种模态,还通过多层次的难度设计,从简单的运动识别到复杂的规则应用,全面评估模型的深度推理能力。这为学术界提供了一个标准化的基准,有助于推动多模态大语言模型在体育领域的研究和应用。
衍生相关工作
SPORTU数据集的发布催生了多项相关研究工作,特别是在多模态体育分析和理解领域。例如,基于SPORTU的评估结果,研究者们提出了改进模型推理能力和规则理解的新方法。此外,SPORTU还激发了对多角度视频输入处理的研究,以提高模型在不同视角下的理解和判断一致性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

D4LA-版面分析数据集

# D4LA 文档版面分析数据集 (the most Diverse and Detailed Dataset ever for Document Layout Analysis) ## 数据集概述 D4LA是面向文档版面分析的数据集。 ### 数据集简介 包含12类文档工27类文档版面类型,详细如下: ![d4la](./d4la.jpg) ### 标注格式 ``` D4LA ├── train_images │ ├── 1.jpg ├── test_images │ ├── 2.jpg ├── VGT_D4LA_grid_pkl │ ├── 1.pkl │ └── 2.pkl ├── json │ ├── train.json │ └── test.json ``` ### 引用方式 If you find this repository useful, please consider citing our work: ``` @inproceedings{da2023vgt, title={Vision Grid Transformer for Document Layout Analysis}, author={Cheng Da and Chuwei Luo and Qi Zheng and Cong Yao}, year={2023}, booktitle = {ICCV}, } ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/damo/D4LA.git ```

魔搭社区 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录