five

Chinese VTB Corpus|虚拟主播数据集|弹幕分析数据集

收藏
github2022-06-01 更新2024-05-31 收录
虚拟主播
弹幕分析
下载链接:
https://github.com/tymon42/ChineseVTBCorpus
下载链接
链接失效反馈
资源简介:
中文虚拟主播观众弹幕语料库,收录自2020年2月起的弹幕数据,数据来源为matsuri.icu,数据格式包括弹幕和形目留言,按日期组织。

The Chinese Virtual Streamer Audience Barrage Corpus, which includes barrage data collected since February 2020, sourced from matsuri.icu. The data format encompasses both barrage and comment messages, organized by date.
创建时间:
2022-02-25
原始信息汇总

中文虚拟主播观众弹幕语料库

收录范围

  • 2020年2月起,持续更新中。

数据来源

数据格式

  • 主要文件包括:
    • comments.txt:包含弹幕信息。
    • highlights.txt:包含形目留言(SC)。
  • 文件组织结构:
    • 文件夹按年/月/日排列。
    • clip_comments文件夹:包含直播中的弹幕。
    • off_comments文件夹:包含未开播时的弹幕。
  • 文件内容格式:
    • txt文件中,每一行代表一条弹幕。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese VTB Corpus 数据集的构建始于2020年2月,持续更新至今。数据来源于matsuri.icu平台,该平台由brainbush开发并维护。数据集以txt文件形式存储,包含`comments.txt`和`highlights.txt`两个主要文件,分别记录观众弹幕和形目留言。数据按年份、月份和日期进行文件夹分类,并进一步细分为直播中的弹幕和未开播时的弹幕,确保数据的时效性和完整性。
特点
该数据集的特点在于其专注于中文虚拟主播领域的观众互动数据,涵盖了丰富的弹幕内容和形目留言。数据按时间顺序排列,便于进行时间序列分析。此外,数据集还区分了直播中和未开播时的弹幕,为研究不同场景下的观众行为提供了便利。数据的格式简洁明了,每一行即一条弹幕,便于后续的数据处理和分析。
使用方法
使用Chinese VTB Corpus数据集时,用户可通过读取`comments.txt`和`highlights.txt`文件获取弹幕和形目留言数据。数据按年份、月份和日期分类存储,用户可根据需要选择特定时间段的数据进行分析。`clip_comments`文件夹下的数据适用于研究直播中的观众互动,而`off_comments`文件夹下的数据则适用于研究未开播时的观众行为。用户可通过简单的文本处理工具对数据进行清洗和分析,以支持相关研究或应用开发。
背景与挑战
背景概述
Chinese VTB Corpus 是一个专注于中文虚拟主播观众弹幕的语料库,自2020年2月起持续更新。该数据集由matsuri.icu平台提供,主要研究人员为brainbush。该语料库的核心研究问题在于如何通过分析虚拟主播直播间的弹幕数据,深入理解观众与虚拟主播之间的互动模式及其背后的文化现象。这一数据集为研究虚拟主播文化、观众行为分析以及自然语言处理领域提供了宝贵的资源,对相关领域的研究具有重要的推动作用。
当前挑战
Chinese VTB Corpus 面临的挑战主要包括两个方面。首先,在领域问题方面,虚拟主播直播间的弹幕数据具有高度的实时性和动态性,如何从中提取有意义的信息并进行分析是一个复杂的问题。其次,在数据构建过程中,由于弹幕数据的多样性和非结构化特性,数据的清洗、分类和标注工作极具挑战性。此外,确保数据的时效性和完整性,同时保护用户隐私,也是构建过程中需要克服的重要难题。
常用场景
经典使用场景
Chinese VTB Corpus数据集广泛应用于自然语言处理领域,特别是在虚拟主播与观众互动的研究中。该数据集通过收集和分析虚拟主播直播期间的观众弹幕,为研究者提供了丰富的语料资源,用于探索观众情感表达、互动模式及语言风格的变化。
解决学术问题
该数据集有效解决了虚拟主播领域内观众行为分析的难题。通过大规模弹幕数据的收集与整理,研究者能够深入探讨观众情感倾向、话题热点及互动频率等问题,为虚拟主播内容优化和观众体验提升提供了科学依据。
衍生相关工作
基于Chinese VTB Corpus数据集,研究者已发表了多篇关于虚拟主播观众行为分析的经典论文。这些工作涵盖了弹幕情感分类、话题演化分析以及观众互动模式建模等多个方向,推动了虚拟主播领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录