five

MyAnimeList数据集,包含1.4万个动漫元数据|动漫文化数据集|用户行为分析数据集

收藏
帕依提提2024-03-04 收录
动漫文化
用户行为分析
下载链接:
https://www.payititi.com/opendatasets/show-12407.html
下载链接
链接失效反馈
资源简介:
MyAnimeList数据集包含30万用户,1.4万个动漫元数据,以及来自MyAnimeList.net的8千万评分。 这个数据集包含了关于动漫和观看动漫的御宅族的信息。 这个数据集的目的是成为互联网御宅族的代表性样本,用于人口统计分析和这个群体的趋势。它包含了关于用户(性别、地点、出生日期等),关于动漫(播出日期、类型、制作人...)和动漫列表的信息。MyAnimeList中的用户可以将动漫添加到他们的列表中,并将其标记为计划观看、已完成、正在观看、放弃......,他们还可以通过1-10分进行评分。注意:这里收集的所有信息都是公开的,不需要在任何地方注册就可以访问这些数据。 该数据集包含3个文件。 1、AnimeList.csv包含动漫列表,包括标题、标题同义词、类型、工作室、许可人、制作人、持续时间、评级、分数、播出日期、集数、来源(漫画、轻小说等)以及其他许多关于单个动漫的重要数据,提供了关于动漫重要方面的时间趋势的充分信息。csv中的排名是浮动格式,但它只包含整数值。这是由于NaN值和它们在pandas中的表示。 2、UserList.csv包含了观看动漫的用户的信息,即用户名、注册日期(join_date)、最后一次在线日期、出生日期、性别、地点,以及他们的动漫列表中的很多聚合值。 3、UserAnimeList.csv包含所有用户的动漫列表。每条记录都有用户名、动漫ID、分数、状态和这个记录最后更新的时间戳。 整个数据集包含 1、302 675个独特的用户其中 2、302 573人有一些人口统计学数据 3、80 076 112条动漫列表的记录 4、46 358 322人有评分 5、14 478部独特的动画片 数据集的过滤版本包含在文件animefiltered.csv、animelistsfiltered.csv 和users_filtered.csv 中。它由填写了出生日期、地点和性别的用户组成。所以它包含的动漫列表数据要少得多。但是,当忽略一些缺失数据的用户时,所有重要的特征,如评级平均值和变化,或动漫列表中的类型都没有改变,所以即使使用过滤数据,我们也应该得到相同的信息。 过滤后的数据集包含: 1、116 133 个具有人口统计数据的唯一用户动漫列表中的 2、35 802 010 条记录其中 3、20 726 794 有评分 4、14 474部独特的动漫 还有一个经过过滤的数据集的清洁版本,由animecleaned.csv、animelistscleaned.csv和users_cleaned.csv文件组成。这个清理过的版本已经将所有在动画中拥有大得离谱的集数的用户剔除,显然这些用户并没有那么多的集数,观看过的集数大于个别动画的集数的用户被固定下来,看过的集数和观看时间也相应地被重新计算。对于一些用户来说,最后一次在线是1900年,只是一些奇怪的数值,所以他们的最后一次活动是根据他们最后的动画列表更新时间戳推断出来的。 许多用户错误地填写了重新观看的剧集数量。对于那些被观看的集数多于该动画的集数的动画,被观看的集数已经被改写为该动画的集数。观看时间和已观看的剧集数也相应地得到了修正。太年轻和太老的用户显然也被截断了。 有6个用户看过的剧集最多,疑似有很多剧集,在这里也被截断了。 这些用户太少了,无法影响任何统计。有##背景的动画 该数据集包含有关观看它的动漫和宅男的信息。已经有类似的数据集 https://www.kaggle.com/CooperUnion/anime-recommendations-database 但它小了几个数量级,并且缺少很多信息。该数据集旨在成为互联网 otaku 社区的代表性样本,用于该群体内部的人口统计分析和趋势。 它包含有关用户(性别、位置、出生日期等)、动漫(播出日期、流派、制作人……)和动漫列表的信息。MyAnimeList 中的用户可以将动漫添加到他们的列表中,并将其标记为计划观看、已完成、正在观看、已放弃……,他们还可以按 1-10 分对其进行评分。 注意:此处收集的所有信息都是公开可用的,无需在任何地方注册即可访问数据。 This dataset has been crawled from MyAnimeList.net with https://github.com/racinmat/myanimelist-crawler. This repo is based on https://github.com/Dibakarroy1997/myanimelist-data-set-creator but is fully prepared for long-term data scraping. It uses https://github.com/TimboKZ/kuristina web-server and https://github.com/pushrbx/python3-mal library for scraping itself. The Thumbnail image is from https://www.pinterest.com/pin/717198309380413746/ Many previous analyses have been made, each of them exploiting different aspects of the otaku community. Here are some of them. Lots of them used much smaller dataset, using this data should lead to more precise outputs. Acknowledgments: These data can be used without additional permissions or fees. If you use these data in a publication, presentation, or other research product please use the following citation: Matěj Račinský, “MyAnimeList Dataset.” Kaggle, 2018, doi: 10.34740/KAGGLE/DSV/45582. This dataset may be used either for recommendation system or for analysis on otaku culture, to see time trends of individual genres, to see tendencies and customs of user ratings, to find similarities or differences between individual user groups… I already performed one analysis, which is available here: https://github.com/racinmat/mal-analysis
提供机构:
帕依提提
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录