five

twitter dataset|社交媒体分析数据集|用户行为研究数据集

收藏
github2020-02-04 更新2024-05-31 收录
社交媒体分析
用户行为研究
下载链接:
https://github.com/zezealp/twitter-dataset
下载链接
链接失效反馈
资源简介:
该数据集是为名为User Modeling On Microblogging Websites的博士论文工作收集的,使用Twitter Streaming API在2015年11月4日至2016年1月12日期间收集了用户的实时推文。数据集包含177K用户和37M推文,用于研究识别Twitter上的主题权威。每个推文被分配零个、一个或多个主题。用户和Twitter ID已匿名化以遵守Twitter隐私政策,推文文本也被移除。数据集分为用户、推文和网络三个集合。

This dataset was collected for the doctoral thesis titled 'User Modeling On Microblogging Websites'. It utilized the Twitter Streaming API to gather real-time tweets from users between November 4, 2015, and January 12, 2016. The dataset comprises 177K users and 37M tweets, aimed at researching the identification of topic authorities on Twitter. Each tweet is assigned zero, one, or multiple topics. User and Twitter IDs have been anonymized in compliance with Twitter's privacy policy, and the tweet texts have been removed. The dataset is divided into three collections: users, tweets, and networks.
创建时间:
2019-03-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Twitter Streaming API实时收集,涵盖了2015年11月4日至2016年1月12日期间的用户推文。数据集包含177,000名用户和3700万条推文,这些数据被存储在MongoDB中,并进行了匿名化处理以符合Twitter的隐私政策。推文文本被移除,而用户和推文的ID也被匿名化。数据集分为三个集合:用户、推文和网络。推文集合被分割成多个部分,使用前需要通过'cat'命令合并。
使用方法
使用该数据集时,首先需将分割的推文文件通过'cat'命令合并。随后,用户可以利用MongoDB查询工具访问数据集中的用户、推文和网络集合。数据集适用于研究社交媒体中的用户行为、社交网络分析以及特定主题下的权威用户识别。使用者应引用相关文献以确保学术诚信。
背景与挑战
背景概述
Twitter数据集是为一项名为“微博网站用户建模”的博士论文工作而收集的。该数据集通过Twitter流API在2015年11月4日至2016年1月12日期间收集了用户的实时推文,包含17.7万名用户和3700万条推文。其核心研究问题在于识别Twitter上的主题权威,这一研究对社交媒体分析和用户行为建模领域具有重要影响。数据集的创建不仅为学术研究提供了丰富的资源,也为后续的社交媒体分析方法论提供了基础。
当前挑战
该数据集在构建过程中面临多重挑战。首先,通过Twitter流API实时收集推文需要处理高并发和数据流的复杂性。其次,为遵守Twitter的隐私政策,用户和推文ID被匿名化,推文文本也被移除,这增加了数据处理的难度。此外,数据集的存储和处理,特别是推文集合的分块和合并,对数据管理技术提出了高要求。这些挑战不仅影响了数据集的可用性,也对后续研究的数据处理和分析方法提出了新的要求。
常用场景
经典使用场景
在社交媒体分析领域,Twitter数据集被广泛应用于用户行为建模和话题权威识别的研究。通过分析用户在特定时间段内的推文、转发、点赞等行为,研究者能够深入理解用户在不同话题上的参与度和影响力。例如,该数据集常用于识别在特定话题领域内的权威用户,从而为社交媒体营销、舆情监控等应用提供数据支持。
解决学术问题
Twitter数据集在学术研究中解决了社交媒体用户行为分析和话题权威识别的关键问题。通过该数据集,研究者能够量化用户在不同话题上的影响力,从而揭示社交媒体网络中的信息传播规律。这一研究不仅深化了对社交媒体用户行为的理解,还为后续的社交媒体算法优化和用户推荐系统提供了理论基础。
实际应用
在实际应用中,Twitter数据集被广泛用于社交媒体营销、舆情监控和品牌管理等领域。通过分析用户在特定话题上的行为,企业可以精准定位目标受众,优化营销策略。此外,政府和非营利组织也可以利用该数据集进行舆情监控,及时了解公众对特定事件或政策的反应,从而做出更有效的决策。
数据集最近研究
最新研究方向
在社交媒体分析领域,Twitter数据集因其丰富的用户行为和网络结构信息,成为研究用户建模和影响力分析的重要资源。最新研究方向主要集中在通过用户行为和网络拓扑结构识别Twitter上的主题权威用户。研究者们利用数据集中的用户互动数据和推文内容,开发了多种算法和模型,如影响力分解技术,以更精确地评估和预测用户在特定主题领域的影响力。这些研究不仅推动了社交媒体用户建模的理论发展,也为实际应用如社交网络营销和舆情监控提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录