balance_dataset|政治极化数据集|社交媒体分析数据集

github2018-09-14 更新2024-05-31 收录

政治极化

社交媒体分析

下载链接：

https://github.com/danithaca/balance_dataset

下载链接

链接失效反馈

资源简介：

用于政治极化研究的数据集，包含来自Digg和Reddit的政治文章及用户关系数据。

A dataset for political polarization research, containing political articles and user relationship data from Digg and Reddit.

创建时间：

2018-03-12

AI搜集汇总

数据集介绍

构建方式

balance_dataset的构建，旨在为政治极化研究提供数据支撑。该数据集通过收集Digg和Reddit上的政治文章，并整合了用户的友谊数据以及来自Mturk的政治倾向标签。数据集的构建涉及对政治文章的采集，用户数据的整合以及对文章进行标签标注，通过分块处理的方式，确保了数据集的大小适宜于网络传输与处理。

特点

该数据集的特点在于其涉及了政治倾向性的研究，包含了来自Digg和Reddit的政治文章，并提供了丰富的用户标签数据。数据集以JSON格式存储，每行是一个JSON对象，便于程序读取和处理。此外，数据集的部分文章拥有高达20个标签，增加了数据集的多样性和复杂性。

使用方法

使用balance_dataset数据集时，用户需先根据README中提供的指南合并数据文件。之后，可以通过编程语言如Python等读取JSON格式的数据，进行数据分析和模型训练。针对不同的研究需求，用户可以依据提供的标签对文章进行分类研究，或是利用用户数据探索政治极化的社会网络特征。

背景与挑战

背景概述

balance_dataset数据集，旨在为政治两极化研究提供支持，其创建背景源于对政治新闻文章以及用户投票行为进行分析的需求。该数据集由Zhou Daniel Xiaodan、Resnick Paul及Mei Qiaozhu等研究人员于2011年构建，并已在相关领域产生了广泛影响。数据集包含了来自Digg和Reddit的政治文章，以及通过Mechanical Turk获得的用户对文章的政治倾向标注，为理解网络环境中政治极化的现象提供了重要资源。

当前挑战

在数据集构建过程中，研究人员面临了诸多挑战。首先，如何准确捕捉和标记政治文章的倾向性是一个主要难题，特别是在多元化的网络环境中。其次，数据集的规模较大，对存储和计算资源提出了较高要求，为此研究人员采用了分片存储的方法以适应。此外，不同用户对同一文章的标注可能存在主观偏差，这为后续的数据处理和分析带来了额外的挑战。

常用场景

经典使用场景

在政治极化研究领域，balance_dataset数据集被广泛用于分析政治文章的倾向性以及用户间的友谊关系。该数据集包含Digg和Reddit平台上的政治文章，以及通过Mturk获取的文章政治倾向性标签，成为研究政治极化现象的重要资源。

实际应用

在实际应用中，balance_dataset数据集可用于构建政治立场分析模型，辅助社交媒体平台监测与调控其平台内容倾向性，同时，亦可用于改进算法推荐的公平性和中立性，保护用户免受信息茧房的困扰。

衍生相关工作

基于balance_dataset数据集，研究者发表了诸多经典工作，如Zhou等人2011年的研究《Classifying the Political Leaning of News Articles and Users from User Votes》便是其中的代表，该研究通过用户投票数据对新闻文章及用户的政治倾向进行分类，为后续研究提供了方法论上的借鉴。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。