TwiBot-20|社交网络分析数据集|机器人检测数据集

arXiv2021-08-27 更新2024-06-21 收录

社交网络分析

机器人检测

下载链接：

https://github.com/BunsenFeng/TwiBot-20

下载链接

链接失效反馈

资源简介：

TwiBot-20是由西安交通大学创建的大规模Twitter机器人检测基准数据集，包含229,573个用户，33,488,192条推文，8,723,736个用户属性项和455,958个关注关系。该数据集通过广度优先搜索从不同主题的大量种子用户开始，遍历关注关系，确保用户在地理位置和兴趣领域上的多样性，更好地代表当前的Twitter环境。TwiBot-20包括三种用户信息模式，支持单用户二元分类和社区感知方法。数据集的应用领域主要集中在Twitter机器人检测，旨在解决在线社交平台上的机器人滥用问题，提高在线讨论的完整性。

提供机构：

西安交通大学

创建时间：

2021-06-24

AI搜集汇总

数据集介绍

构建方式

TwiBot-20数据集的构建始于从不同主题领域的大量种子用户开始，采用广度优先搜索（BFS）策略遍历关注关系。这一过程涵盖了用户在地理和兴趣领域的多样性，使得TwiBot-20更具代表性地反映了当前的Twitter环境。数据集的收集包括从Twitter API检索用户的语义、属性和邻域信息，以及通过众包进行的数据标注，确保了标注的可靠性和准确性。

特点

TwiBot-20数据集的特点在于其规模庞大、用户信息多样性和数据标注的可靠性。它包含了229,573个用户、33,488,192条推文、8,723,736个用户属性项和455,958个关注关系，是目前最大的Twitter机器人检测基准。此外，TwiBot-20是首个公开的包含用户关注关系的机器人检测数据集，为社区感知方法提供了支持。

使用方法

使用TwiBot-20数据集时，首先应从其GitHub仓库下载所需的数据文件，包括训练集、验证集、测试集和支持集。数据文件以JSON格式组织，每个用户都包含用户ID和从Twitter API收集的所有语义、属性和邻域信息。研究人员可以根据需要使用这些数据进行训练、验证和测试机器人检测模型，以及探索半监督学习等新型研究趋势。

背景与挑战

背景概述

在社交媒体时代，Twitter作为重要的社交平台，其上存在大量恶意Twitter机器人，这些机器人对社交网络造成不良影响。为了有效地检测这些机器人，研究人员需要大规模的数据集进行训练和评估。然而，现有的数据集往往存在用户多样性低、用户信息有限和数据稀缺等问题，这限制了机器人检测方法的训练和稳定评估。为了解决这些问题，Feng等人于2020年7月至9月期间收集并标注了TwiBot-20数据集，这是一个包含229,573个用户、33,488,192条推文、8,723,736个用户属性项和455,958个关注关系的Twitter机器人检测基准数据集。TwiBot-20涵盖了多样化的机器人和真实用户，以更好地代表现实世界的Twitter领域。此外，TwiBot-20还包括三种用户信息模式，即语义信息、属性信息和邻居信息，以支持对单个用户的二分类和社区感知方法。据我们所知，TwiBot-20是目前最大的Twitter机器人检测基准数据集。研究人员在TwiBot-20和其他两个公共数据集上重新实现了竞争性的机器人检测方法，并进行了彻底的评估。实验结果表明，现有的机器人检测方法在TwiBot-20上的表现未能达到其先前宣称的性能，这表明Twitter机器人检测仍然是一个具有挑战性的任务，需要进一步的研究努力。

当前挑战

TwiBot-20数据集面临的主要挑战包括： 1) 用户多样性：现有的机器人检测数据集通常只关注特定类型或用户群，无法捕捉到真实Twitter领域中并存的多样化机器人。 2) 有限的用户信息：Twitter用户拥有语义、属性和邻居信息，而现有的基准数据集只包括少量多模态用户信息，缺乏全面性。 3) 数据稀缺：先前的小规模数据集不足以训练和稳定评估新的机器人检测方法，阻碍了新方法的发展。TwiBot-20数据集旨在通过其大规模的用户群体、全面的用户信息和多样化的用户类型来缓解这些问题。然而，机器人检测仍然是一个具有挑战性的任务，需要进一步的研究努力。

常用场景

经典使用场景

TwiBot-20数据集被广泛用于社交媒体机器人检测的研究中，特别是在Twitter平台上。该数据集包含了大量真实用户和机器人的信息，包括语义、属性和邻居信息，为研究者提供了丰富的数据资源，以训练和评估机器人检测算法的性能。TwiBot-20数据集的经典使用场景包括：1. 机器学习模型的训练和评估：研究者可以利用TwiBot-20数据集中的用户信息来训练各种机器学习模型，如随机森林、深度神经网络等，以提高机器人检测的准确性和鲁棒性。2. 特征工程和选择：研究者可以基于TwiBot-20数据集，探索和设计新的特征，以更好地描述用户行为和机器人特征，从而提高机器人检测的性能。3. 社区感知方法的研究：TwiBot-20数据集包含了用户的邻居信息，使得研究者可以采用社区感知方法，如图神经网络等，来分析用户之间的关系，并识别机器人群体。

衍生相关工作

TwiBot-20数据集的提出衍生了一系列相关的经典工作。首先，研究者利用TwiBot-20数据集，探索和设计了新的特征和模型，以提高机器人检测的性能。例如，一些研究者提出了基于深度学习的机器人检测模型，如循环神经网络（RNN）、卷积神经网络（CNN）等，以更好地处理语义和属性信息。其次，研究者利用TwiBot-20数据集，研究了社区感知方法在机器人检测中的应用，如图神经网络（GNN）等，以更好地分析用户之间的关系，并识别机器人群体。最后，研究者利用TwiBot-20数据集，研究了半监督学习和无监督学习在机器人检测中的应用，以提高机器人检测的效率和鲁棒性。

数据集最近研究

相关研究论文

1
TwiBot-20: A Comprehensive Twitter Bot Detection Benchmark西安交通大学 · 2021年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录