five

yelp-frauddetection|欺诈检测数据集|图神经网络数据集

收藏
github2022-12-16 更新2024-05-31 收录
欺诈检测
图神经网络
下载链接:
https://github.com/wey-gu/nebulagraph-yelp-frauddetection
下载链接
链接失效反馈
资源简介:
该数据集由Dou等人引入,用于增强基于图神经网络的欺诈检测器,以识别伪装欺诈者。数据集包含Yelp评论,具有标签(是否欺诈)和32个归一化特征作为属性,以及评论之间的关系,如共享用户、共享餐厅评级和共享同一月份的餐厅。

This dataset was introduced by Dou et al. to enhance graph neural network-based fraud detectors for identifying camouflaged fraudsters. The dataset comprises Yelp reviews, featuring labels (indicating whether they are fraudulent) and 32 normalized features as attributes, along with relationships between reviews, such as shared users, shared restaurant ratings, and restaurants reviewed in the same month.
创建时间:
2022-07-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
yelp-frauddetection数据集由Dou等人提出,旨在通过图神经网络增强欺诈检测能力。该数据集构建于Yelp评论数据之上,通过提取评论之间的关系构建图结构。具体而言,数据集中的节点代表Yelp评论,每条评论包含32个归一化特征和一个欺诈标签(is_fraud)。边则代表评论之间的三种关系:共享用户(R-U-R)、共享餐厅评分(R-S-R)以及在同一月内共享餐厅(R-T-R)。数据预处理过程中,利用dgl库将邻接矩阵转换为边列表,并生成带有特征和标签的节点数据。
特点
yelp-frauddetection数据集的特点在于其丰富的图结构信息和高维特征表示。数据集包含45,954个节点和8,051,348条边,其中节点特征经过归一化处理,便于模型训练。边的类型多样,涵盖了用户、餐厅评分和时间维度的关系,为欺诈检测提供了多维度的上下文信息。此外,数据集的欺诈标签为二分类任务提供了明确的监督信号,使其成为研究图神经网络在欺诈检测领域应用的理想选择。
使用方法
使用yelp-frauddetection数据集时,首先需通过提供的脚本下载并转换为CSV格式。随后,可将数据导入NebulaGraph图数据库,利用其强大的图计算能力进行查询和分析。对于图神经网络的研究,数据集已集成至DGL库,用户可通过NebulaLoader加载数据并构建图结构。加载后的图可直接用于模型训练,支持多种图神经网络算法的实现。此外,数据集还提供了详细的导入和查询示例,便于用户快速上手。
背景与挑战
背景概述
yelp-frauddetection数据集由Dou等人于2020年提出,旨在通过图神经网络(GNN)技术提升欺诈检测的准确性,特别是在面对伪装欺诈者时。该数据集的核心研究问题是如何利用用户评论之间的复杂关系网络来识别潜在的欺诈行为。数据集包含了Yelp平台上的用户评论数据,每条评论被标记为欺诈或非欺诈,并附带了32个归一化的特征。评论之间的关系通过三种类型的边表示:共享用户、共享餐厅评分以及在同一月内共享餐厅。该数据集的发布推动了图神经网络在欺诈检测领域的应用,并为相关研究提供了重要的基准数据。
当前挑战
yelp-frauddetection数据集在解决欺诈检测问题时面临多重挑战。首先,欺诈者通常会通过伪装行为来规避检测,这使得传统的基于特征的检测方法难以奏效。其次,数据集中评论之间的关系网络非常复杂,如何有效建模这些关系并从中提取有用的信息是一个关键难题。此外,数据集的构建过程中也面临技术挑战,例如如何将原始的邻接矩阵转换为适合图神经网络处理的边列表格式,以及如何在保持数据完整性的同时进行高效的特征提取和标签分配。这些挑战不仅考验了数据处理的技术能力,也对模型的鲁棒性和泛化能力提出了更高的要求。
常用场景
经典使用场景
在电子商务和在线评论平台中,yelp-frauddetection数据集被广泛应用于检测虚假评论。通过分析用户评论之间的关系,如共享用户、共享餐厅评分或共享同一餐厅在一个月内的评论,该数据集能够有效识别潜在的欺诈行为。这种基于图神经网络的方法不仅提高了检测的准确性,还增强了系统对伪装欺诈者的识别能力。
实际应用
yelp-frauddetection数据集在实际应用中,主要用于提升在线评论平台的信誉管理。通过实时监控和分析用户评论之间的关系,平台能够迅速识别并处理虚假评论,从而维护平台的公正性和用户的信任度。此外,该数据集还可用于优化推荐系统,确保用户获得真实可靠的推荐内容。
衍生相关工作
基于yelp-frauddetection数据集,许多经典研究工作得以展开。例如,Dou等人提出的CARE-GNN模型,通过增强图神经网络的欺诈检测能力,显著提升了检测效果。此外,该数据集还促进了图神经网络与其他机器学习技术的结合,推动了欺诈检测领域的多学科交叉研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录