FedAD-Bench|联邦学习数据集|异常检测数据集

arXiv2024-08-08 更新2024-08-12 收录

联邦学习

异常检测

下载链接：

http://arxiv.org/abs/2408.04442v1

下载链接

链接失效反馈

资源简介：

FedAD-Bench是由德国人工智能研究中心（DFKI）和RPTU Kaiserslautern-Landau共同创建的一个统一基准，专门用于评估联邦学习环境下的无监督异常检测算法。该数据集包含来自医疗和网络安全领域的四个数据集，每个数据集都有不同的样本数量和特征维度。数据集的创建过程特别关注于排除训练集中的异常数据，以确保模型能够更好地学习正常数据的特征。FedAD-Bench主要应用于提高数据隐私和安全性的领域，特别是在网络安全和医疗记录分析中，旨在通过联邦学习方法解决数据隐私保护和异常检测的问题。

提供机构：

德国人工智能研究中心 (DFKI)

创建时间：

2024-08-08

AI搜集汇总

数据集介绍

构建方式

FedAD-Bench的构建方式旨在为联邦学习环境中的无监督异常检测算法提供一个统一的评估平台。该数据集包含了多个不同的数据集和评估指标，以提供一个全面的评估。为了确保模型能够准确地学习正常数据的特征，FedAD-Bench采用了重新设计的数据分割方法，将所有异常数据排除在训练集之外。此外，FedAD-Bench还采用了统一的评估指标集，包括精确率、召回率、AUROC、AUPR和F1分数，以提供一个全面的模型性能评估。在联邦学习方面，FedAD-Bench采用了FedAvg聚合算法，并通过实验评估了FedProx算法的性能。

特点

FedAD-Bench具有几个关键特点。首先，它支持联邦学习，旨在评估在联邦环境中运行的异常检测方法。其次，FedAD-Bench采用了重新设计的数据分割方法，将所有异常数据排除在训练集之外，以提高模型的异常检测能力。此外，FedAD-Bench采用了统一的评估指标集，包括精确率、召回率、AUROC、AUPR和F1分数，以提供一个全面的模型性能评估。最后，FedAD-Bench还采用了FedAvg和FedProx聚合算法，以评估不同的聚合策略对模型性能的影响。

使用方法

使用FedAD-Bench进行异常检测评估的方法如下：首先，将所有异常数据排除在训练集之外，以确保模型能够准确地学习正常数据的特征。然后，使用FedAvg或FedProx聚合算法进行模型训练和聚合。在评估阶段，使用统一的评估指标集，包括精确率、召回率、AUROC、AUPR和F1分数，对模型的性能进行全面评估。最后，根据评估结果，可以比较不同异常检测算法的性能，并选择最适合联邦学习环境的算法。

背景与挑战

背景概述

在联邦学习（FL）和异常检测相结合的背景下，FedAD-Bench数据集应运而生。该数据集由德国人工智能研究中心（DFKI）和特里尔-波恩技术大学（RPTU）的研究团队创建，旨在评估在联邦学习环境中无监督异常检测算法的性能。FedAD-Bench数据集的创建源于对联邦学习在保护隐私的同时利用分布式数据的潜力，以及将联邦学习与异常检测相结合，以检测来自多个敏感数据源的稀有且关键的异常。该数据集通过系统性分析和比较在联邦设置下深度学习异常检测模型的表现，填补了在联邦学习环境中评估异常检测方法性能的研究空白。FedAD-Bench数据集包含了多样化的数据集和指标，以提供全面评估，并旨在建立标准化基准，以指导未来在联邦异常检测领域的研究和开发，促进研究的可重复性和公平比较。

当前挑战

FedAD-Bench数据集面临的挑战包括：1) 异常检测方法在联邦学习环境中的评估仍然是一个未被充分探索的领域；2) 构建过程中所遇到的挑战，例如模型聚合效率低下和指标不可靠。此外，FedAD-Bench数据集还揭示了联邦学习在正则化效应方面的洞察，表明在特定情况下，联邦学习由于其固有的减少过拟合的能力而优于集中式方法。然而，联邦学习在异常检测中的应用仍然面临着一些挑战，包括模型复杂度、数据集的多样性以及模型聚合策略的选择等。

常用场景

经典使用场景

FedAD-Bench数据集主要用于评估在联邦学习环境中无监督异常检测算法的性能。它涵盖了各种数据集和指标，为联邦学习中的异常检测提供了一个全面的评估框架。FedAD-Bench的设计考虑了联邦学习的特性，包括支持联邦学习、重新设计的数据分割和统一的一组评估指标，以确保评估的准确性和公正性。

衍生相关工作

FedAD-Bench数据集的发布衍生了一系列相关的研究工作。这些研究工作包括对联邦学习中异常检测算法的性能分析、对不同聚合策略的比较、以及评估指标的可靠性研究。FedAD-Bench的发布为联邦学习中的异常检测研究提供了一个重要的基础，促进了该领域的进一步发展。

数据集最近研究

相关研究论文

1
FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data德国人工智能研究中心 (DFKI) · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

RML24

RML24是首个专门为卫星信号识别和解调的深度学习应用设计的数据集。它整合了遥测和通信信号在遥测、跟踪和指挥（TT&C）系统中，并模拟了真实卫星信道中的信号损伤效应。该数据集利用软件定义无线电（SDR）平台和射频（RF）收发器进行严格的空中测量，并验证收集的数据。RML24为研究人员提供了基本的数据和建模基准，以促进智能和自适应卫星通信系统的算法验证和发展，推动数据驱动卫星通信技术的发展。

github 收录

WMT

WMT（Workshop on Machine Translation）数据集主要用于机器翻译任务，包含了多种语言对的翻译文本，如英语-德语、英语-法语等。数据集包括了平行语料库，即源语言和目标语言的句子对，以及单语语料库。

www.statmt.org 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据，涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数（AQI）等信息。数据按小时记录，提供了详细的空气质量监测数据。

www.cnemc.cn 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录