five

CICAPT-IIoT|工业物联网安全数据集|APT检测数据集

收藏
arXiv2024-07-16 更新2024-08-06 收录
工业物联网安全
APT检测
下载链接:
http://arxiv.org/abs/2407.11278v1
下载链接
链接失效反馈
资源简介:
CICAPT-IIoT数据集是由加拿大网络安全研究所开发,专门针对工业物联网环境中的高级持续性威胁(APT)检测。该数据集通过混合测试平台生成,结合了真实和模拟的工业物联网组件,以展示现代技术系统的复杂性和多样性。数据集包含网络日志和来源数据,涵盖了超过20种不同的攻击技术,这些技术被分为八个主要的攻击战术,模拟了APT攻击的不同阶段,如数据收集和外泄、发现和横向移动、防御规避和持久性等。该数据集的创建旨在为开发全面的网络安全措施提供基础,并支持网络安全专家构建创新和高效的安全解决方案。
提供机构:
加拿大网络安全研究所
创建时间:
2024-07-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
CICAPT-IIoT数据集的构建基于一个模拟的工业物联网(IIoT)环境,该环境通过结合真实和模拟的IIoT组件来模拟现实世界中的IIoT系统。数据集的生成涉及多个阶段,包括建立基线行为(模拟正常系统操作)和模拟APT攻击(使用APT29战术)。数据收集包括网络日志、系统日志和由SPADE服务生成的 provenance 数据。网络日志通过NS3网络模拟器收集,系统日志通过Linux审计守护进程(Auditd)收集,而 provenance 数据则由系统日志转换而来。
特点
CICAPT-IIoT数据集的特点在于其全面性和真实性。它不仅包括网络日志,还包括 provenance 数据,这为研究人员提供了丰富的上下文信息,有助于区分良性事件和恶意事件。数据集涵盖了超过20种不同的攻击技术,分为8个主要攻击策略,这些策略映射到APT攻击场景中,类似于APT29活动。此外,数据集在正常行为和恶意活动之间存在着显著的不平衡,这与现实世界中的IIoT环境相符。
使用方法
使用CICAPT-IIoT数据集时,研究人员可以访问两个主要的数据文件夹:phase1数据(基线行为)和phase2数据(包含攻击)。每个文件夹包含 provenance 数据和网络数据。provenance 数据以CSV格式提供,包含图中的节点和边。网络数据以pcap格式存储,但可以进一步处理为包含每个数据包67个特征的CSV格式。此外,攻击信息文件提供了有关在实验期间执行的所有攻击的必要信息,包括攻击时间、攻击PID和攻击类别。研究人员可以利用这些数据来训练和评估基于机器学习的入侵检测系统,特别是针对APT攻击的检测。
背景与挑战
背景概述
随着工业互联网的迅猛发展,智能传感器、高级分析和强大连接的融合推动了工业流程的实时数据驱动决策和运营效率的提升。然而,工业物联网(IIoT)面临着来自高级持续性威胁(APT)的严重挑战,这种威胁因其隐蔽性、持久性和针对性而备受关注。现有的网络安全数据集往往缺乏在IIoT环境中检测APT所需的关键属性。鉴于此,研究人员提出了CICAPT-IIoT数据集,旨在为IIoT环境中的APT检测任务提供必要的信息。该数据集由来自新不伦瑞克大学计算机科学学院的研究人员Erfan Ghiasvand、Suprio Ray、Shahrear Iqbal、Sajjad Dadkhah和Ali A. Ghorbani共同创建,并于2024年7月发布。CICAPT-IIoT数据集通过在半控制环境中开发一个IIoT测试平台,并包含超过20种在APT活动中常用的攻击技术,为研究人员提供了研究APT检测方法的基础。
当前挑战
CICAPT-IIoT数据集面临的挑战主要涉及APT检测在IIoT环境中的复杂性。首先,APT攻击通常具有复杂性、持久性、针对性和隐蔽性,这使得传统的基于签名和基于异常的威胁检测系统难以有效检测长期运行的APT活动。其次,构建数据集过程中,研究人员需要确保数据集的多样性和真实性,以反映真实世界的IIoT环境。此外,APT攻击的多阶段特性要求数据集涵盖所有相关阶段、战术和技术,以全面代表APT活动。最后,数据集的不平衡性,即正常行为与恶意活动之间的比例差异巨大,也带来了挑战,因为过采样技术可能会扭曲APT在现实世界中的表现。
常用场景
经典使用场景
CICAPT-IIoT数据集被广泛用于工业物联网(IIoT)环境中的高级持续性威胁(APT)攻击检测研究。它包含了超过20种攻击技术,分为8个主要攻击策略,涵盖了APT攻击的各个阶段,如数据收集和泄露、防御规避、持久性、横向移动等。这些攻击技术在现实世界的APT攻击中非常常见,因此该数据集可以用于训练和评估机器学习模型,以检测和预防IIoT环境中的APT攻击。
衍生相关工作
CICAPT-IIoT数据集的发布促进了基于数据源和入侵检测的APT检测研究的发展。它为研究人员提供了丰富的数据资源,有助于开发新的检测技术和算法,以应对APT攻击的挑战。此外,该数据集还可以用于评估和比较不同的APT检测方法,以确定哪些方法在实际应用中最为有效。
数据集最近研究
最新研究方向
CICAPT-IIoT数据集专注于工业物联网(IIoT)环境中高级持续性威胁(APT)的检测,通过结合网络日志和源数据,为研究人员提供了全面的APT攻击模拟数据。该数据集的最新研究方向在于利用源数据增强APT检测系统的可靠性,特别是在模拟APT攻击的关键阶段,如数据收集和泄露、发现和横向移动、防御规避和持久性方面。通过在半控制环境下建立的IIoT测试床,CICAPT-IIoT数据集旨在反映真实世界IIoT操作的复杂性和交互性,从而为开发更有效的安全解决方案提供基础。此外,该数据集的发布填补了现有APT数据集在IIoT环境中覆盖不足的空白,为APT检测研究提供了宝贵的资源。
相关研究论文
  • 1
    CICAPT-IIOT: A provenance-based APT attack dataset for IIoT environment加拿大网络安全研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录