five

wikipunk/d3fend|网络安全数据集|知识图谱数据集

收藏
hugging_face2023-09-29 更新2024-03-04 收录
网络安全
知识图谱
下载链接:
https://hf-mirror.com/datasets/wikipunk/d3fend
下载链接
链接失效反馈
资源简介:
D3FEND数据集是一个网络安全对策知识图谱,详细编码了网络安全对策领域的关键概念和关系,并链接到网络安全文献中的相关参考资料。该数据集由三元组组成,每个三元组代表一个网络安全概念或概念之间的关系。数据集包括主体、谓词和对象三个特征,分别表示网络安全概念或实体、主体的属性或主体与对象之间的关系、以及与主体通过谓词关联的实体。数据集的构建和预处理包括从D3FEND本体构建全本体文件、导入Protege进行逻辑推理和验证、使用Debug Ontology插件检查本体的连贯性和一致性、使用Apache Jena工具导出推断的公理、过滤和格式转换、以及压缩结果文件。
提供机构:
wikipunk
AI搜集汇总
数据集介绍
main_image_url
构建方式
D3FEND数据集的构建过程严谨而系统,基于D3FEND本体的beta版本,通过详细的README文档指导构建了`d3fend-full.owl`本体文件。该本体在Protege 5.6.1中导入,并使用Pellet推理器插件进行逻辑推理和验证,确保了本体的连贯性和一致性。随后,通过Apache Jena工具导出推断的公理,并使用`d3fend.rq`过滤器保留相关三元组,最终转换为Turtle和N-Triples格式,并进行压缩处理,以适应多样化的使用需求。
特点
D3FEND数据集以三元组的形式呈现,每个三元组由主体、谓词和客体组成,分别表示网络安全概念或实体、属性或关系、以及相关联的实体或属性值。该数据集涵盖了广泛的网络安全防御措施,支持复杂的关系建模,并提供了与MITRE ATT&CK、CWE等网络安全分类的映射,为研究人员提供了深入探索网络安全防御技术的丰富资源。
使用方法
使用D3FEND数据集时,首先需安装`datasets`和`rdflib`库。通过Hugging Face的Datasets库加载数据集后,每个样本将以字典形式呈现,包含`subject`、`predicate`和`object`三个键。用户可利用`rdflib.util.from_n3`解析N3格式的三元组,进一步处理和分析数据。该数据集适用于开发基于图的模型、微调大型语言模型以及深入研究网络安全本体建模等领域。
背景与挑战
背景概述
D3FEND数据集是由MITRE公司开发的一个网络安全对策知识图谱,旨在通过知识图谱的形式系统化地组织和表达网络安全领域的关键概念与关系。该数据集的核心研究问题是如何有效地构建和利用知识图谱来支持网络安全领域的研究与实践。D3FEND的构建基于专家生成的知识,涵盖了从基础概念到复杂防御技术的广泛内容,并与MITRE ATT&CK、CWE等网络安全标准进行了关联。其发布时间为2021年,主要研究人员包括Peter E. Kaloroumakis和Michael J. Smith。该数据集的推出为网络安全领域的知识图谱构建和图机器学习提供了重要的资源,推动了网络安全防御技术的精细化与智能化发展。
当前挑战
D3FEND数据集在构建过程中面临了多个挑战。首先,网络安全领域的知识复杂且动态变化,如何准确捕捉并表达这些知识是构建知识图谱的主要难题。其次,数据集的构建涉及从多种来源整合信息,包括文献引用和标准映射,这要求高度的专业知识和细致的验证过程。此外,知识图谱的逻辑一致性和完整性检查也是一大挑战,需要借助如Pellet推理器等工具进行严格验证。最后,数据集的格式转换和压缩过程需要高效且可靠的技术支持,以确保其在不同应用场景下的可用性。
常用场景
经典使用场景
D3FEND数据集的经典使用场景主要集中在网络安全领域的知识图谱构建与分析。研究人员可以利用该数据集开发复杂的基于图的模型,通过图神经网络等技术深入挖掘网络安全防御措施之间的复杂关系。此外,该数据集还可用于微调大型语言模型,专注于网络安全知识图谱的补全任务,从而提升模型在网络安全领域的推理能力。
解决学术问题
D3FEND数据集解决了网络安全领域中防御措施的系统化建模问题。通过构建一个包含防御措施及其关系的知识图谱,该数据集为研究人员提供了一个系统化的框架,用于探索防御措施与MITRE ATT&CK技术、常见弱点枚举(CWEs)以及网络安全分类法之间的关联。这不仅有助于提升网络安全防御措施的有效性,还为网络安全领域的知识图谱构建提供了新的研究范式。
衍生相关工作
D3FEND数据集的发布催生了一系列相关研究工作。例如,基于该数据集的知识图谱补全算法研究,旨在提升网络安全防御措施的自动化推荐能力。此外,还有研究者利用该数据集进行网络安全领域的图神经网络模型优化,以更好地捕捉防御措施之间的复杂关系。这些衍生工作不仅丰富了网络安全领域的研究内容,还为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录