five

ransomware-dataset|勒索软件数据集|恶意软件分析数据集

收藏
github2024-03-29 更新2024-05-31 收录
勒索软件
恶意软件分析
下载链接:
https://github.com/undo-ransomware/ransomware-dataset
下载链接
链接失效反馈
资源简介:
我们的勒索软件数据集基于VirusShare收集的3390万个样本。我们使用了John Seymour的数据集,其中包含了从2012年6月到2019年2月的所有3320万个样本的VirusTotal标签。我们下载了原始数据集并筛选出所有ransom检测的样本,然后进一步筛选出Windows可执行文件。最终的339594个样本使用AVClass恶意软件标签工具进行分类,以按家族分组。

Our ransomware dataset is based on 33.9 million samples collected from VirusShare. We utilized John Seymour's dataset, which includes VirusTotal labels for all 33.2 million samples from June 2012 to February 2019. We downloaded the original dataset and filtered out all samples detected as ransomware, then further refined the selection to include only Windows executable files. The final 339,594 samples were classified using the AVClass malware labeling tool to group them by family.
创建时间:
2020-02-28
原始信息汇总

Ransomware samples dataset 概述

数据集来源

  • 基于 VirusShare 的 33.9M 样本集合。
  • 使用 John Seymour 的 dataset,包含 VirusTotal 从 2012 年 6 月至 2019 年 2 月的 33.2M 样本标签。

数据处理

  • 下载原始数据集并筛选出所有 ransom 检测结果,得到 456856 个样本。
  • 进一步筛选出 Windows 可执行文件,使用 VirusShare 的 filetypes 数据集,排除浏览器相关的 HTML 文件。
  • 最终得到 339594 个样本。

样本分类

  • 使用 AVClass malware labeling tool 对样本进行家族分类。
  • 结果包括 23616 个 SINGLETON(仅含通用名称的样本),1562 个单一样本家族,以及 1671 个包含 2 个或以上成员的 ransomware 家族。
  • 排除 SINGLETON 后,基础样本集为 315978 个。

分布情况

  • 呈现典型的长尾分布。
  • 2 个样本的家族中包含了一些知名 ransomware,如 GoldenEye, ZeroLockerBad Rabbit
  • 1 个样本的家族中包含了一些已知的 ransomware,如 Alcatraz Locker

流行 Ransomware

  • 包括 Zeus, Winwebsec, Virlock, ZeroAccess, PornoBlocker 等。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于VirusShare平台上收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,涵盖了2012年6月至2019年2月期间的3320万样本。通过对原始数据集进行筛选,提取了所有被标记为‘ransom’的样本,共计456856个。进一步利用VirusShare文件类型数据集,筛选出Windows可执行文件,排除了大量基于浏览器的HTML勒索文件,最终得到339594个样本。这些样本通过AVClass恶意软件标签工具进行分类,按家族进行分组,最终形成了包含315978个样本的基础数据集。
特点
该数据集的特点在于其专注于勒索软件样本,涵盖了广泛的家族分类。通过AVClass工具的分类,数据集包含了23616个单一命名的样本(SINGLETONs),1562个仅包含一个样本的家族,以及1671个包含两个或更多样本的勒索软件家族。值得注意的是,尽管许多家族仅包含少量样本,但其中仍包含了一些曾引起广泛关注的勒索软件,如GoldenEye、ZeroLocker和Bad Rabbit。数据集的分布呈现出典型的长尾特征,反映了勒索软件家族的多样性和复杂性。
使用方法
该数据集的使用方法主要包括对勒索软件样本的分析和分类研究。研究人员可以利用该数据集进行勒索软件家族的识别、行为分析以及恶意软件检测算法的开发。通过AVClass工具的分类结果,用户可以快速定位特定家族的样本,进行深入分析。此外,数据集还可用于训练机器学习模型,提升勒索软件的检测和防御能力。使用该数据集时,建议结合其他安全工具和平台,如VirusTotal,以获取更全面的样本信息和检测结果。
背景与挑战
背景概述
ransomware-dataset数据集源于VirusShare平台收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,时间跨度从2012年6月至2019年2月。该数据集的核心研究问题在于对勒索软件样本的系统化分类与家族识别,旨在为网络安全领域提供详尽的勒索软件分析基础。通过使用AVClass恶意软件标签工具,数据集将样本按家族分类,最终筛选出315,978个有效样本。这一数据集不仅为勒索软件的研究提供了丰富的数据支持,还揭示了勒索软件家族的分布特征,对恶意软件检测与防御策略的优化具有重要影响。
当前挑战
ransomware-dataset在构建过程中面临多重挑战。首先,原始数据集中包含大量非恶意或低威胁的样本,如基于浏览器的HTML勒索文件,需通过文件类型过滤确保数据集的纯净性。其次,勒索软件家族的分类依赖于AVClass工具,但该工具在处理单一样本或通用名称时存在局限性,导致部分样本无法准确归类。此外,勒索软件家族的长尾分布特征使得少数家族占据了大量样本,而多数家族样本稀少,这为数据集的均衡性与代表性带来了挑战。最后,数据集的时效性也是一个关键问题,勒索软件不断演变,现有数据可能无法完全反映最新的威胁态势。
常用场景
经典使用场景
在网络安全领域,ransomware-dataset数据集被广泛用于恶意软件分析和检测算法的开发。研究人员利用该数据集中的勒索软件样本,训练和测试机器学习模型,以提高对新型勒索软件的识别能力。通过分析不同勒索软件家族的行为特征,该数据集为构建高效的恶意软件检测系统提供了坚实的基础。
解决学术问题
ransomware-dataset数据集解决了网络安全研究中勒索软件分类和检测的难题。通过对大量勒索软件样本的标签和家族分类,研究人员能够深入理解勒索软件的演化趋势和传播模式。该数据集为学术界提供了丰富的实验数据,推动了恶意软件检测技术的进步,并为制定有效的防御策略提供了科学依据。
衍生相关工作
ransomware-dataset数据集衍生了许多经典的研究工作,包括基于机器学习的勒索软件检测算法、勒索软件家族演化分析以及勒索软件传播模型的研究。这些工作不仅深化了对勒索软件行为的理解,还为开发更高效的防御工具提供了理论支持。例如,基于该数据集的研究成果已被应用于多个开源和商业安全产品中,显著提升了勒索软件的检测率和响应速度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

AQA-7

AQA-7 是一个用于动作质量评估(AQA)的统一基准数据集,旨在通过整合多个领域的数据集来标准化评估方法。该数据集包含视频、骨骼数据和多模态输入,涵盖了体育分析、技能评估和医疗护理等多个应用领域。数据集的创建过程通过系统分析现有文献和实验协议,确保了评估的准确性和计算效率。AQA-7 的应用领域广泛,旨在解决动作质量评估中的偏差问题,提供客观的自动化评估,特别是在体育评分、技能评估和康复训练中具有重要意义。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录