five

ransomware-dataset|勒索软件数据集|恶意软件分析数据集

收藏
github2024-03-29 更新2024-05-31 收录
勒索软件
恶意软件分析
下载链接:
https://github.com/undo-ransomware/ransomware-dataset
下载链接
链接失效反馈
资源简介:
我们的勒索软件数据集基于VirusShare收集的3390万个样本。我们使用了John Seymour的数据集,其中包含了从2012年6月到2019年2月的所有3320万个样本的VirusTotal标签。我们下载了原始数据集并筛选出所有ransom检测的样本,然后进一步筛选出Windows可执行文件。最终的339594个样本使用AVClass恶意软件标签工具进行分类,以按家族分组。

Our ransomware dataset is based on 33.9 million samples collected from VirusShare. We utilized John Seymour's dataset, which includes VirusTotal labels for all 33.2 million samples from June 2012 to February 2019. We downloaded the original dataset and filtered out all samples detected as ransomware, then further refined the selection to include only Windows executable files. The final 339,594 samples were classified using the AVClass malware labeling tool to group them by family.
创建时间:
2020-02-28
原始信息汇总

Ransomware samples dataset 概述

数据集来源

  • 基于 VirusShare 的 33.9M 样本集合。
  • 使用 John Seymour 的 dataset,包含 VirusTotal 从 2012 年 6 月至 2019 年 2 月的 33.2M 样本标签。

数据处理

  • 下载原始数据集并筛选出所有 ransom 检测结果,得到 456856 个样本。
  • 进一步筛选出 Windows 可执行文件,使用 VirusShare 的 filetypes 数据集,排除浏览器相关的 HTML 文件。
  • 最终得到 339594 个样本。

样本分类

  • 使用 AVClass malware labeling tool 对样本进行家族分类。
  • 结果包括 23616 个 SINGLETON(仅含通用名称的样本),1562 个单一样本家族,以及 1671 个包含 2 个或以上成员的 ransomware 家族。
  • 排除 SINGLETON 后,基础样本集为 315978 个。

分布情况

  • 呈现典型的长尾分布。
  • 2 个样本的家族中包含了一些知名 ransomware,如 GoldenEye, ZeroLockerBad Rabbit
  • 1 个样本的家族中包含了一些已知的 ransomware,如 Alcatraz Locker

流行 Ransomware

  • 包括 Zeus, Winwebsec, Virlock, ZeroAccess, PornoBlocker 等。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于VirusShare平台上收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,涵盖了2012年6月至2019年2月期间的3320万样本。通过对原始数据集进行筛选,提取了所有被标记为‘ransom’的样本,共计456856个。进一步利用VirusShare文件类型数据集,筛选出Windows可执行文件,排除了大量基于浏览器的HTML勒索文件,最终得到339594个样本。这些样本通过AVClass恶意软件标签工具进行分类,按家族进行分组,最终形成了包含315978个样本的基础数据集。
特点
该数据集的特点在于其专注于勒索软件样本,涵盖了广泛的家族分类。通过AVClass工具的分类,数据集包含了23616个单一命名的样本(SINGLETONs),1562个仅包含一个样本的家族,以及1671个包含两个或更多样本的勒索软件家族。值得注意的是,尽管许多家族仅包含少量样本,但其中仍包含了一些曾引起广泛关注的勒索软件,如GoldenEye、ZeroLocker和Bad Rabbit。数据集的分布呈现出典型的长尾特征,反映了勒索软件家族的多样性和复杂性。
使用方法
该数据集的使用方法主要包括对勒索软件样本的分析和分类研究。研究人员可以利用该数据集进行勒索软件家族的识别、行为分析以及恶意软件检测算法的开发。通过AVClass工具的分类结果,用户可以快速定位特定家族的样本,进行深入分析。此外,数据集还可用于训练机器学习模型,提升勒索软件的检测和防御能力。使用该数据集时,建议结合其他安全工具和平台,如VirusTotal,以获取更全面的样本信息和检测结果。
背景与挑战
背景概述
ransomware-dataset数据集源于VirusShare平台收集的3390万样本,结合了John Seymour提供的VirusTotal标签数据,时间跨度从2012年6月至2019年2月。该数据集的核心研究问题在于对勒索软件样本的系统化分类与家族识别,旨在为网络安全领域提供详尽的勒索软件分析基础。通过使用AVClass恶意软件标签工具,数据集将样本按家族分类,最终筛选出315,978个有效样本。这一数据集不仅为勒索软件的研究提供了丰富的数据支持,还揭示了勒索软件家族的分布特征,对恶意软件检测与防御策略的优化具有重要影响。
当前挑战
ransomware-dataset在构建过程中面临多重挑战。首先,原始数据集中包含大量非恶意或低威胁的样本,如基于浏览器的HTML勒索文件,需通过文件类型过滤确保数据集的纯净性。其次,勒索软件家族的分类依赖于AVClass工具,但该工具在处理单一样本或通用名称时存在局限性,导致部分样本无法准确归类。此外,勒索软件家族的长尾分布特征使得少数家族占据了大量样本,而多数家族样本稀少,这为数据集的均衡性与代表性带来了挑战。最后,数据集的时效性也是一个关键问题,勒索软件不断演变,现有数据可能无法完全反映最新的威胁态势。
常用场景
经典使用场景
在网络安全领域,ransomware-dataset数据集被广泛用于恶意软件分析和检测算法的开发。研究人员利用该数据集中的勒索软件样本,训练和测试机器学习模型,以提高对新型勒索软件的识别能力。通过分析不同勒索软件家族的行为特征,该数据集为构建高效的恶意软件检测系统提供了坚实的基础。
解决学术问题
ransomware-dataset数据集解决了网络安全研究中勒索软件分类和检测的难题。通过对大量勒索软件样本的标签和家族分类,研究人员能够深入理解勒索软件的演化趋势和传播模式。该数据集为学术界提供了丰富的实验数据,推动了恶意软件检测技术的进步,并为制定有效的防御策略提供了科学依据。
衍生相关工作
ransomware-dataset数据集衍生了许多经典的研究工作,包括基于机器学习的勒索软件检测算法、勒索软件家族演化分析以及勒索软件传播模型的研究。这些工作不仅深化了对勒索软件行为的理解,还为开发更高效的防御工具提供了理论支持。例如,基于该数据集的研究成果已被应用于多个开源和商业安全产品中,显著提升了勒索软件的检测率和响应速度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录