five

OSPTrack|开源软件供应链安全数据集|恶意软件检测数据集

收藏
arXiv2024-11-22 更新2024-11-26 收录
开源软件供应链安全
恶意软件检测
下载链接:
https://github.com/ossf/package-analysis
下载链接
链接失效反馈
资源简介:
OSPTrack是由格拉斯哥大学创建的一个标签化数据集,专注于模拟开源软件包的执行过程。该数据集涵盖了多个生态系统,包括npm、pypi、crates.io、nuget和packagist,共包含9,461个软件包报告,其中1,962个为恶意软件包。数据集通过在隔离环境中捕获软件包和库执行期间生成的特征,如文件、套接字、命令和DNS记录,来帮助识别恶意指示器。数据集的创建过程包括多进程分析、报告解析和特征提取,旨在解决开源软件供应链安全中的漏洞检测问题,特别是在源代码访问受限的情况下。
提供机构:
格拉斯哥大学
创建时间:
2024-11-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
OSPTrack数据集的构建基于对开源软件包在模拟环境中的执行过程进行详细监控。研究团队利用package-analysis工具,在隔离的沙箱环境中模拟了多个生态系统(如npm、pypi、crates.io、nuget和packagist)中的软件包执行。通过这种方式,数据集捕获了软件包在运行时的静态和动态特征,包括文件操作、套接字连接、命令执行和DNS记录等。此外,数据集还整合了来自BigQuery的公开数据,以确保样本的多样性和覆盖面。最终,通过解析生成的报告并提取特征,构建了一个包含9,461个软件包报告的全面数据集,其中1,962个为恶意软件包。
特点
OSPTrack数据集的一个显著特点是其丰富的特征集和详细的标签信息。数据集不仅包含了静态代码分析中常见的特征,还引入了运行时动态特征,如网络交互和系统调用,这使得检测方法更加全面和精确。此外,数据集的标签不仅区分了恶意和良性软件包,还进一步细分为多种攻击类型,如数据泄露、恶意命令执行等,提供了更为细致的分析基础。这种多维度的特征和详细的标签使得OSPTrack成为研究开源软件供应链安全的重要资源。
使用方法
OSPTrack数据集适用于多种研究场景,特别是在开源软件供应链安全领域。研究者可以利用该数据集训练机器学习模型,以区分良性与恶意软件包,并识别运行时中的潜在漏洞。数据集的详细标签和多维度特征支持监督学习和无监督学习方法,有助于开发高效的检测算法。此外,数据集的多样性使得研究者能够进行跨生态系统的比较分析,进一步理解不同环境中恶意软件包的行为模式。通过这些分析,研究者可以提出更有效的防御策略,提升开源软件供应链的整体安全性。
背景与挑战
背景概述
OSPTrack数据集由格拉斯哥大学的Zhuoran Tan、Christos Anagnostopoulos和Jeremy Singer等人创建,旨在解决开源软件(OSS)供应链安全中的运行时特征缺失问题。该数据集于2024年发布,涵盖了多个生态系统,包括npm、pypi、crates.io、nuget和packagist,捕捉了软件包和库在隔离环境中的执行特征。OSPTrack数据集包含9,461个包报告,其中1,962个为恶意包,具有静态和动态特征,如文件、套接字、命令和DNS记录。该数据集通过详细的子标签标注攻击类型,有助于在源代码访问受限时识别恶意指示器,并支持运行时的有效检测方法。
当前挑战
OSPTrack数据集面临的挑战主要包括:1) 解决领域问题中的挑战,如在复杂系统中嵌入的OSS的运行时特征捕捉;2) 构建过程中遇到的挑战,如模拟执行中某些包因依赖缺失而无法分析,以及某些包导致模拟过程卡顿,影响后续包的分析。此外,由于源代码不可用,模拟场景无法完全捕捉注入过程,且部分恶意包因超时设置而被排除在数据集之外。未来计划通过定期更新数据集,以包含更多样化和广泛的恶意报告。
常用场景
经典使用场景
OSPTrack数据集的经典使用场景主要集中在开源软件供应链安全领域,特别是在检测恶意软件包的运行时行为。通过模拟多个生态系统中的软件包执行,该数据集捕捉了静态和动态特征,如文件操作、网络套接字、命令执行和DNS记录。这些特征的详细标注使得研究人员能够开发和验证基于机器学习的恶意软件检测模型,尤其是在源代码访问受限的情况下。
实际应用
在实际应用中,OSPTrack数据集可用于开发和部署实时恶意软件检测系统,特别是在开源软件供应链管理中。例如,企业可以使用该数据集训练的模型来监控和分析其软件包的运行时行为,及时发现并阻止潜在的恶意活动。此外,该数据集还可用于教育和培训,帮助安全专业人员更好地理解和应对复杂的供应链攻击。
衍生相关工作
OSPTrack数据集的发布激发了一系列相关研究工作,特别是在开源软件供应链安全领域。例如,一些研究者利用该数据集开发了新的机器学习模型,以提高恶意软件检测的准确性和效率。此外,还有研究探讨了如何利用OSPTrack数据集进行跨生态系统的恶意软件行为比较分析,以及如何构建基于图的表示学习模型来更好地捕捉和理解复杂的攻击模式。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

MNIST数据集

‌数据规模‌ ‌训练集‌:60,000 张手写数字图像(28×28 像素灰度图)及对应标签 34。 ‌测试集‌:10,000 张图像与标签,用于模型评估 68。 ‌数据来源‌ 由美国国家标准与技术研究院(NIST)收集,50% 样本来自高中生手写,50% 来自人口普查局工作人员 48。 经 Yann LeCun 团队标准化处理,成为机器学习基准数据集 1011。

阿里云天池 收录

Hospital Deterioration Dataset

这是一个高保真模拟医院队列数据集,包含10,000个模拟医院入院记录,每个记录跟踪最多72小时。数据集提供每小时的生命体征(心率、血压、呼吸频率等)和实验室数值(白细胞计数、乳酸、肌酐等),以及患者人口统计学信息和多种恶化结果标签。专门设计用于构建和基准测试早期预警系统和临床恶化风险模型的机器学习应用。

github 收录

哈尔滨市区域产业链点发展评估数据

我司基于哈尔滨市区域产业发展的特征,结合数据的可获得性和有效性,基于不同产业链点的产业规模、龙头效应、资本热度、科技创新、发展效率等多个维度构建哈尔滨市区域产业链点的综合发展效能评估体系,并完成数据收集、数据清洗、特征衍生、模型构建、模型验证全过程,形成涵盖哈尔滨市主要产业链下核心链点的区域产业链点发展评分,能有效帮助金融机构在制定产业相关信贷政策以及确定特定产业预授信额度时,更准确全面地评价区域产业的发展效能和动态变化,辅助金融机构更好做好区域产业金融服务。区域产业链点发展指数 = ∑ Si * Xi ,其中Si是指标相应的权重系数,Xi是评价指标,i=1,2,3,……,21,21个指标包括“区域产业链点在营企业数量”“区域产业链点近1年新注册企业数量”等,指标经归一化处理后参与计算。模型结合专家经验和机器学习算法得出,专家主要基于行业实践、政策导向和国际贸易特点,帮助筛选关键指标并初步设定权重范围,然后通过主成分分析和随机森林算法进一步筛选指标并对初始权重进行优化。

浙江省数据知识产权登记平台 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录