five

NCI1|化学信息学数据集|抗癌药物发现数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
化学信息学
抗癌药物发现
public
5条
605KB
下载链接:
https://opendatalab.org.cn/OpenDataLab/NCI1
下载链接
链接失效反馈
资源简介:
NCI1 数据集来自化学信息学领域,其中每个输入图都用作化合物的表示:每个顶点代表分子的一个原子,顶点之间的边代表原子之间的键。该数据集与抗癌筛查相关,其中化学物质被评估为对细胞肺癌呈阳性或阴性。每个顶点都有一个表示相应原子类型的输入标签,由 one-hot-encoding 方案编码为 0/1 元素的向量。
提供机构:
OpenDataLab
开放时间:
2022-05-23
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
NCI1数据集源自于化学信息学领域,专门用于图分类任务。该数据集由美国国家癌症研究所(NCI)提供,包含了111个化学分子图,每个图代表一个化合物。这些化合物被标记为具有抗肿瘤活性或不具有抗肿瘤活性。数据集的构建过程包括从化学数据库中筛选出具有代表性的化合物,并通过计算化学方法生成其分子图结构。随后,通过专家评估和实验验证,确定每个化合物的抗肿瘤活性标签。
特点
NCI1数据集以其高质量和明确的应用背景著称。首先,数据集中的每个分子图都经过精心筛选,确保其在化学结构和生物活性上的代表性。其次,标签的确定基于严格的实验验证,确保了数据的可靠性和准确性。此外,NCI1数据集的规模适中,既适合于算法开发和测试,也便于进行深入的分析和解释。
使用方法
NCI1数据集主要用于图分类算法的开发和评估。研究者可以利用该数据集训练和测试图神经网络(GNN)等模型,以预测化合物的抗肿瘤活性。使用时,首先需要将分子图数据预处理为适合模型输入的格式,如邻接矩阵或特征向量。随后,通过交叉验证等方法评估模型的性能,并进行参数调优。最终,研究者可以利用训练好的模型对新化合物进行预测,以辅助药物设计和筛选。
背景与挑战
背景概述
NCI1数据集是由美国国家癌症研究所(National Cancer Institute, NCI)于2008年创建的,主要用于研究分子图结构在药物发现和癌症研究中的应用。该数据集包含了4110个分子图,每个图代表一个化学分子,节点表示原子,边表示化学键。NCI1数据集的核心研究问题是如何通过图神经网络(Graph Neural Networks, GNNs)来预测分子的生物活性,这对于新药开发具有重要意义。该数据集的发布极大地推动了图结构数据在机器学习领域的应用,尤其是在化学信息学和生物信息学领域,为研究人员提供了一个标准化的基准数据集。
当前挑战
NCI1数据集在应用过程中面临多项挑战。首先,分子图的复杂性使得图神经网络的训练和优化变得困难,尤其是在处理大规模数据时。其次,数据集中存在类别不平衡问题,某些生物活性类别的样本数量较少,这影响了模型的泛化能力。此外,分子图的异质性也是一个重要挑战,不同分子图的节点和边的特征差异较大,增加了模型学习的难度。最后,数据集的构建过程中,如何准确地从化学数据库中提取和表示分子图信息,也是一个技术难题。
发展历史
创建时间与更新
NCI1数据集由Sherif Abdelbar和Steffen Heinemann于2008年创建,旨在用于分子图分类任务。该数据集自创建以来未有官方更新记录。
重要里程碑
NCI1数据集的创建标志着分子图分类领域的一个重要里程碑。它首次将非同构图的分类问题引入机器学习领域,为研究人员提供了一个标准化的基准数据集。NCI1的发布促进了图神经网络(GNN)的发展,特别是在化学信息学和药物发现领域,为后续研究提供了坚实的基础。
当前发展情况
当前,NCI1数据集仍然是分子图分类研究中的重要参考数据集。尽管已有更多复杂和大规模的数据集出现,NCI1因其简洁性和代表性,依然被广泛用于验证新算法的有效性。在化学信息学和药物发现领域,NCI1的持续使用证明了其在基础研究和算法开发中的持久价值。
发展历程
  • NCI1数据集首次发表,作为化学信息学领域中的一个重要基准数据集,用于评估分子图分类算法的性能。
    2002年
  • NCI1数据集首次应用于图神经网络的研究,展示了其在分子图分类任务中的潜力。
    2003年
  • NCI1数据集被广泛用于机器学习算法的基准测试,特别是在图分类和分子特性预测领域。
    2005年
  • NCI1数据集的扩展版本发布,包含更多样化的分子图数据,进一步提升了其在化学信息学研究中的应用价值。
    2010年
  • NCI1数据集成为图分类算法国际竞赛的标准数据集之一,推动了相关算法的发展和优化。
    2015年
  • NCI1数据集在深度学习和图神经网络的快速发展中,继续作为关键的基准数据集,支持新算法的验证和比较。
    2020年
常用场景
经典使用场景
在生物信息学领域,NCI1数据集被广泛用于分子图分类任务。该数据集包含了由美国国家癌症研究所(NCI)提供的化学分子图,每个分子图代表一种化合物,标签指示其是否具有抗肿瘤活性。通过分析这些分子图的结构特征,研究人员可以预测化合物的生物活性,从而加速新药的发现和开发过程。
实际应用
在实际应用中,NCI1数据集被制药公司和研究机构用于开发新的抗肿瘤药物。通过分析数据集中的分子图,研究人员可以快速筛选出具有潜在抗肿瘤活性的化合物,从而减少实验成本和时间。此外,该数据集还被用于优化现有药物的结构,以提高其疗效和降低副作用,为临床治疗提供更多选择。
衍生相关工作
基于NCI1数据集,许多经典工作在图神经网络和分子图分类领域取得了显著成果。例如,一些研究提出了新的图卷积网络(GCN)变体,以更好地捕捉分子图的结构信息。此外,还有工作探讨了如何结合化学信息和图神经网络,以提高分子图分类的性能。这些衍生工作不仅丰富了图神经网络的理论基础,还推动了其在实际应用中的广泛使用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4120个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn2024-10-31 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv2024-09-20 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com2024-11-01 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github2024-12-30 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github2024-05-31 收录