five

ChEMBL|药物发现数据集|生物信息学数据集

收藏
Papers with Code2024-05-15 收录
药物发现
生物信息学
下载链接:
https://paperswithcode.com/dataset/chembl-v-27
下载链接
链接失效反馈
资源简介:
ChEMBL is a manually curated database of bioactive molecules with drug-like properties. It brings together chemical, bioactivity and genomic data to aid the translation of genomic information into effective new drugs.
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChEMBL数据集的构建基于对大量生物活性数据的系统性收集与整合。该数据集通过自动化的数据提取技术,从已发表的科学文献和专利中收集化学分子及其生物活性信息。这些数据经过严格的筛选和标准化处理,确保了数据的准确性和一致性。此外,ChEMBL还采用了结构化的数据存储方式,使得数据能够高效地被检索和分析。
使用方法
ChEMBL数据集广泛应用于药物发现和化学信息学领域。研究人员可以通过该数据集进行分子筛选、活性预测和药物设计。使用者可以利用ChEMBL提供的API接口或直接下载数据进行本地分析。此外,ChEMBL还支持多种数据可视化工具,帮助用户更好地理解和利用数据。通过这些方法,ChEMBL为科学研究提供了强大的数据支持。
背景与挑战
背景概述
ChEMBL数据集,由欧洲生物信息学研究所(EBI)于2008年推出,是一个广泛应用于药物发现和化学信息学领域的数据库。该数据集整合了大量生物活性数据,涵盖了从分子结构到生物活性的多维度信息,为研究人员提供了丰富的资源。ChEMBL的构建旨在解决药物发现过程中数据分散和标准化不足的问题,通过统一的数据格式和高质量的数据集,极大地促进了药物研发效率和成功率。
当前挑战
尽管ChEMBL数据集在药物发现领域具有重要影响力,但其构建过程中仍面临诸多挑战。首先,数据来源的多样性和异质性使得数据整合和标准化成为一大难题。其次,数据的质量控制和验证需要耗费大量资源和时间,以确保数据的准确性和可靠性。此外,随着新药研发技术的不断进步,ChEMBL需要不断更新和扩展,以适应快速变化的科研需求。
发展历史
创建时间与更新
ChEMBL数据集由欧洲生物信息学研究所(EBI)于2008年首次发布,旨在整合和标准化化学和生物活性数据。自发布以来,ChEMBL经历了多次重大更新,最近一次主要更新是在2022年,引入了更多药物靶点和化合物信息。
重要里程碑
ChEMBL的一个重要里程碑是其在2010年与PubChem的整合,这一合作极大地扩展了数据集的覆盖范围和多样性。此外,2013年ChEMBL发布了其第17版,引入了新的数据处理和质量控制方法,显著提升了数据集的准确性和可靠性。2018年,ChEMBL与药物发现领域的多个大型项目合作,进一步巩固了其在药物研发中的核心地位。
当前发展情况
当前,ChEMBL已成为全球药物发现和化学信息学领域的关键资源,提供了超过200万个化合物的详细信息,涵盖了从基础研究到临床试验的各个阶段。其持续的更新和扩展,不仅支持了学术研究,还为工业界的药物开发提供了宝贵的数据支持。ChEMBL的开放获取政策和高质量的数据标准,使其在推动新药研发和生物医学研究方面发挥了重要作用。
发展历程
  • ChEMBL数据集首次由欧洲生物信息学研究所(EBI)启动,旨在整合和标准化化学和生物活性数据。
    2000年
  • ChEMBL数据库正式发布,包含约200,000个化合物及其生物活性数据。
    2003年
  • ChEMBL数据集进行了重大更新,增加了新的数据源和功能,数据量扩展至约600,000个化合物。
    2008年
  • ChEMBL数据库升级为ChEMBL 12版本,数据量达到约1,000,000个化合物,并引入了新的数据处理和分析工具。
    2012年
  • ChEMBL 20版本发布,数据集进一步扩展至约1,500,000个化合物,并增强了数据质量和可访问性。
    2015年
  • ChEMBL 25版本发布,数据集包含超过2,000,000个化合物,并引入了新的数据可视化和交互功能。
    2018年
  • ChEMBL 30版本发布,数据集继续扩展,数据质量和功能性得到进一步提升,支持更广泛的药物发现研究。
    2021年
常用场景
经典使用场景
在药物发现领域,ChEMBL数据集被广泛用于分子活性预测和药物设计。通过整合大量化学结构和生物活性数据,研究者能够构建高精度的预测模型,从而加速新药研发进程。例如,利用ChEMBL数据集,科学家可以筛选出具有潜在治疗效果的化合物,并进一步优化其结构以提高药效和降低副作用。
解决学术问题
ChEMBL数据集解决了药物发现中的关键学术问题,如分子活性预测和药物靶点识别。通过提供标准化和结构化的化学和生物数据,ChEMBL促进了多学科交叉研究,推动了计算化学和生物信息学的发展。其丰富的数据资源为研究者提供了宝贵的实验数据支持,有助于揭示药物作用机制和开发新型治疗策略。
实际应用
在实际应用中,ChEMBL数据集被制药公司和研究机构广泛用于药物研发的不同阶段。从早期化合物筛选到临床前研究,ChEMBL的数据支持了多种药物的发现和优化。此外,该数据集还被用于构建和验证药物作用模型,帮助科学家理解药物与靶点之间的相互作用,从而提高药物设计的成功率。
数据集最近研究
最新研究方向
在药物发现领域,ChEMBL数据集的最新研究方向主要集中在利用深度学习和人工智能技术进行药物分子的预测和优化。通过整合ChEMBL中的大量化学和生物活性数据,研究人员能够构建高精度的模型,用于预测新化合物的药效和毒性。此外,ChEMBL数据集还被广泛应用于药物再利用研究,通过分析已有药物的生物活性数据,发现其在治疗新疾病中的潜在应用。这些研究不仅加速了药物开发进程,还为个性化医疗提供了重要的数据支持。
相关研究论文
  • 1
    ChEMBL: towards direct deposition of bioassay dataEuropean Molecular Biology Laboratory, European Bioinformatics Institute · 2012年
  • 2
    The ChEMBL bioactivity database: an updateEuropean Molecular Biology Laboratory, European Bioinformatics Institute · 2014年
  • 3
    ChEMBL: a large-scale bioactivity database for drug discoveryEuropean Molecular Biology Laboratory, European Bioinformatics Institute · 2012年
  • 4
    ChEMBL: towards direct deposition of bioassay dataEuropean Molecular Biology Laboratory, European Bioinformatics Institute · 2012年
  • 5
    The ChEMBL bioactivity database: an updateEuropean Molecular Biology Laboratory, European Bioinformatics Institute · 2014年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录