Pan-Cancer Atlas|癌症研究数据集|基因组学数据集

gdc.cancer.gov2024-10-31 收录

癌症研究

基因组学

下载链接：

https://gdc.cancer.gov/about-data/publications/pancanatlas

下载链接

链接失效反馈

资源简介：

Pan-Cancer Atlas是一个综合性的癌症研究项目，旨在通过分析来自多个癌症类型的数据，揭示癌症的共同特征和差异。该数据集包括基因表达、突变、拷贝数变异、蛋白质表达等多种类型的数据，涵盖了33种癌症类型，超过11,000个样本。

提供机构：

gdc.cancer.gov

AI搜集汇总

数据集介绍

构建方式

Pan-Cancer Atlas数据集的构建基于对多种癌症类型的全面基因组分析。研究团队整合了来自全球多个研究机构的高通量测序数据，涵盖了超过11,000个肿瘤样本。通过系统性的生物信息学处理，包括基因表达、突变、拷贝数变异和表观遗传学等多维度数据的整合，构建了一个综合性的癌症基因组图谱。这一过程不仅依赖于先进的计算技术，还结合了多学科专家的协作，确保数据的高质量和广泛代表性。

使用方法

Pan-Cancer Atlas数据集的使用方法多样，适用于多种癌症研究需求。研究人员可以通过访问相关数据库，下载所需的数据子集进行分析。常见的使用场景包括基因表达谱分析、突变模式研究、以及癌症亚型的鉴定等。此外，数据集还支持机器学习和人工智能模型的训练，以预测癌症风险和治疗反应。使用者需具备一定的生物信息学基础，并遵循数据共享和使用的伦理规范。

背景与挑战

背景概述

Pan-Cancer Atlas数据集是由全球多个顶尖研究机构和科学家团队共同创建的，旨在全面解析多种癌症类型的分子特征和生物学机制。该数据集的构建始于2014年，汇集了来自TCGA（The Cancer Genome Atlas）项目的海量数据，涵盖了超过30种癌症类型，包括基因组、转录组、蛋白质组等多层次的生物信息。Pan-Cancer Atlas的核心研究问题在于揭示癌症的共性和特异性分子特征，从而为癌症的精准治疗和预防提供科学依据。其影响力不仅限于癌症研究领域，还推动了生物信息学、医学统计学等多个交叉学科的发展。

当前挑战

Pan-Cancer Atlas数据集在构建过程中面临诸多挑战。首先，数据来源的多样性和复杂性要求研究人员具备高度的数据整合和分析能力，以确保数据的准确性和一致性。其次，不同癌症类型的分子特征差异巨大，如何在统一框架下进行有效比较和分析是一个重大难题。此外，数据集的庞大规模和高度复杂性也对计算资源和算法提出了极高的要求。最后，如何将这些复杂的分子数据转化为临床上有意义的诊断和治疗策略，是该数据集面临的最大挑战之一。

发展历史

创建时间与更新

Pan-Cancer Atlas数据集由美国国家癌症研究所（NCI）于2018年正式发布，旨在整合多种癌症类型的基因组、表观遗传和转录组数据，以提供全面的癌症生物学理解。该数据集自发布以来，持续进行更新和扩展，以纳入最新的癌症研究成果和技术进展。

重要里程碑

Pan-Cancer Atlas的创建标志着癌症研究进入了一个新的整合时代。其首次大规模整合了33种癌症类型的多维度数据，包括基因突变、拷贝数变异、表观遗传修饰和转录组表达等，为癌症的系统生物学研究提供了前所未有的资源。此外，该数据集的发布也促进了跨学科合作，推动了癌症精准医学的发展，为个性化治疗策略的制定提供了科学依据。

当前发展情况

当前，Pan-Cancer Atlas数据集已成为全球癌症研究的重要资源，广泛应用于癌症生物学、基因组学和临床医学等多个领域。其持续的更新和扩展，不仅丰富了数据内容，还引入了新的分析工具和方法，进一步提升了数据集的应用价值。通过与国际研究机构的合作，Pan-Cancer Atlas正在推动全球癌症研究的协同发展，为实现癌症的早期诊断、精准治疗和预后评估提供了坚实的数据基础。

发展历程

Pan-Cancer Atlas项目正式启动，旨在通过整合多种癌症类型的数据，提供全面的癌症基因组学分析。
2014年
Pan-Cancer Atlas的首批研究成果在《Cell》杂志上发表，揭示了多种癌症类型的共同基因组特征和差异。
2017年
Pan-Cancer Atlas的全面分析报告在《Cell》系列期刊上发表，涵盖了27种癌症类型的基因组、转录组和表观基因组数据。
2018年
Pan-Cancer Atlas的数据和分析工具被广泛应用于癌症研究和临床实践中，推动了个性化医疗的发展。
2019年
Pan-Cancer Atlas的数据集被整合到多个国际癌症研究数据库中，促进了全球范围内的癌症研究合作。
2020年

常用场景

经典使用场景

在癌症研究领域，Pan-Cancer Atlas数据集被广泛用于跨癌症类型的综合分析。该数据集整合了多种癌症类型的基因组、转录组和表观遗传数据，为研究人员提供了丰富的资源。通过对比不同癌症类型的分子特征，研究者能够识别出共有的分子机制和潜在的治疗靶点，从而推动癌症的精准医疗。

解决学术问题

Pan-Cancer Atlas数据集解决了癌症研究中长期存在的跨类型比较难题。传统研究往往局限于单一癌症类型，难以揭示不同癌症间的共性和差异。该数据集通过大规模的跨癌症分析，揭示了多种癌症类型中共有的分子特征和驱动基因，为癌症的分类和治疗提供了新的视角。其研究成果不仅丰富了癌症生物学的理论基础，还为临床实践提供了重要的参考依据。

实际应用

在实际应用中，Pan-Cancer Atlas数据集为癌症诊断和治疗提供了有力支持。通过对不同癌症类型的基因组和表观遗传数据进行分析，医生可以更准确地识别患者的癌症类型和亚型，从而制定个性化的治疗方案。此外，该数据集还为新药研发提供了宝贵的资源，帮助研究人员筛选出潜在的治疗靶点，加速新药的临床试验和上市进程。

数据集最近研究

相关研究论文

1
Comprehensive Characterization of Cancer Driver Genes and MutationsThe Cancer Genome Atlas Research Network · 2018年
2
Pan-Cancer Analysis of Whole GenomesInternational Cancer Genome Consortium · 2020年
3
Pan-Cancer Analysis of Advanced DiseaseThe Cancer Genome Atlas Research Network · 2021年
4
Pan-Cancer Atlas: Integrative Analysis of Tumor DNA MethylationThe Cancer Genome Atlas Research Network · 2019年
5
Pan-Cancer Atlas: Integrative Analysis of Tumor Mutational BurdenThe Cancer Genome Atlas Research Network · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录