five

The Cancer Genome Atlas (TCGA)|癌症研究数据集|基因组学数据集

收藏
portal.gdc.cancer.gov2024-10-23 收录
癌症研究
基因组学
下载链接:
https://portal.gdc.cancer.gov/
下载链接
链接失效反馈
资源简介:
TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的分子基础。
提供机构:
portal.gdc.cancer.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
The Cancer Genome Atlas (TCGA) 数据集的构建基于大规模的多维组学数据整合,涵盖了基因组、转录组、蛋白质组和表观遗传学等多个层面。通过高通量测序技术和生物信息学分析,TCGA项目对多种癌症类型进行了深入研究,收集了来自数千名患者的样本数据。这些数据经过严格的质控和标准化处理,确保了数据的高质量和一致性。
特点
TCGA 数据集以其全面性和深度著称,提供了丰富的癌症相关信息,包括基因突变、拷贝数变异、甲基化状态等。该数据集不仅涵盖了多种癌症类型,还包含了患者的临床信息,为癌症研究提供了宝贵的资源。此外,TCGA数据集的开放性和共享性,使得全球科研人员能够共同利用这些数据进行癌症机制和治疗策略的研究。
使用方法
TCGA 数据集的使用方法多样,科研人员可以通过TCGA官方网站或相关数据库平台访问和下载数据。在数据分析方面,TCGA数据集常用于基因表达谱分析、突变热点识别、生物标志物筛选等研究。此外,结合机器学习和人工智能技术,TCGA数据集还可用于构建预测模型,以辅助癌症诊断和预后评估。使用者需遵循数据共享协议,确保数据的合法和合理使用。
背景与挑战
背景概述
The Cancer Genome Atlas (TCGA) 是由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2006年发起的一项重大项目,旨在通过系统性地分析多种癌症类型的基因组变异,揭示癌症的分子基础。该项目汇聚了全球顶尖的癌症研究专家和机构,通过高通量测序技术,对数千个癌症样本进行了全面的基因组、转录组和表观基因组分析。TCGA的核心研究问题在于识别与癌症发生、发展和治疗反应相关的关键基因和分子机制,其成果对癌症精准医学的发展产生了深远影响,为个性化治疗策略的制定提供了宝贵的数据支持。
当前挑战
尽管TCGA数据集在癌症研究领域具有里程碑意义,但其构建和应用过程中仍面临诸多挑战。首先,数据的高维性和复杂性使得数据分析和解读变得异常困难,需要先进的生物信息学工具和算法。其次,样本的异质性和数据的标准化问题,导致不同实验室和研究团队之间的结果难以直接比较。此外,数据隐私和伦理问题也是TCGA项目必须面对的重要挑战,如何在保护患者隐私的前提下,最大化数据的使用价值,是当前亟待解决的问题。
发展历史
创建时间与更新
The Cancer Genome Atlas (TCGA) 数据集于2006年启动,旨在通过大规模基因组分析揭示癌症的复杂性。该数据集持续更新至2018年,期间收集了超过11,000个癌症样本的基因组、转录组和表观遗传数据。
重要里程碑
TCGA的里程碑事件包括2012年发布的首批研究成果,揭示了多种癌症类型的基因组变异模式,为癌症分类和治疗提供了新视角。2013年,TCGA数据被广泛应用于癌症基因组学的研究,推动了个性化医疗的发展。2015年,TCGA发布了全面的癌症基因组图谱,标志着癌症研究进入了一个新纪元。
当前发展情况
当前,TCGA数据集已成为癌症研究领域的基石,被全球科研机构广泛引用和应用。其数据不仅用于基础研究,还推动了临床应用,如癌症诊断、预后评估和治疗方案的制定。TCGA的影响力持续扩大,促进了多学科交叉研究,为未来的癌症治疗和预防策略提供了宝贵的数据支持。
发展历程
  • 美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)联合启动The Cancer Genome Atlas (TCGA)项目,旨在通过大规模基因组分析揭示癌症的分子基础。
    2006年
  • TCGA项目发布首个癌症基因组图谱,涵盖了乳腺癌和脑肿瘤的基因组数据。
    2008年
  • TCGA项目扩展至包括肺癌、结肠癌和卵巢癌在内的多种癌症类型,并发布了相应的基因组数据。
    2011年
  • TCGA项目发布首个全面的癌症基因组图谱,涵盖了20种不同类型的癌症,标志着该项目进入全面数据公开阶段。
    2013年
  • TCGA项目发布关于胰腺癌的详细基因组分析结果,进一步丰富了癌症基因组数据库。
    2015年
  • TCGA项目正式结束数据收集,并发布了最终的综合报告,总结了所有参与癌症类型的基因组特征和分子机制。
    2018年
  • TCGA数据集被广泛应用于癌症研究和临床实践,成为全球癌症基因组研究的重要资源。
    2020年
常用场景
经典使用场景
在癌症基因组学领域,The Cancer Genome Atlas (TCGA) 数据集被广泛用于研究不同癌症类型的基因组变异。通过整合多维度的基因组数据,包括基因表达、DNA甲基化、拷贝数变异和突变信息,TCGA为科学家提供了一个全面的平台,用以探索癌症的分子基础和潜在的治疗靶点。
解决学术问题
TCGA数据集解决了癌症研究中长期存在的多维度数据整合难题,使得研究人员能够系统性地分析基因组、转录组和表观遗传数据。这不仅揭示了癌症的复杂性,还为个性化医疗提供了理论基础。通过TCGA,科学家们能够识别出与特定癌症类型相关的关键基因和生物标志物,从而推动了癌症生物学和临床医学的进步。
衍生相关工作
基于TCGA数据集,许多后续研究工作得以展开,包括但不限于癌症亚型的分类、药物反应预测和基因网络分析。例如,TCGA数据被用于构建癌症基因表达谱,这些谱系为理解癌症的分子机制提供了重要线索。此外,TCGA数据还促进了多中心合作研究,推动了全球癌症研究的协同发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

RML24

RML24是首个专门为卫星信号识别和解调的深度学习应用设计的数据集。它整合了遥测和通信信号在遥测、跟踪和指挥(TT&C)系统中,并模拟了真实卫星信道中的信号损伤效应。该数据集利用软件定义无线电(SDR)平台和射频(RF)收发器进行严格的空中测量,并验证收集的数据。RML24为研究人员提供了基本的数据和建模基准,以促进智能和自适应卫星通信系统的算法验证和发展,推动数据驱动卫星通信技术的发展。

github 收录