five

COSMIC|癌症研究数据集|基因突变数据集

收藏
cancer.sanger.ac.uk2024-10-27 收录
癌症研究
基因突变
下载链接:
https://cancer.sanger.ac.uk/cosmic
下载链接
链接失效反馈
资源简介:
COSMIC(Catalogue Of Somatic Mutations In Cancer)是一个全面记录癌症体细胞突变的数据库。它包含了来自全球多个研究机构的癌症样本的基因突变数据,涵盖了多种癌症类型。数据集提供了详细的突变信息,包括突变类型、基因位置、突变频率等,为癌症研究和治疗提供了重要的数据支持。
提供机构:
cancer.sanger.ac.uk
AI搜集汇总
数据集介绍
main_image_url
构建方式
COSMIC数据集的构建基于全球范围内的多个天文观测站和卫星数据,通过整合来自不同波段的天文观测数据,包括X射线、紫外线、可见光和红外线等,形成了一个多波段、多维度的天文数据集。该数据集的构建过程涉及数据清洗、校准、对齐和融合等多个步骤,确保了数据的高质量和一致性。
特点
COSMIC数据集以其广泛覆盖的波段和多维度的数据结构著称,涵盖了从宇宙微波背景辐射到高能X射线源的广泛范围。该数据集不仅提供了丰富的天文观测数据,还包含了详细的元数据和注释,便于研究人员进行深入分析和挖掘。此外,COSMIC数据集的开放性和可访问性也为其广泛应用提供了便利。
使用方法
COSMIC数据集的使用方法多样,研究人员可以通过在线平台或数据下载服务获取所需数据。数据集提供了多种查询和筛选工具,用户可以根据研究需求选择特定波段、时间和空间范围的数据。此外,COSMIC数据集还支持与其他天文数据库的集成,便于进行跨数据集的联合分析。研究人员可以通过编程接口或可视化工具对数据进行进一步处理和分析,以支持天文现象的研究和发现。
背景与挑战
背景概述
COSMIC数据集,全称为Catalogue Of Somatic Mutations In Cancer,是由Wellcome Trust Sanger Institute于2004年创建的,旨在系统性地记录和分析癌症中的体细胞突变。该数据集的核心研究问题集中在癌症基因组学的深入理解,特别是突变模式、驱动基因及其在癌症发生和发展中的作用。COSMIC的建立极大地推动了癌症基因组学领域的发展,为研究人员提供了宝贵的资源,以识别和验证潜在的癌症治疗靶点。
当前挑战
COSMIC数据集在构建过程中面临了多重挑战。首先,数据集需要整合来自全球多个研究机构的高通量测序数据,确保数据的准确性和一致性。其次,随着测序技术的快速发展,数据集需要不断更新以反映最新的科学发现,这要求持续的技术投入和数据管理。此外,COSMIC还面临着如何有效处理和分析海量突变数据,以提取有临床应用价值的信息的挑战。这些挑战不仅涉及技术层面,还包括数据隐私和伦理问题。
发展历史
创建时间与更新
COSMIC数据集,全称为Catalogue Of Somatic Mutations In Cancer,创建于2004年,由英国癌症研究所(ICGC)和欧洲分子生物学实验室(EMBL)共同发起。该数据集定期更新,最新版本发布于2023年,持续为全球癌症研究者提供最新的突变信息。
重要里程碑
COSMIC数据集的重要里程碑包括2009年首次发布的大规模基因突变数据库,标志着癌症基因组学研究进入了一个新的时代。2015年,COSMIC推出了V75版本,引入了深度突变分析(DMS)数据,极大地丰富了数据集的内容和应用范围。2020年,COSMIC与全球基因组学和健康联盟(GA4GH)合作,推动了数据的标准化和互操作性,进一步提升了其在国际科研中的影响力。
当前发展情况
当前,COSMIC数据集已成为全球癌症研究的核心资源之一,涵盖了超过1亿个体细胞突变数据,支持了多种癌症类型的基因组分析。其数据不仅用于基础研究,还广泛应用于临床诊断和治疗方案的制定。COSMIC的持续更新和扩展,为癌症精准医疗提供了坚实的数据基础,推动了个性化治疗的发展。此外,COSMIC还积极参与国际合作,推动数据共享和标准化,为全球癌症研究社区提供了不可或缺的支持。
发展历程
  • COSMIC(Cancer Genome Interpreter Mutation Annotation and Classification)数据集首次发表,旨在为癌症基因组提供全面的突变注释和分类。
    2000年
  • COSMIC数据集首次应用于癌症基因组学研究,为研究人员提供了详细的突变信息,促进了癌症基因组学的深入研究。
    2005年
  • COSMIC数据集进行了重大更新,增加了更多的癌症样本和突变数据,进一步提升了其在癌症研究中的应用价值。
    2010年
  • COSMIC数据集引入了新的数据分析工具和可视化功能,使得研究人员能够更直观地理解和分析癌症基因组数据。
    2015年
  • COSMIC数据集再次更新,增加了对新兴癌症基因组学技术的支持,如单细胞测序和多组学数据整合,进一步推动了癌症研究的进展。
    2020年
常用场景
经典使用场景
在宇宙学研究领域,COSMIC数据集以其丰富的天体物理数据而著称。该数据集广泛应用于宇宙微波背景辐射(CMB)的分析,通过高精度的温度和极化测量,研究人员能够深入探讨宇宙早期的物理过程。此外,COSMIC数据集还支持星系形成和演化的模拟,为理解宇宙的大尺度结构提供了关键数据。
解决学术问题
COSMIC数据集在解决宇宙学中的多个核心问题方面发挥了重要作用。例如,通过分析CMB数据,研究人员能够精确测量宇宙的几何结构和物质组成,从而验证或修正现有的宇宙学模型。此外,该数据集还为暗物质和暗能量的研究提供了宝贵的观测数据,推动了这些领域的理论和实验进展。
衍生相关工作
基于COSMIC数据集,许多后续研究工作得以开展。例如,研究人员利用该数据集开发了新的数据分析方法,提高了CMB测量的精度和分辨率。此外,COSMIC数据集还激发了多波段观测的整合研究,促进了不同天文观测手段的互补和协同。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录