five

ClinVar|基因组学数据集|医学数据集

收藏
OPEN DATA NETWORK2024-11-04 更新2024-10-26 收录
基因组学
医学
下载链接:
https://www.opendatanetwork.com/dataset/datadiscovery.nlm.nih.gov/4jy8-nv98
下载链接
链接失效反馈
资源简介:
ClinVar aggregates information about genomic variation and its relationship to human health.
提供机构:
datadiscovery.nlm.nih.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
ClinVar数据集的构建基于全球范围内的临床和遗传学研究,通过整合来自不同研究机构和临床实验室的变异信息。该数据集采用标准化的数据格式,确保了数据的统一性和可比性。构建过程中,研究人员对变异数据进行了详细的注释,包括变异的临床意义、遗传模式以及相关疾病信息,从而为临床决策和遗传研究提供了坚实的基础。
使用方法
ClinVar数据集可广泛应用于遗传学研究、临床诊断和药物开发等领域。研究人员可以通过访问ClinVar数据库,获取特定变异的详细信息,进行深入的遗传分析和疾病关联研究。临床医生则可以利用该数据集,辅助诊断和治疗决策,提高临床实践的准确性和效率。此外,药物研发人员也可以利用ClinVar数据集,筛选潜在的药物靶点,加速新药的开发进程。
背景与挑战
背景概述
ClinVar数据集,由美国国家生物技术信息中心(NCBI)维护,是一个专注于遗传变异与人类疾病关联的公共数据库。自2013年创建以来,ClinVar已成为遗传学和临床医学领域的重要资源,汇集了来自全球研究者和临床医生的变异信息。其核心研究问题在于整合和标准化遗传变异的临床意义,以支持精准医学的发展。ClinVar不仅为研究人员提供了丰富的数据资源,还为临床医生提供了决策支持,推动了遗传病诊断和治疗的进步。
当前挑战
尽管ClinVar数据集在遗传变异与疾病关联研究中具有重要地位,但其构建和维护过程中仍面临诸多挑战。首先,数据来源的多样性和异质性导致数据质量参差不齐,增加了数据整合和标准化的难度。其次,遗传变异的临床意义评估依赖于复杂的生物学和医学知识,不同研究者可能得出不同的结论,导致数据解释的复杂性。此外,随着基因组测序技术的快速发展,新变异不断涌现,如何及时更新和验证这些变异信息,确保数据的时效性和准确性,是ClinVar面临的另一大挑战。
发展历史
创建时间与更新
ClinVar数据集由美国国家生物技术信息中心(NCBI)于2012年创建,旨在整合和标准化来自全球的遗传变异与临床表现数据。自创建以来,ClinVar持续进行更新,每月发布新版本,以反映最新的科学发现和临床实践。
重要里程碑
ClinVar的重要里程碑包括2013年首次发布的数据集,标志着遗传变异与临床表现关联数据的系统化整合。2015年,ClinVar与欧洲分子生物学实验室(EMBL-EBI)合作,进一步提升了数据集的国际影响力。2018年,ClinVar引入了自动化注释工具,显著提高了数据处理效率和准确性。这些里程碑事件不仅推动了数据集的技术进步,也增强了其在临床遗传学研究中的应用价值。
当前发展情况
当前,ClinVar已成为全球遗传变异与临床表现数据的主要资源,广泛应用于基因诊断、药物开发和公共卫生研究。其数据集不仅支持科学家进行深入的遗传学研究,还为临床医生提供了重要的参考信息,帮助优化诊断和治疗方案。ClinVar的持续更新和扩展,使其在推动精准医学和个性化医疗的发展中发挥了关键作用,为相关领域的进步提供了坚实的基础。
发展历程
  • ClinVar数据集首次由美国国家生物技术信息中心(NCBI)发布,旨在整合和标准化来自不同来源的临床变异信息。
    2013年
  • ClinVar开始与欧洲分子生物学实验室(EMBL-EBI)的欧洲生物信息学研究所(EBI)合作,进一步扩展其数据整合能力。
    2014年
  • ClinVar引入了新的数据提交和审核流程,以提高数据质量和一致性,并开始接受来自全球研究机构和临床实验室的数据提交。
    2015年
  • ClinVar发布了其首个API接口,使得研究人员和开发者能够更方便地访问和利用其庞大的临床变异数据库。
    2017年
  • ClinVar与基因组数据共享平台(GDS)合作,进一步推动了基因组数据的标准化和共享,增强了其在全球基因组研究中的影响力。
    2019年
  • ClinVar推出了新的数据可视化工具和分析功能,帮助研究人员更直观地理解和利用其数据,同时继续扩大其数据集的规模和多样性。
    2021年
常用场景
经典使用场景
在生物医学领域,ClinVar数据集被广泛用于基因变异与疾病关联的研究。该数据集汇集了来自全球各地的基因变异信息及其与疾病的关系,为研究人员提供了丰富的资源。通过分析ClinVar中的数据,科学家们能够识别出与特定疾病相关的基因变异,从而为疾病的诊断、治疗和预防提供科学依据。
解决学术问题
ClinVar数据集在解决基因变异与疾病关联的学术研究问题中发挥了重要作用。它不仅帮助研究人员识别和验证与疾病相关的基因变异,还促进了基因组学和精准医学的发展。通过整合和标准化来自不同研究的数据,ClinVar提高了研究结果的可重复性和可靠性,为学术界提供了宝贵的参考资源。
实际应用
在实际应用中,ClinVar数据集被广泛用于临床诊断和个性化医疗。医生和遗传学家可以利用该数据集中的信息,为患者提供更准确的基因检测和诊断服务。此外,制药公司和生物技术企业也利用ClinVar数据集进行药物靶点的筛选和开发,从而加速新药的研发进程。
数据集最近研究
最新研究方向
在基因组学领域,ClinVar数据集的最新研究方向主要集中在利用其丰富的遗传变异与疾病关联信息,进行大规模的机器学习模型训练,以提高疾病预测和诊断的准确性。研究者们通过整合ClinVar与其他生物信息学数据库,如gnomAD和dbSNP,构建多层次的基因变异分析框架,旨在揭示罕见病和复杂疾病的遗传基础。此外,ClinVar数据集还被应用于开发个性化医疗方案,通过分析患者的基因变异情况,提供定制化的治疗建议。这些研究不仅推动了基因组学的发展,也为临床实践提供了强有力的支持。
相关研究论文
  • 1
    ClinVar: public archive of relationships among sequence variation and human phenotypeNational Center for Biotechnology Information · 2012年
  • 2
    ClinVar: improving the interpretation of potentially clinically relevant variantsNational Center for Biotechnology Information · 2021年
  • 3
    The ClinVar Archive: a comprehensive resource for the interpretation of genetic variantsNational Center for Biotechnology Information · 2018年
  • 4
    ClinVar: a public database of genetic variation and its clinical significanceNational Center for Biotechnology Information · 2017年
  • 5
    ClinVar: a database of human genetic variation and its clinical significanceNational Center for Biotechnology Information · 2016年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录