five

Human Protein Atlas|蛋白质组学数据集|生物医学数据集

收藏
www.proteinatlas.org2024-10-23 收录
蛋白质组学
生物医学
下载链接:
https://www.proteinatlas.org/
下载链接
链接失效反馈
资源简介:
Human Protein Atlas数据集包含了人类蛋白质的详细信息,包括蛋白质在不同组织和细胞类型中的表达模式、亚细胞定位、蛋白质相互作用等。该数据集还提供了大量的图像数据,展示了蛋白质在组织切片中的定位。
提供机构:
www.proteinatlas.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
Human Protein Atlas数据集的构建基于大规模的蛋白质组学研究,通过整合多种高通量技术,如免疫组织化学、RNA测序和质谱分析,系统性地描绘了人类蛋白质在不同组织和细胞类型中的表达模式。该数据集的构建过程涉及对数千种蛋白质的详细分析,确保了数据的全面性和准确性。
特点
Human Protein Atlas数据集以其高分辨率和多维度特性著称,涵盖了蛋白质在不同生理和病理状态下的表达情况。该数据集不仅提供了蛋白质的组织特异性表达数据,还包括了其在细胞亚结构中的定位信息,为研究蛋白质功能和相互作用提供了丰富的资源。
使用方法
Human Protein Atlas数据集可广泛应用于生物医学研究,支持蛋白质功能预测、疾病机制解析和药物靶点发现。研究人员可以通过数据集中的详细信息,进行蛋白质表达模式的比较分析,识别潜在的生物标志物和治疗靶点。此外,该数据集还支持机器学习和人工智能算法,以提升蛋白质组学研究的深度和广度。
背景与挑战
背景概述
Human Protein Atlas(HPA)数据集由瑞典的Human Protein Atlas项目团队于2003年启动,旨在通过大规模的蛋白质表达图谱研究,全面解析人类基因组编码的蛋白质在不同细胞类型和组织中的表达模式。该项目由瑞典皇家理工学院、斯德哥尔摩大学和卡罗林斯卡学院等机构合作完成,其核心目标是提供一个详尽的蛋白质表达数据库,以支持生物医学研究和疾病诊断。HPA数据集的构建不仅推动了蛋白质组学领域的发展,还为个性化医疗和药物研发提供了宝贵的资源。
当前挑战
HPA数据集在构建过程中面临诸多挑战。首先,数据集需要涵盖多种细胞类型和组织,这要求高精度的图像采集和分析技术。其次,蛋白质在不同生理和病理状态下的表达差异巨大,如何准确区分这些差异是一个技术难题。此外,数据集的更新和维护需要持续的资金和技术支持,以确保数据的时效性和准确性。最后,数据集的开放性和可访问性也是一个重要挑战,确保全球科研人员能够高效利用这些数据进行研究。
发展历史
创建时间与更新
Human Protein Atlas数据集由瑞典皇家理工学院于2003年创建,旨在通过大规模的蛋白质表达分析来揭示人类蛋白质的功能和定位。该数据集自创建以来,持续进行更新和扩展,最近一次重大更新发生在2021年,引入了新的数据分析工具和更全面的蛋白质表达图谱。
重要里程碑
Human Protein Atlas数据集的重要里程碑包括2008年首次发布的全基因组蛋白质表达图谱,这一成果极大地推动了蛋白质组学研究的发展。2014年,该数据集引入了单细胞分辨率的蛋白质表达数据,为细胞生物学研究提供了新的视角。2018年,Human Protein Atlas与多个国际研究机构合作,发布了全球首个基于人工智能的蛋白质功能预测模型,显著提升了数据集的应用价值。
当前发展情况
当前,Human Protein Atlas数据集已成为全球生物医学研究的重要资源,涵盖了超过20,000种人类蛋白质的详细表达信息。该数据集不仅支持基础科学研究,还为药物开发和精准医学提供了关键数据支持。通过持续的技术创新和国际合作,Human Protein Atlas数据集正在不断扩展其数据覆盖范围和分析深度,预计未来将在揭示人类疾病机制和开发新型治疗策略方面发挥更大作用。
发展历程
  • Human Protein Atlas项目正式启动,旨在通过系统性研究人类蛋白质的表达模式和功能,构建一个全面的人类蛋白质图谱。
    2003年
  • 首次发表了Human Protein Atlas的初步数据,展示了人类蛋白质在不同组织和细胞类型中的表达情况。
    2005年
  • Human Protein Atlas数据库正式上线,提供在线访问和数据下载服务,标志着该数据集的公开应用。
    2008年
  • 发布了Human Protein Atlas的第二版,增加了对单细胞水平蛋白质表达的研究,并扩展了数据集的覆盖范围。
    2014年
  • Human Protein Atlas发布了第三版,引入了新的数据分析工具和可视化功能,进一步提升了数据集的应用价值。
    2019年
  • Human Protein Atlas项目团队宣布启动新的研究计划,旨在整合多组学数据,构建更为全面和精准的人类蛋白质图谱。
    2021年
常用场景
经典使用场景
在生物医学领域,Human Protein Atlas数据集被广泛用于蛋白质表达和定位的研究。该数据集通过整合多种实验技术,如免疫组织化学、RNA测序和质谱分析,提供了人体内蛋白质在不同组织和细胞类型中的详细表达图谱。这一全面的蛋白质数据库使得研究人员能够深入探索蛋白质的功能和其在疾病中的作用,从而为精准医学和药物开发提供重要依据。
解决学术问题
Human Protein Atlas数据集解决了生物医学研究中关于蛋白质表达和功能的基础问题。通过提供高分辨率的蛋白质定位和表达数据,该数据集帮助研究人员揭示了蛋白质在细胞和组织中的复杂调控机制。此外,它还为疾病相关的蛋白质研究提供了宝贵的资源,有助于识别潜在的生物标志物和治疗靶点,推动了个性化医疗的发展。
衍生相关工作
基于Human Protein Atlas数据集,许多后续研究工作得以开展。例如,一些研究团队利用该数据集开发了新的生物信息学工具,用于蛋白质表达数据的分析和可视化。此外,还有研究通过整合Human Protein Atlas数据与其他基因组学数据,构建了更为全面的生物网络模型,揭示了蛋白质间的相互作用和调控关系。这些衍生工作进一步丰富了我们对蛋白质功能和生物系统的理解。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录