The National Center for Biotechnology Information (NCBI) GenBank|基因组学数据集|生物信息学数据集
收藏
- NCBI GenBank首次发布,作为美国国家卫生研究院(NIH)的一部分,旨在存储和提供生物序列数据。
- GenBank与欧洲分子生物学实验室(EMBL)和日本DNA数据库(DDBJ)建立合作关系,形成国际核苷酸序列数据库合作(INSDC)。
- GenBank引入BLAST(Basic Local Alignment Search Tool)工具,显著提升了序列比对和搜索的效率。
- GenBank开始支持大规模基因组测序项目,如人类基因组计划,极大地扩展了其数据存储和分析能力。
- GenBank发布其首个完整的人类基因组序列草图,标志着基因组学研究的重要里程碑。
- GenBank引入序列注释和元数据的标准化框架,提高了数据质量和互操作性。
- GenBank开始支持下一代测序技术,进一步扩展其数据类型和容量。
- GenBank推出其云服务,提供更高效的数据访问和分析工具。
- GenBank发布COVID-19病毒基因组序列,支持全球抗击疫情的研究和开发。
- 1GenBankNational Center for Biotechnology Information (NCBI) · 2005年
- 2The Universal Protein Resource (UniProt) in 2010European Bioinformatics Institute · 2010年
- 3The Gene Ontology resource: 20 years and still GOing strongGene Ontology Consortium · 2019年
- 4The Sequence Read ArchiveNational Center for Biotechnology Information (NCBI) · 2011年
- 5The European Nucleotide Archive in 2017European Molecular Biology Laboratory · 2017年
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
WildlifeReID-10k
WildlifeReID-10k是由西波希米亚大学等机构创建的一个大型野生动物再识别数据集,包含超过214,000张图片,涵盖10,344个不同个体的野生动物。数据集内容丰富,包括海洋龟、灵长类、鸟类、非洲食草动物、海洋哺乳动物和家畜等多种动物。创建过程中,研究者们对30个现有数据集进行了整合和处理,确保数据集的质量和可用性。该数据集主要用于野生动物的个体识别,有助于疾病监测、生态系统研究、入侵物种监控及人类对动物栖息地的影响评估等领域。
arXiv 收录