Swedish Twin Registry|遗传学数据集|健康研究数据集
收藏
- 瑞典双胞胎登记处(Swedish Twin Registry)由瑞典卡罗林斯卡学院的赫尔曼·卡尔森教授创立,旨在研究遗传和环境因素对人类特征和疾病的影响。
- 登记处开始收集详细的生物统计数据,包括双胞胎的出生记录、健康状况和生活方式信息。
- 首次发表关于双胞胎登记处数据的研究成果,揭示了遗传和环境因素在多种疾病中的作用。
- 登记处扩展了数据收集范围,包括基因型数据和更详细的环境暴露信息。
- 瑞典双胞胎登记处的数据被广泛应用于国际合作研究项目,推动了遗传流行病学的发展。
- 登记处引入了先进的生物信息学工具,提高了数据分析的效率和准确性。
- 瑞典双胞胎登记处继续作为全球领先的遗传和环境研究资源,支持多项前沿科学研究。
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录