five

CEHR-BERT 数据集|电子健康记录数据集|时间序列分析数据集

收藏
github2024-09-25 更新2024-09-27 收录
电子健康记录
时间序列分析
下载链接:
https://github.com/knatarajan-lab/cehrbert_data
下载链接
链接失效反馈
资源简介:
CEHR-BERT 数据集是为结构化电子健康记录(EHR)数据开发的预训练和微调数据集。该数据集通过聚合和按时间顺序构建患者的所有医疗代码,并插入人工时间标记(ATT)来表示访问之间的时间间隔。此外,还添加了特殊标记(VS 和 VE)来表示访问的开始和结束。
创建时间:
2024-09-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建CEHR-BERT数据集时,研究者们采用了精细的ETL工具,将结构化的电子健康记录(EHR)数据转化为适用于预训练和微调的数据集。具体而言,每个患者的所有医疗代码被按时间顺序聚合,并构建为序列。为捕捉时间信息,研究者在相邻的两次就诊之间插入了人工时间标记(ATT),根据时间间隔的不同,ATT的形式分为周(W_n)、月(M_n)和长期(LT)三种。此外,还引入了VS和VE标记,分别表示就诊的开始和结束,以明确界定就诊段落。
特点
CEHR-BERT数据集的显著特点在于其对时间信息的精细处理和结构化数据的完整保留。通过引入人工时间标记和就诊边界标记,数据集不仅能够捕捉到患者就诊的时间间隔,还能明确区分每次就诊的边界,从而为模型提供了更为丰富的上下文信息。此外,数据集的构建过程中还考虑了不同时间间隔的分类,使得模型能够更好地理解和利用时间序列数据。
使用方法
使用CEHR-BERT数据集时,首先需下载OMOP表并将其转换为parquet文件格式。随后,通过调整db_properties.ini文件中的属性以匹配数据库设置,用户可以生成训练数据。具体操作包括使用spark-submit命令运行相应的Python脚本,生成包含VS、VE和ATT标记的序列数据。此外,数据集还提供了预先生成的样本数据,方便用户进行测试和验证。
背景与挑战
背景概述
CEHR-BERT数据集是由Chao Pang等研究人员在2021年创建的,旨在通过整合结构化电子健康记录(EHR)中的时间信息,提升预测任务的性能。该数据集的核心研究问题是如何有效地将时间序列信息嵌入到语言模型中,以增强其在医疗数据处理中的应用。CEHR-BERT的开发不仅推动了医疗数据分析领域的发展,还为基于EHR的预测模型提供了新的方法论。
当前挑战
CEHR-BERT数据集在构建过程中面临多项挑战。首先,如何准确地从结构化EHR数据中提取和表示时间信息是一个关键问题。其次,在生成训练数据时,如何合理地插入人工时间标记(ATT)以反映访问之间的时间间隔,确保模型能够捕捉到时间依赖性。此外,数据集的构建还需要处理大规模数据的高效处理和存储问题,以及确保数据的质量和一致性。
常用场景
经典使用场景
CEHR-BERT数据集的经典使用场景在于其能够处理结构化的电子健康记录(EHR)数据,通过引入人工时间令牌(ATT)和访问开始/结束令牌(VS/VE),将患者的医疗代码按时间顺序聚合,形成一个序列。这种序列化的处理方式使得BERT模型能够直接应用于EHR数据,从而在医疗预测任务中展现出卓越的性能。
实际应用
在实际应用中,CEHR-BERT数据集被广泛用于预测患者的再入院风险、疾病进展和治疗效果评估等任务。通过将EHR数据转化为序列化形式,该数据集支持了多种医疗预测模型的训练,从而在临床决策支持系统中发挥了重要作用,提高了医疗服务的效率和质量。
衍生相关工作
基于CEHR-BERT数据集,研究者们开发了多种衍生工作,如改进的医疗预测模型、时间序列分析方法和个性化医疗推荐系统。这些工作不仅扩展了CEHR-BERT的应用范围,还进一步验证了其在处理复杂医疗数据方面的有效性,为医疗领域的智能化发展提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录