five

GLUCOBENCH|糖尿病管理数据集|血糖监测数据集

收藏
arXiv2024-10-08 更新2024-10-12 收录
糖尿病管理
血糖监测
下载链接:
https://github.com/IrinaStatsLab/GlucoBench
下载链接
链接失效反馈
资源简介:
GLUCOBENCH是由德克萨斯A&M大学统计系和电气与计算机工程系共同创建的一个综合数据集,旨在为连续血糖监测(CGM)数据的预测模型提供标准化的评估平台。该数据集包含五个公开的CGM数据集,涵盖不同规模和人口特征,数据量从5个到超过200个患者不等。数据集的创建过程包括数据预处理、插值和分割,确保数据质量。GLUCOBENCH主要应用于糖尿病管理领域,旨在通过提高血糖轨迹预测的准确性和不确定性量化,改善糖尿病患者的治疗效果和自主管理能力。
提供机构:
德克萨斯A&M大学
创建时间:
2024-10-08
原始信息汇总

GlucoBench 数据集概述

数据集信息

数据集列表

数据集名称 许可证 患者数量 CGM 频率
Colas Creative Commons 4.0 208 5 分钟
Dubosson Creative Commons 4.0 9 5 分钟
Hall Creative Commons 4.0 57 5 分钟
Broll GPL-2 5 5 分钟
Weinstock Creative Commons 4.0 200 5 分钟

数据处理

  • 数据处理步骤详见 exploratory_analysis/ 文件夹。
  • 处理后的数据应保存在 raw_data/ 文件夹中。
  • 提供 raw_data.zip 文件作为示例。

代码结构

  • bin/: 所有模型的训练命令
  • config/: 所有数据集的配置文件
  • data_formatter/: 数据预处理脚本
  • exploratory_analysis/: 数据处理步骤的 Jupyter 笔记本
  • lib/: 模型实现及相关脚本
  • output/: 超参数优化和测试日志
  • paper_results/: 生成论文中表格和图表的代码
  • utils/: 模型训练和测试的辅助函数
  • raw_data.zip: 网络获取的 CGM 数据
  • environment.yml: conda 环境文件

如何复现结果

环境设置

  1. 创建名为 glucobench 的 Python 3.10 环境。
  2. 激活环境并安装所有依赖项。

配置更改

  • 使用 config/ 文件夹中的配置文件进行模型训练和评估。
  • 修改 ./lib/model.py 文件中的超参数搜索范围。

如何使用仓库

数据处理

  • 使用 DataFormatter 类进行数据预处理。
  • 数据预处理步骤可通过 config/ 文件控制。

与 PyTorch 集成

  • 使用 Darts 库中的 Dataset 类将数据包装为 Dataset
  • 示例代码详见 example.ipynb 笔记本。
AI搜集汇总
数据集介绍
main_image_url
构建方式
GLUCOBENCH数据集的构建方式体现了对连续血糖监测(CGM)数据的高度专业化和系统化处理。该数据集精选了五个公开可用的CGM数据集,这些数据集具有不同的规模和人口统计特征。为了确保数据质量,研究团队采用了严格的数据筛选标准,包括每个数据集至少包含5名受试者的测量数据,且每位受试者至少有16小时的非缺失CGM测量值。此外,数据集中的测量值被限制在临床相关的范围内,避免了剧烈波动和恒定值的情况。通过这种系统化的数据预处理流程,GLUCOBENCH为研究人员提供了一个高质量、多样化的CGM数据资源,从而促进了血糖预测模型的开发和评估。
特点
GLUCOBENCH数据集的显著特点在于其多样性和高质量。首先,数据集包含了来自不同人群和糖尿病类型的CGM数据,这为模型在不同患者群体中的泛化能力提供了测试基础。其次,数据集的构建过程中采用了严格的数据质量控制措施,确保了数据的可靠性和临床相关性。此外,GLUCOBENCH还提供了标准化的任务列表和基准模型,这有助于统一研究目标,促进研究方法的协调和比较。通过这些特点,GLUCOBENCH不仅为血糖预测模型的开发提供了丰富的资源,还为模型的评估和比较提供了标准化的框架。
使用方法
GLUCOBENCH数据集的使用方法涵盖了从数据预处理到模型训练和评估的全过程。首先,研究人员可以通过数据集提供的标准数据预处理流程对原始CGM数据进行处理,以确保数据的一致性和可用性。其次,数据集提供了两个标准化的预测任务,即提高预测准确性和改进预测的不确定性量化,研究人员可以根据这些任务选择合适的模型进行训练。最后,数据集还包含了一系列基准模型的性能评估结果,研究人员可以利用这些基准模型来评估和比较新模型的性能。通过这些步骤,GLUCOBENCH为研究人员提供了一个全面且易于使用的平台,以推动CGM数据驱动的血糖预测研究。
背景与挑战
背景概述
GLUCOBENCH数据集由德克萨斯A&M大学的统计学系和电气与计算机工程系的研究人员创建,旨在应对糖尿病管理中日益增长的需求。该数据集整合了多个公开的连续血糖监测(CGM)数据集,并提供了标准化的预测任务和基准模型,以促进血糖轨迹预测的研究。GLUCOBENCH的核心研究问题是如何基于CGM数据提高血糖预测的准确性和不确定性量化,从而改善糖尿病管理。该数据集的发布旨在解决现有方法在小规模、私有数据集上评估的局限性,推动可重复性和实际应用的研究。
当前挑战
GLUCOBENCH数据集面临的挑战包括:1) 解决血糖预测中的领域问题,如提高预测准确性和不确定性量化;2) 在构建过程中遇到的挑战,如数据集的多样性和质量控制。此外,数据集的构建还需要解决数据隐私和患者信息保护的问题。为了应对这些挑战,GLUCOBENCH提供了一个综合资源,包括公开的CGM数据集、标准化的任务列表、基准模型和性能影响因素的详细分析。
常用场景
经典使用场景
GLUCOBENCH数据集的经典使用场景主要集中在连续血糖监测(CGM)数据的预测任务上。该数据集通过整合多个公开的CGM数据集,为研究人员提供了一个标准化的评估平台。研究者可以利用这些数据集来训练和验证血糖轨迹预测模型,从而提高糖尿病管理的效率。
衍生相关工作
GLUCOBENCH数据集的发布催生了一系列相关的经典工作,包括对不同深度学习模型(如Transformer、NHiTS、TFT和Gluformer)在血糖预测任务中的性能评估。此外,该数据集还推动了对模型不确定性和校准误差的研究,以及对影响模型性能因素的详细分析。
数据集最近研究
最新研究方向
在糖尿病管理领域,GLUCOBENCH数据集的最新研究方向主要集中在通过连续血糖监测(CGM)数据进行血糖轨迹预测。该研究旨在通过整合公开的CGM数据集,建立标准化的预测任务和基准模型,以促进研究的再现性和可访问性。前沿研究不仅关注预测模型的准确性,还强调了不确定性量化(分布拟合)的重要性,以提高预测结果的可靠性和临床实用性。此外,研究还探讨了数据集大小、患者群体构成、测试分割(如分布内和分布外测试集、白天和夜间预测)以及协变量可用性对模型性能的影响,为个性化血糖预测提供了深入的分析和指导。
相关研究论文
  • 1
    GlucoBench: Curated List of Continuous Glucose Monitoring Datasets with Prediction Benchmarks德克萨斯A&M大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国250米灌溉耕地分布数据集(2000-2020)

灌溉耕地分布是开展生态、水文和气候研究的关键数据,并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型,融合多源遥感数据(包括耕地分布、植被指数、水稻田分布)、灌溉统计和调查数据,以及灌溉适宜性分析,生成了中国逐年、250米灌溉耕地分布图(CIrrMap250)。利用2万个参考样本和高分辨率灌溉取水数据,对灌溉耕地分布数据的精度进行评估。结果显示,CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88,优于现有的同类产品。

国家青藏高原科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录