GLUCOBENCH|糖尿病管理数据集|血糖监测数据集
收藏GlucoBench 数据集概述
数据集信息
数据集列表
数据集名称 | 许可证 | 患者数量 | CGM 频率 |
---|---|---|---|
Colas | Creative Commons 4.0 | 208 | 5 分钟 |
Dubosson | Creative Commons 4.0 | 9 | 5 分钟 |
Hall | Creative Commons 4.0 | 57 | 5 分钟 |
Broll | GPL-2 | 5 | 5 分钟 |
Weinstock | Creative Commons 4.0 | 200 | 5 分钟 |
数据处理
- 数据处理步骤详见
exploratory_analysis/
文件夹。 - 处理后的数据应保存在
raw_data/
文件夹中。 - 提供
raw_data.zip
文件作为示例。
代码结构
bin/
: 所有模型的训练命令config/
: 所有数据集的配置文件data_formatter/
: 数据预处理脚本exploratory_analysis/
: 数据处理步骤的 Jupyter 笔记本lib/
: 模型实现及相关脚本output/
: 超参数优化和测试日志paper_results/
: 生成论文中表格和图表的代码utils/
: 模型训练和测试的辅助函数raw_data.zip
: 网络获取的 CGM 数据environment.yml
: conda 环境文件
如何复现结果
环境设置
- 创建名为
glucobench
的 Python 3.10 环境。 - 激活环境并安装所有依赖项。
配置更改
- 使用
config/
文件夹中的配置文件进行模型训练和评估。 - 修改
./lib/model.py
文件中的超参数搜索范围。
如何使用仓库
数据处理
- 使用
DataFormatter
类进行数据预处理。 - 数据预处理步骤可通过
config/
文件控制。
与 PyTorch 集成
- 使用
Darts
库中的Dataset
类将数据包装为Dataset
。 - 示例代码详见
example.ipynb
笔记本。

- 1GlucoBench: Curated List of Continuous Glucose Monitoring Datasets with Prediction Benchmarks德克萨斯A&M大学 · 2024年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
中国250米灌溉耕地分布数据集(2000-2020)
灌溉耕地分布是开展生态、水文和气候研究的关键数据,并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型,融合多源遥感数据(包括耕地分布、植被指数、水稻田分布)、灌溉统计和调查数据,以及灌溉适宜性分析,生成了中国逐年、250米灌溉耕地分布图(CIrrMap250)。利用2万个参考样本和高分辨率灌溉取水数据,对灌溉耕地分布数据的精度进行评估。结果显示,CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88,优于现有的同类产品。
国家青藏高原科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录