Diabetes Dataset|糖尿病研究数据集|预测模型数据集

github2022-11-30 更新2024-05-31 收录

糖尿病研究

预测模型

下载链接：

https://github.com/SerdarTafrali/Machine_Learning_Pipeline_on_Diabetes_Dataset

下载链接

链接失效反馈

资源简介：

该数据集是美国国家糖尿病-消化-肾脏疾病研究所持有的一个大型数据集的一部分，用于研究居住在亚利桑那州凤凰城的21岁以上Pima印第安女性的糖尿病情况。数据集包含768个观测值和8个数值型自变量，目标变量为outcome，1表示糖尿病检测结果阳性，0表示阴性。

This dataset is a subset of a larger dataset held by the National Institute of Diabetes and Digestive and Kidney Diseases, used to study diabetes among Pima Indian women aged 21 and above residing in Phoenix, Arizona. The dataset comprises 768 observations and 8 numerical independent variables, with the target variable being 'outcome', where 1 indicates a positive diabetes test result and 0 indicates a negative result.

创建时间：

2022-11-22

原始信息汇总

数据集概述

业务问题

开发一个机器学习模型，用于预测当指定人群的特征时，他们是否患有糖尿病。

数据集故事

数据集来源于美国国家糖尿病-消化-肾脏疾病研究所。
数据用于研究居住在亚利桑那州凤凰城的21岁以上Pima印第安女性的糖尿病情况。
数据集包含768个观察值和8个数值型自变量。
目标变量为“outcome”，其中1表示糖尿病检测结果为阳性，0表示阴性。

变量描述

Pregnancies: 怀孕次数
Glucose: 血糖水平
BloodPressure: 血压
SkinThickness: 皮肤厚度
Insulin: 胰岛素水平
BMI: 身体质量指数
DiabetesPedigreeFunction: 基于家族病史计算糖尿病概率的函数
Age: 年龄（岁）
Outcome: 是否患有糖尿病，1表示有，0表示无

项目阶段

探索性数据分析
数据预处理
模型与预测
模型评估
模型验证：保留法
模型验证：10折交叉验证
对新观察值的预测

AI搜集汇总

数据集介绍

构建方式

糖尿病数据集（Diabetes Dataset）源自美国国家糖尿病-消化-肾脏疾病研究所的大型数据集，专门针对居住在亚利桑那州凤凰城的21岁及以上皮马印第安女性进行糖尿病研究。该数据集包含768个观测值和8个数值型自变量，旨在通过这些特征预测个体是否患有糖尿病。数据集的构建基于详细的医学记录，涵盖了多个关键健康指标，如妊娠次数、血糖水平、血压、皮肤厚度、胰岛素水平、BMI指数、糖尿病家族史函数以及年龄。目标变量‘outcome’用于标识个体是否患有糖尿病，其中1表示阳性结果，0表示阴性结果。

使用方法

糖尿病数据集适用于多种机器学习任务，特别是二分类问题，旨在预测个体是否患有糖尿病。使用该数据集时，首先需进行探索性数据分析（EDA），以了解数据的分布和特征。随后，进行数据预处理，包括缺失值处理、特征标准化等。接着，可以选择合适的机器学习模型进行训练和预测，如逻辑回归、随机森林等。模型评估可采用多种方法，如Holdout验证和10折交叉验证，以确保模型的泛化能力。最后，可利用训练好的模型对新观测数据进行预测，评估其在实际应用中的表现。

背景与挑战

背景概述

糖尿病数据集（Diabetes Dataset）源自美国国家糖尿病-消化-肾脏疾病研究所（National Institutes of Diabetes-Digestive-Kidney Diseases），专门用于研究21岁及以上居住在亚利桑那州凤凰城的Pima印第安女性的糖尿病情况。该数据集包含768个观测值和8个数值型自变量，目标变量为‘outcome’，用于指示糖尿病检测结果，其中1表示阳性，0表示阴性。这一数据集的创建旨在支持机器学习模型的发展，以预测在特定特征下个体是否患有糖尿病，从而为糖尿病的早期诊断和预防提供科学依据。

当前挑战

糖尿病数据集在构建和应用过程中面临多项挑战。首先，数据集的样本量相对有限，仅包含768个观测值，可能影响模型的泛化能力。其次，数据集中存在缺失值和潜在的噪声，需通过数据预处理技术进行清洗和填补，以确保模型的准确性。此外，糖尿病的预测涉及多个复杂的生物医学变量，如血糖、血压和胰岛素水平等，这些变量之间的相互作用增加了模型构建的复杂性。最后，如何在实际应用中验证模型的有效性，尤其是通过交叉验证等方法，也是该数据集面临的重要挑战。

常用场景

经典使用场景

糖尿病数据集（Diabetes Dataset）在医疗健康领域中被广泛应用于糖尿病预测模型的开发。通过分析患者的多个生理指标，如血糖、血压、BMI等，该数据集能够帮助研究人员构建高效的机器学习模型，从而预测个体是否患有糖尿病。这一经典场景不仅为医疗诊断提供了数据支持，还为个性化医疗方案的制定奠定了基础。

解决学术问题

该数据集解决了糖尿病预测中的关键学术问题，特别是在数据驱动的医疗诊断领域。通过提供丰富的生理数据和明确的分类标签，它为研究人员提供了一个标准化的基准，用于评估和比较不同机器学习算法的性能。这不仅推动了糖尿病预测模型的研究进展，还为其他慢性疾病的预测研究提供了参考。

实际应用

在实际应用中，糖尿病数据集被广泛用于开发自动化诊断工具和健康管理系统。例如，医疗机构可以利用基于该数据集训练的模型，快速筛查高风险患者，从而实现早期干预和治疗。此外，健康科技公司也可以将其应用于智能穿戴设备，实时监测用户的健康状况，提供个性化的健康建议。

数据集最近研究

最新研究方向

在糖尿病研究领域，Diabetes Dataset因其丰富的临床数据和明确的预测目标，成为机器学习模型开发的重要资源。最新研究方向主要集中在利用深度学习和集成学习方法，提升糖尿病早期诊断的准确性和鲁棒性。此外，随着可解释性人工智能（XAI）的兴起，研究者们致力于开发能够解释模型决策过程的算法，以增强医疗从业者对模型预测结果的信任。这些研究不仅推动了糖尿病个性化治疗的发展，也为全球范围内的糖尿病防控策略提供了科学依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录