Diabetes Binary Health Indicators BRFSS2015|糖尿病数据集|机器学习数据集

github2024-08-08 更新2024-08-09 收录

糖尿病

机器学习

下载链接：

https://github.com/anaskanafani/diabetes-detection

下载链接

链接失效反馈

资源简介：

该数据集包含多种与健康相关的特征和一个二元目标变量，用于指示糖尿病的存在与否。数据集来源于CDC，用于构建机器学习模型以分类个体是否患有糖尿病。

创建时间：

2024-07-22

原始信息汇总

糖尿病二元分类项目文档

简介

本项目旨在基于多种健康指标构建机器学习模型，对个体进行糖尿病与否的分类。使用的数据集是“Diabetes Binary Health Indicators BRFSS 2015”，来自美国疾病控制与预防中心（CDC）。

数据集加载

数据集通过以下代码加载： python df = pd.read_csv("diabetes_binary_health_indicators_BRFSS2015.csv")

数据探索

概况报告

生成的概况报告提供了数据集的全面概览，包括分布、缺失值、相关性等： python profile = ProfileReport(df, title="Profiling Report") profile.to_file("analysis_report.html")

基本探索

基本探索包括数据集的前几行、列信息、统计摘要、信息概览、缺失值、重复行和唯一值数量以及相关性矩阵： python print("First few rows of the dataset:") df.head()

print("Columns in the dataset:") df.columns

print("Statistical summary of the dataset:") df.describe().T

print("Information about the dataset:") df.info()

print("Number of missing values in each column:") df.isnull().sum()

print("Number of duplicated rows in the dataset:") df.duplicated().sum()

print("Number of unique values in each column:") df.nunique()

print("Correlation matrix:") df.corr(numeric_only=True)

可视化探索

可视化探索包括相关性热图、糖尿病二元分类的类分布图以及与糖尿病二元分类的相关性图： python plt.figure(figsize=(16,10)) sns.heatmap(df.corr(), annot=True) plt.show()

sns.countplot(x=Diabetes_binary, data=df) plt.title("Class Distribution of Diabetes_binary") plt.show()

plt.figure(figsize=(12, 8)) df.corr()[Diabetes_binary].sort_values().plot(kind=bar) plt.title(Correlation with Diabetes_binary) plt.show()

数据预处理

处理缺失值和重复行

数据集不含缺失值，但有重复行需要处理。

数据分割

数据集被分割为训练集和测试集： python X = df.drop(columns=Diabetes_binary) y = df[Diabetes_binary] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

数据缩放

使用多种缩放器处理数据：

StandardScaler
MinMaxScaler
RobustScaler

处理不平衡数据

使用SMOTE处理不平衡数据： python smote = SMOTE(random_state=42) X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

模型构建

构建了多种分类模型，包括：

Logistic Regression
RandomForestClassifier
GradientBoostingClassifier
KNeighborsClassifier
GaussianNB
DecisionTreeClassifier
XGBClassifier
CatBoostClassifier

示例管道与逻辑回归

python pipeline = Pipeline([ (scaler, StandardScaler()), (classifier, RandomForestClassifier()) ])

param_grid = { classifier__C: [0.1, 1, 10], classifier__penalty: [l2] }

grid_search = GridSearchCV(pipeline, param_grid, cv=5) grid_search.fit(X_train_res, y_train_res)

模型评估

模型评估使用以下指标：

准确率
精确度
召回率
F1分数

示例评估代码

python from sklearn.metrics import classification_report, confusion_matrix y_pred = grid_search.predict(X_test) print(classification_report(y_test, y_pred)) print(confusion_matrix(y_test, y_pred))

发现与学习

数据质量： 数据集包含大量重复行，需要移除。
特征重要性： 某些特征如BMI、HighBP和Age与糖尿病有较高相关性。
类别不平衡： 目标变量不平衡，需要使用SMOTE等技术处理。
模型性能： 集成模型如随机森林和梯度提升表现优于简单模型如逻辑回归和朴素贝叶斯。
超参数调优： GridSearchCV有效调优超参数，提升模型性能。

结论

本项目成功使用多种机器学习模型对个体进行糖尿病与否的分类。集成方法表现最佳，处理类别不平衡对提升模型性能至关重要。

AI搜集汇总

数据集介绍

构建方式

该数据集源自美国疾病控制与预防中心（CDC）的2015年行为风险因素监测系统（BRFSS），旨在通过多种健康指标对个体进行二元分类，以区分糖尿病患者与非糖尿病患者。数据集的构建基于大规模的问卷调查，涵盖了广泛的年龄、性别、体重指数（BMI）、血压等健康相关变量。通过系统化的数据收集与整理，确保了数据的高质量和代表性，为后续的机器学习模型训练提供了坚实的基础。

特点

该数据集的显著特点在于其丰富的健康指标和二元分类目标，这使得它成为糖尿病预测研究的理想选择。数据集包含了多个与糖尿病风险密切相关的特征，如BMI、高血压、年龄等，这些特征的高相关性为模型的准确性提供了保障。此外，数据集的规模和多样性确保了模型的泛化能力，使其在实际应用中具有较高的可靠性。

使用方法

使用该数据集进行糖尿病预测模型的构建时，首先需加载数据集并进行初步的数据探索，包括生成概要报告和基础统计分析。随后，通过数据预处理步骤，如处理缺失值、分割数据集、标准化处理和处理类别不平衡问题，确保数据的质量和适用性。最后，利用多种机器学习模型，如随机森林、梯度提升树等，进行模型构建和评估，以实现对糖尿病的准确分类。

背景与挑战

背景概述

糖尿病作为一种全球性的慢性疾病，其早期诊断和预防具有重要意义。Diabetes Binary Health Indicators BRFSS2015数据集由美国疾病控制与预防中心（CDC）创建，旨在通过机器学习模型对个体进行糖尿病与非糖尿病的分类。该数据集基于2015年的行为风险因素监测系统（BRFSS），汇集了多种健康指标，如血压、体重指数（BMI）和年龄等，以支持糖尿病的早期预测和风险评估。这一数据集的开发不仅为糖尿病研究提供了丰富的数据资源，还推动了健康监测和预防策略的发展。

当前挑战

尽管Diabetes Binary Health Indicators BRFSS2015数据集在糖尿病分类研究中具有重要价值，但其构建和应用过程中仍面临若干挑战。首先，数据集存在显著的类别不平衡问题，糖尿病患者样本相对较少，这要求采用如SMOTE等技术来平衡数据。其次，数据集中包含大量重复行，需进行预处理以确保数据质量。此外，特征选择和模型优化也是关键挑战，需通过如GridSearchCV等方法进行超参数调优，以提升模型的分类性能。

常用场景

经典使用场景

在糖尿病研究领域，Diabetes Binary Health Indicators BRFSS2015数据集的经典使用场景主要集中在构建和评估机器学习模型，以准确分类个体是否患有糖尿病。通过分析数据集中的健康指标，如BMI、高血压和年龄等，研究者能够开发出高效的分类模型，从而在糖尿病早期诊断和预防中发挥重要作用。

解决学术问题

该数据集解决了糖尿病研究中的关键学术问题，包括但不限于糖尿病的早期检测、风险因素的识别以及分类模型的优化。通过提供丰富的健康指标数据，研究者能够深入探讨各因素与糖尿病之间的关联，推动了糖尿病预测和预防领域的研究进展。

衍生相关工作

基于Diabetes Binary Health Indicators BRFSS2015数据集，研究者们开发了多种相关的经典工作，包括但不限于改进的分类算法、特征选择方法和模型优化技术。这些工作不仅提升了糖尿病预测的准确性，还为其他慢性疾病的预测和预防研究提供了宝贵的经验和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录