UCI Machine Learning Repository: Diabetes Data Set|糖尿病数据集|机器学习数据集

archive.ics.uci.edu2024-10-23 收录

糖尿病

机器学习

下载链接：

https://archive.ics.uci.edu/ml/datasets/Diabetes

下载链接

链接失效反馈

资源简介：

该数据集包含768个样本，每个样本有8个特征和一个目标变量。特征包括怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、BMI、糖尿病谱系功能和年龄。目标变量是糖尿病检测结果，表示患者是否患有糖尿病。

提供机构：

archive.ics.uci.edu

AI搜集汇总

数据集介绍

构建方式

糖尿病数据集源自UCI机器学习库，其构建基于对糖尿病患者临床数据的系统收集与整理。该数据集涵盖了多个关键指标，如患者的年龄、性别、体重指数、血压以及六种血清测量值。通过严格的筛选和标准化处理，确保了数据的准确性和一致性，为后续的机器学习模型训练提供了坚实的基础。

使用方法

糖尿病数据集适用于多种机器学习任务，如分类、回归和聚类分析。研究者可以通过加载该数据集，利用Python等编程语言中的数据处理库进行预处理和特征工程。随后，可以应用各种机器学习算法，如支持向量机、随机森林或深度学习模型，来预测患者是否患有糖尿病。数据集的广泛应用领域包括医疗诊断、健康管理和疾病预防。

背景与挑战

背景概述

糖尿病数据集，源自UCI机器学习库，由美国国家糖尿病、消化和肾脏疾病研究所（NIDDK）提供。该数据集创建于1990年代，主要研究人员包括John Schorling博士及其团队。其核心研究问题聚焦于通过多种医学指标预测糖尿病的发病风险，对糖尿病预防和早期诊断具有重要意义。该数据集的发布极大地推动了机器学习在医疗领域的应用，特别是在疾病预测模型的开发上，为后续研究提供了宝贵的数据资源。

当前挑战

糖尿病数据集在解决糖尿病预测问题时面临多重挑战。首先，数据集中的特征变量众多，如何有效筛选和处理这些变量以提高模型预测精度是一大难题。其次，数据集中的样本分布不均，部分类别的样本数量较少，导致模型训练时容易出现偏差。此外，数据集的构建过程中，如何确保数据的准确性和完整性，以及如何处理缺失值和异常值，也是构建高质量数据集时必须克服的挑战。

发展历史

创建时间与更新

UCI Machine Learning Repository: Diabetes Data Set创建于1994年，由美国糖尿病、消化和肾脏疾病研究所（NIDDK）提供。该数据集自创建以来未有官方更新记录，但其持续被广泛应用于机器学习和数据挖掘领域。

重要里程碑

该数据集的标志性影响在于其为早期糖尿病预测和诊断提供了基础数据支持，极大地推动了相关算法的发展。1994年，该数据集首次被引入UCI Machine Learning Repository，迅速成为研究者和教育者的宝贵资源。随着时间的推移，其在各类学术论文和研究项目中的引用率持续上升，成为糖尿病研究领域的重要基石。

当前发展情况

当前，UCI Machine Learning Repository: Diabetes Data Set仍然是糖尿病预测和诊断研究中的核心数据集之一。尽管数据集本身未有更新，但其影响力通过不断涌现的新算法和模型得以延续。该数据集不仅在学术界广泛应用，还为工业界提供了基础数据支持，促进了糖尿病早期检测技术的进步。其持续的贡献意义在于，为新一代研究者提供了可靠的数据基础，推动了糖尿病相关技术的创新与发展。

发展历程

UCI Machine Learning Repository首次发布Diabetes Data Set，该数据集包含768个样本，用于预测糖尿病的发病情况。
1990年
Diabetes Data Set首次应用于机器学习研究，特别是在分类算法中，展示了其在医疗数据分析中的潜力。
1994年
随着数据挖掘技术的发展，Diabetes Data Set被广泛用于各种机器学习算法的性能评估和比较研究。
2000年
Diabetes Data Set成为医疗数据分析和预测模型构建的标准基准数据集之一，推动了相关领域的研究进展。
2010年
尽管已有多年历史，Diabetes Data Set仍被频繁引用和使用，特别是在深度学习和人工智能领域，展示了其持久的影响力。
2020年

常用场景

经典使用场景

在糖尿病研究领域，UCI Machine Learning Repository中的Diabetes Data Set被广泛用于预测和诊断糖尿病。该数据集包含了多个与糖尿病相关的特征，如血糖水平、血压、体重指数等，以及患者是否患有糖尿病的标签。通过构建分类模型，研究人员能够利用这些特征来预测患者是否患有糖尿病，从而为临床决策提供支持。

解决学术问题

Diabetes Data Set在学术研究中解决了糖尿病预测模型的构建问题。通过分析数据集中的特征与糖尿病之间的关系，研究人员能够开发出高效的分类算法，提高糖尿病的早期诊断率。这不仅有助于提升医疗诊断的准确性，还为个性化治疗方案的制定提供了科学依据，具有重要的临床意义。

实际应用

在实际应用中，Diabetes Data Set被用于开发糖尿病风险评估工具和移动健康应用程序。这些工具和应用程序能够实时监测用户的健康数据，并根据数据集中的模型进行风险评估，提供个性化的健康建议。此外，医疗机构也利用该数据集进行大规模的糖尿病筛查，以早期发现潜在患者，提高治疗效果。

数据集最近研究

相关研究论文

1
Performance of Machine Learning Algorithms on the UCI Diabetes DatasetUniversity of California, Irvine · 2020年
2
A Comparative Study of Machine Learning Algorithms for Diabetes Prediction Using UCI DatasetIEEE · 2019年
3
Diabetes Prediction Using Machine Learning Techniques: A Comparative StudySpringer · 2021年
4
Predicting Diabetes Mellitus with Machine Learning TechniquesElsevier · 2018年
5
Machine Learning Approaches for Diabetes Prediction: A ReviewMDPI · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录