UCI Machine Learning Repository: Diabetes Data Set|糖尿病数据集|机器学习数据集
收藏
- UCI Machine Learning Repository首次发布Diabetes Data Set,该数据集包含768个样本,用于预测糖尿病的发病情况。
- Diabetes Data Set首次应用于机器学习研究,特别是在分类算法中,展示了其在医疗数据分析中的潜力。
- 随着数据挖掘技术的发展,Diabetes Data Set被广泛用于各种机器学习算法的性能评估和比较研究。
- Diabetes Data Set成为医疗数据分析和预测模型构建的标准基准数据集之一,推动了相关领域的研究进展。
- 尽管已有多年历史,Diabetes Data Set仍被频繁引用和使用,特别是在深度学习和人工智能领域,展示了其持久的影响力。
- 1Performance of Machine Learning Algorithms on the UCI Diabetes DatasetUniversity of California, Irvine · 2020年
- 2A Comparative Study of Machine Learning Algorithms for Diabetes Prediction Using UCI DatasetIEEE · 2019年
- 3Diabetes Prediction Using Machine Learning Techniques: A Comparative StudySpringer · 2021年
- 4Predicting Diabetes Mellitus with Machine Learning TechniquesElsevier · 2018年
- 5Machine Learning Approaches for Diabetes Prediction: A ReviewMDPI · 2022年
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录