eICU Collaborative Research Database v2.0|重症监护数据集|研究数据数据集
收藏eICU Collaborative Research Database v2.0
数据集名称
eICU Collaborative Research Database v2.0
数据集来源
The eICU Collaborative Research Database, 一个免费的多中心重症监护研究数据库。Pollard TJ, Johnson AEW, Raffa JD, Celi LA, Mark RG 和 Badawi O. Scientific Data (2018). DOI: 10.1038/sdata.2018.178. 可从以下链接获取:https://www.nature.com/articles/sdata2018178
数据集用途
用于预测首次入住ICU患者(超过48小时)的状态(0 = 存活,1 = 死亡),包括数据探索(EDA)、数据清洗、缺失数据插补、特征选择(SelectKbest)和降维(LDA),结合随机森林(RF)分类器。

MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国250米灌溉耕地分布数据集(2000-2020)
灌溉耕地分布是开展生态、水文和气候研究的关键数据,并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型,融合多源遥感数据(包括耕地分布、植被指数、水稻田分布)、灌溉统计和调查数据,以及灌溉适宜性分析,生成了中国逐年、250米灌溉耕地分布图(CIrrMap250)。利用2万个参考样本和高分辨率灌溉取水数据,对灌溉耕地分布数据的精度进行评估。结果显示,CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88,优于现有的同类产品。
国家青藏高原科学数据中心 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录