five

HAM10000|医学图像分析数据集|皮肤病变检测数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
医学图像分析
皮肤病变检测
下载链接:
https://opendatalab.org.cn/OpenDataLab/HAM10000
下载链接
链接失效反馈
资源简介:
HAM10000 是一个包含 10000 张训练图像的数据集,用于检测色素性皮肤病变。作者收集了来自不同人群的皮肤镜图像,通过不同的方式获取和存储。
提供机构:
OpenDataLab
创建时间:
2022-08-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
HAM10000数据集的构建基于对皮肤病变图像的广泛收集与标注。该数据集汇集了来自不同种族、年龄和性别的个体,涵盖了多种皮肤病变类型,包括良性与恶性病变。图像采集自多个医疗机构,确保了样本的多样性和代表性。每张图像均经过专业皮肤科医生的详细标注,包括病变的类型、位置、大小等关键信息,从而为后续的机器学习模型训练提供了高质量的数据基础。
使用方法
HAM10000数据集主要用于皮肤病变分类和检测任务。研究者可以利用该数据集训练卷积神经网络(CNN)等深度学习模型,以实现对皮肤病变的自动分类和诊断。具体使用时,首先需将数据集划分为训练集、验证集和测试集,确保模型的泛化能力。随后,通过数据增强技术,如旋转、翻转等,提升模型的鲁棒性。最后,利用训练好的模型对新采集的皮肤病变图像进行预测,辅助临床诊断。
背景与挑战
背景概述
HAM10000数据集,由Veronika Cheplygina等人在2018年发布,专注于皮肤病变图像的分类与诊断。该数据集的构建旨在解决皮肤癌早期检测的难题,通过提供高质量的图像数据,推动了计算机视觉在医学领域的应用。HAM10000包含了来自不同患者的10,000多张皮肤病变图像,涵盖了多种类型的皮肤癌,如基底细胞癌、鳞状细胞癌和黑色素瘤。这一数据集的发布,极大地促进了皮肤病学与人工智能的交叉研究,为开发更精确的皮肤癌诊断工具奠定了基础。
当前挑战
HAM10000数据集在构建过程中面临了多重挑战。首先,图像的多样性要求模型具备高度的泛化能力,以应对不同肤色、光照条件和病变形态的差异。其次,数据集中的标签噪声和样本不平衡问题,增加了模型训练的复杂性。此外,由于皮肤病变图像的隐私敏感性,数据集的收集和处理必须严格遵守医学伦理和数据保护法规。这些挑战不仅考验了数据处理技术的先进性,也对模型的鲁棒性和准确性提出了更高的要求。
发展历史
创建时间与更新
HAM10000数据集创建于2018年,由Veronika Cheplygina等人发布,旨在为皮肤癌诊断提供一个大规模、多样化的图像数据集。该数据集自发布以来未有官方更新记录。
重要里程碑
HAM10000数据集的发布标志着皮肤癌诊断领域的一个重要里程碑。它首次汇集了来自不同种族、年龄和性别的患者皮肤病变图像,涵盖了七种主要的皮肤癌类型,包括基底细胞癌、鳞状细胞癌和黑色素瘤等。这一数据集的多样性和规模极大地推动了计算机辅助诊断技术的发展,特别是在深度学习和图像识别算法的研究中,为研究人员提供了一个宝贵的资源。
当前发展情况
目前,HAM10000数据集已成为皮肤癌诊断研究中的标准数据集之一,广泛应用于各种机器学习和深度学习模型的训练与验证。其丰富的图像数据和详细的临床信息为算法开发提供了坚实的基础,显著提升了皮肤癌早期检测的准确性和效率。此外,HAM10000数据集的成功应用也激发了更多关于医疗图像数据集的标准化和共享的研究,推动了整个医疗影像分析领域的进步。
发展历程
  • HAM10000数据集首次发表,由Veronika Cheplygina等人发布,旨在为皮肤病变分类提供一个大规模、多样化的数据集。
    2018年
  • HAM10000数据集被广泛应用于皮肤癌检测和分类的研究中,成为该领域的重要基准数据集之一。
    2019年
  • HAM10000数据集在多个国际会议和期刊上被引用,进一步推动了皮肤病变自动诊断技术的发展。
    2020年
常用场景
经典使用场景
在皮肤病学领域,HAM10000数据集以其丰富的皮肤病理图像而著称。该数据集包含了10,000多张皮肤病变图像,涵盖了多种常见的皮肤疾病,如黑色素瘤、基底细胞癌和鳞状细胞癌等。这些图像不仅具有高分辨率,还附有详细的临床信息,使得研究人员能够进行深入的图像分析和分类研究。HAM10000数据集的经典使用场景包括皮肤病的自动诊断、病变分类以及疾病进展预测等,为皮肤病学的研究和临床应用提供了宝贵的资源。
解决学术问题
HAM10000数据集在皮肤病学研究中解决了多个关键的学术问题。首先,它为研究人员提供了一个大规模、多样化的数据集,使得深度学习和机器学习算法在皮肤病诊断中的应用成为可能。其次,通过该数据集,研究人员可以探索不同皮肤病变的特征提取和分类方法,从而提高诊断的准确性和效率。此外,HAM10000数据集还促进了跨学科的研究合作,推动了计算机视觉与皮肤病学的融合,为未来的精准医疗奠定了基础。
实际应用
在实际应用中,HAM10000数据集已被广泛用于开发和验证皮肤病诊断系统。例如,基于该数据集的深度学习模型已被应用于临床环境中,帮助医生快速识别和分类皮肤病变,从而提高诊断的准确性和效率。此外,HAM10000数据集还支持了远程医疗和移动医疗应用的开发,使得患者可以在家中通过智能手机或平板电脑进行初步的皮肤病自查,为偏远地区的医疗资源不足问题提供了有效的解决方案。
数据集最近研究
最新研究方向
在皮肤病学领域,HAM10000数据集因其丰富的皮肤病图像资源而备受关注。最新研究方向主要集中在利用深度学习技术进行皮肤病变的自动分类和诊断。研究者们通过构建卷积神经网络(CNN)模型,对数据集中的图像进行特征提取和分类,以提高诊断的准确性和效率。此外,跨学科研究也在探索如何结合遗传学和环境因素,进一步优化皮肤病预测模型。这些研究不仅推动了皮肤病诊断技术的进步,也为个性化医疗提供了新的可能性。
相关研究论文
  • 1
    The HAM10000 Dataset: A Large Collection of Multi-Source Dermatoscopic Images of Common Pigmented Skin LesionsMedical University of Vienna · 2018年
  • 2
    Skin Lesion Classification Using Deep Learning: A Comparative Study on the HAM10000 DatasetUniversity of California, Los Angeles · 2020年
  • 3
    Transfer Learning for Skin Lesion Classification Using HAM10000 DatasetUniversity of Waterloo · 2019年
  • 4
    A Comprehensive Analysis of Deep Learning Models for Skin Lesion Classification on the HAM10000 DatasetUniversity of Oxford · 2021年
  • 5
    Automated Skin Lesion Classification Using Ensemble of Deep Neural Networks on the HAM10000 DatasetUniversity of Michigan · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录