five

US-43d|医学影像分析数据集|图像分割数据集

收藏
arXiv2024-11-25 更新2024-11-27 收录
医学影像分析
图像分割
下载链接:
https://github.com/CAMMApublic/UltraSam
下载链接
链接失效反馈
资源简介:
US-43d是由斯特拉斯堡大学和斯特拉斯堡图像引导手术研究所创建的大型公开超声分割数据集,包含43个公开数据集,共计280,000多张图像和分割掩码,覆盖50多个解剖结构。数据集内容丰富,包括2D和3D扫描图像,涉及心脏、胎儿头部、甲状腺和乳腺病变等多种临床应用。数据集的创建过程涉及从多个平台爬取数据,并进行预处理以去除标签背景重叠。US-43d旨在解决超声图像分析中的自动分割问题,提供了一个强大的基础模型,适用于多种下游任务,如分类和分割。

US-43d is a large-scale publicly available ultrasound segmentation dataset created by the University of Strasbourg and the Strasbourg Institute for Image-Guided Surgery. It encompasses 43 publicly available datasets, with over 280,000 images and segmentation masks, covering more than 50 anatomical structures. The dataset is rich in content, including 2D and 3D scan images, and is applicable to various clinical applications such as heart, fetal head, thyroid, and breast lesion analysis. The creation process of the dataset involved data crawling from multiple platforms and preprocessing to remove label background overlaps. US-43d aims to address the automatic segmentation problem in ultrasound image analysis, providing a powerful foundation model suitable for a variety of downstream tasks, such as classification and segmentation.
提供机构:
斯特拉斯堡大学,CNRS,INSERM,ICube,UMR7357,斯特拉斯堡,法国;斯特拉斯堡图像引导手术研究所,斯特拉斯堡,法国
创建时间:
2024-11-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
US-43d数据集的构建基于大规模的公开超声分割数据,通过从多个平台(如Papers with Code、Google Dataset Search、GitHub等)收集43个开放访问的超声数据集,最终整合成包含超过280,000张图像和分割掩码的大型集合。这些数据涵盖了20种不同的临床应用,包括心脏、胎儿头部、甲状腺和乳腺病变等,为超声图像分析提供了全面的视角。数据集的构建过程中,还进行了预处理以消除标签与背景的重叠,并提供了将数据转换为广泛使用的COCO格式的脚本。
使用方法
US-43d数据集适用于多种超声图像分析任务,包括但不限于分割、分类和检测。研究人员可以使用该数据集训练深度学习模型,如基于Transformer的分割模型UltraSam,以实现高效的交互式分割。此外,数据集还支持下游任务的微调,如实例分割和图像分类,通过提供预训练的特征提取器,显著提升模型在特定任务上的表现。数据集的开放性和多样性也鼓励了社区的进一步贡献和研究。
背景与挑战
背景概述
超声成像(Ultrasound, US)因其能够提供实时、安全且成本效益高的成像而在现代医学中不可或缺。它在动态评估中发挥着关键作用,如胎儿监测,并且其便携性使其在资源匮乏的环境中也能广泛应用,显著提升了诊断护理的覆盖面。尽管超声成像具有诸多优势,但其仍面临噪声、变异性和需要专业解读等挑战。许多深度学习解决方案已被提出,从解剖标志识别到组织特征描述,再到介入手术中的针迹追踪,这些方法有望减少对专业知识的依赖。然而,这些方法依赖于大量标注数据,而这些数据由于需要专家标注而稀缺且缺乏多样性。US-43d数据集由斯特拉斯堡大学、CNRS、INSERM、ICube、UMR7357和IHU-斯特拉斯堡的图像引导手术研究所的研究人员创建,旨在通过整合43个公开的超声分割数据集,包含超过280,000张图像和50多个解剖结构的分割掩码,来解决这一问题。
当前挑战
US-43d数据集的构建面临两大主要挑战:首先,自然图像与超声图像之间的显著领域差异使得传统微调方法难以应用;其次,超声图像本身的变异性,不同检查区域(如胸部、卵巢、内窥镜)的图像差异极大,使得训练通用超声模型变得困难。此外,超声图像分析自动化由于解剖结构的复杂性和标注数据的有限性而变得复杂。尽管存在诸如MedSAM、SAM-Med和Medical SAM Adapter等尝试将SAM应用于医学成像的努力,但它们在超声成像方面仍面临挑战,表明需要更专业的方法。US-43d数据集的发布旨在填补这一空白,通过提供大规模的统一超声数据集,支持训练多功能视觉基础模型,以提升超声图像分析的自动化水平。
常用场景
经典使用场景
US-43d数据集在医学超声图像分析领域中,被广泛用于训练和验证基于深度学习的分割模型。其经典使用场景包括对多种解剖结构的自动分割,如心脏、胎儿头部、甲状腺和乳腺病变等。通过整合来自43个公开数据集的280,000多张图像及其对应的分割掩码,US-43d为研究人员提供了一个全面且多样化的数据资源,从而显著提升了模型的泛化能力和准确性。
解决学术问题
US-43d数据集解决了医学超声图像分析中长期存在的数据稀缺和多样性不足的问题。通过提供大规模、多样的标注数据,该数据集使得研究人员能够训练出更具鲁棒性和泛化能力的模型,从而在不同临床应用中实现更精确的图像分割。这不仅推动了医学影像分析技术的发展,也为临床诊断提供了更可靠的支持。
实际应用
US-43d数据集在实际应用中,主要用于开发和优化医学超声图像的自动分析工具。这些工具可以广泛应用于临床诊断、手术导航和病理分析等领域。例如,在胎儿监测中,自动分割模型可以实时分析胎儿的解剖结构,提供关键的生物测量数据,从而辅助医生进行更准确的诊断和治疗决策。
数据集最近研究
最新研究方向
在超声图像分析领域,US-43d数据集的最新研究方向主要集中在通过大规模开放访问分割数据集来训练基础模型。研究团队通过整合43个公开的超声数据集,构建了包含超过280,000张图像和分割掩码的US-43d数据集,旨在解决超声图像分析中的复杂性和标注数据稀缺的问题。基于此数据集,研究者开发了UltraSam模型,这是一种专门针对超声图像优化的Segment Anything Model(SAM)变体,支持点提示和框提示,并展示了其在零样本分割任务中的优越性能。此外,UltraSam还被用作下游任务的模型初始化,显著提升了在分类和分割任务中的表现,展示了其在医学超声图像处理中的广泛应用潜力。
相关研究论文
  • 1
    UltraSam: A Foundation Model for Ultrasound using Large Open-Access Segmentation Datasets斯特拉斯堡大学,CNRS,INSERM,ICube,UMR7357,斯特拉斯堡,法国;斯特拉斯堡图像引导手术研究所,斯特拉斯堡,法国 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

Lifan-Z/Chinese-poetries-txt

这个数据集从《全唐诗》和《全宋诗》中提取了四种不同风格的诗歌,包括五绝(5x4)17521首、五律(5x8)60896首、七绝(7x4)84485首和七律(7x8)71818首。每行数据对应一首诗,适用于文本生成任务。

hugging_face 收录