five

GastroVision|胃肠道内窥镜数据集|人工智能数据集

收藏
arXiv2023-08-18 更新2024-06-21 收录
胃肠道内窥镜
人工智能
下载链接:
https://osf.io/84e7f/
下载链接
链接失效反馈
资源简介:
GastroVision是由西北大学放射学系和印度理工学院古瓦哈提分校共同创建的一个多中心开放访问的胃肠道内窥镜图像数据集,包含来自挪威和瑞典两家医院的8000张图像,涵盖27个不同的类别,包括解剖标志、病理异常、息肉移除案例和正常发现。该数据集旨在通过提供大规模、精确标记和多样化的数据,解决临床实践中人工智能系统集成所面临的挑战,如数据可用性、偏见结果、数据质量和在不同分布下未见数据集上的表现不佳。GastroVision的应用领域包括开发用于胃肠道疾病检测和分类的人工智能算法,以及为计算机视觉和机器学习研究人员提供公平比较的基础,以推动胃肠道内窥镜研究的发展。
提供机构:
西北大学放射学系
创建时间:
2023-07-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
GastroVision数据集的构建方式体现了跨中心合作和多学科融合的特点。该数据集由挪威的Bærum医院和瑞典的Karolinska大学医院提供,包含了来自两个医疗中心的8000张内窥镜图像,这些图像由经验丰富的胃肠病内窥镜医师进行了标注和验证。数据集涵盖了胃肠道中的不同解剖学标志、病理异常、息肉切除病例以及正常发现,共分为27个类别。为了确保数据质量,所有图像均经过脱敏处理,遵循了欧洲通用数据保护条例(GDPR)的要求,以保护患者的隐私。此外,数据集还包括了一些从HyperKvasir数据集中标注的未标记图像,以及来自Karolinska大学医院的新标注图像,以增强数据集的多样性和多中心性。
使用方法
使用GastroVision数据集的方法包括以下步骤:首先,从数据集的官方网站下载所需的数据集。其次,根据研究需求,对数据集进行预处理,如图像尺寸调整、数据增强等。然后,选择合适的深度学习模型,如ResNet、EfficientNet或DenseNet等,并在数据集上进行训练和验证。最后,使用标准的多类分类指标,如Matthews相关系数(MCC)、召回率、精确率、F1分数等,对模型进行评估。此外,数据集也适合用于探索一例学习(one-shot learning)和少例学习(few-shot learning)等算法,以处理数据集中样本数量较少的类别。
背景与挑战
背景概述
GastroVision数据集的研究背景源于胃肠道癌症的全球高发病率和高死亡率。为了提高胃肠道癌症的早期检测率并降低误诊率,研究人员开发了一个多类胃肠道内窥镜图像数据集,旨在为计算机辅助的胃肠道疾病检测和分类提供支持。该数据集由来自挪威和瑞典两家医院的8000张图像组成,涵盖了27个不同的类别,包括不同解剖标志、病理异常、息肉切除案例和正常发现。该数据集的创建旨在解决现有数据集规模小、类别单一、缺乏多样性和开放性问题,以及临床实践中实时人工智能系统集成所面临的挑战。GastroVision数据集的创建对于胃肠道疾病的计算机辅助检测和分类算法的开发具有重要意义,并为相关领域的研究提供了宝贵的资源。
当前挑战
GastroVision数据集面临的挑战主要包括:1) 数据集规模和多样性:尽管GastroVision数据集相对较大,但仍然需要更多的数据来提高模型的泛化能力;2) 类别不平衡:数据集中某些类别的样本数量较少,这可能导致模型对这些类别的识别能力较差;3) 数据标注质量:尽管数据集由经验丰富的内窥镜医师标注,但仍然可能存在标注错误,这会影响模型的训练和评估;4) 数据隐私和伦理问题:数据集的创建需要确保患者隐私和数据的合法合规性,这在一定程度上限制了数据集的开放性和可用性;5) 模型泛化能力:现有的深度学习模型在处理新数据和不同分布的数据时可能存在性能下降的问题,因此需要开发更加鲁棒的模型来应对这些挑战。
常用场景
经典使用场景
GastroVision数据集主要用于胃肠道疾病的自动检测和分类。该数据集包含了来自挪威和瑞典两家医院的8000张图像,涵盖了27个类别,包括不同的解剖标志、病理异常、息肉移除案例和正常发现。这些图像通过白光成像和窄带成像技术获取,并由经验丰富的胃肠道内镜医生进行标注和验证。GastroVision数据集为研究人员提供了一个多中心的、开放获取的胃肠道内镜图像数据集,可以用于开发基于人工智能的算法,以辅助临床医生进行胃肠道疾病的检测和分类。
解决学术问题
GastroVision数据集解决了现有胃肠道内镜图像数据集规模小、类别单一、数据获取困难等问题。通过提供一个大规模、多类别、多中心的开放获取数据集,GastroVision有助于研究人员开发更具泛化能力的胃肠道疾病检测和分类算法。此外,GastroVision数据集还包含了标注的图像,为研究人员提供了可用于分割算法训练的数据。该数据集的发布对于推动胃肠道疾病的自动检测和分类研究具有重要意义。
实际应用
GastroVision数据集在实际应用中可以用于辅助临床医生进行胃肠道疾病的检测和分类。通过使用基于GastroVision数据集开发的算法,临床医生可以更快、更准确地识别出胃肠道异常,从而提高诊断的准确性和效率。此外,GastroVision数据集还可以用于开发基于人工智能的医疗教育工具,帮助医学生和住院医师学习胃肠道疾病的识别和诊断。
数据集最近研究
最新研究方向
GastroVision数据集的最新研究方向主要集中在利用深度学习技术进行胃肠道疾病的自动检测和分类。该数据集包含了来自两个不同医疗中心的8000张图像,涵盖了27个类别,包括解剖学标志、病理异常、息肉移除病例以及正常发现,为研究人员提供了多样化的临床场景。研究重点在于解决现有数据集在规模、多样性、标注质量和透明度方面的不足,以及算法偏见和数据分布不均的问题。通过开放访问的方式,GastroVision旨在促进人工智能在胃肠道疾病检测中的应用,并通过提供基准模型的结果,激励研究社区进一步探索和改进相关算法。此外,该数据集的发布还推动了少样本学习等技术在胃肠道疾病检测中的应用,以应对数据稀疏的问题。
相关研究论文
  • 1
    GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided Gastrointestinal Disease Detection西北大学放射学系 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

D4LA-版面分析数据集

# D4LA 文档版面分析数据集 (the most Diverse and Detailed Dataset ever for Document Layout Analysis) ## 数据集概述 D4LA是面向文档版面分析的数据集。 ### 数据集简介 包含12类文档工27类文档版面类型,详细如下: ![d4la](./d4la.jpg) ### 标注格式 ``` D4LA ├── train_images │ ├── 1.jpg ├── test_images │ ├── 2.jpg ├── VGT_D4LA_grid_pkl │ ├── 1.pkl │ └── 2.pkl ├── json │ ├── train.json │ └── test.json ``` ### 引用方式 If you find this repository useful, please consider citing our work: ``` @inproceedings{da2023vgt, title={Vision Grid Transformer for Document Layout Analysis}, author={Cheng Da and Chuwei Luo and Qi Zheng and Cong Yao}, year={2023}, booktitle = {ICCV}, } ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/damo/D4LA.git ```

魔搭社区 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录