five

BIMCV-COVID19+|COVID-19数据集|医学影像数据集

收藏
github2024-05-23 更新2024-05-31 收录
COVID-19
医学影像
下载链接:
https://github.com/KyeongsupChoi/MIA
下载链接
链接失效反馈
资源简介:
BIMCV-COVID19+数据集是一个大型数据集,包含COVID-19患者的胸部X光图像(CR,DX)和计算机断层扫描(CT)成像,以及他们的放射学发现、病理、聚合酶链反应(PCR)、免疫球蛋白G(IgG)和免疫球蛋白M(IgM)诊断抗体测试和放射学报告,来自瓦伦西亚地区医学影像数据库(BIMCV)。发现被映射到标准的统一医学语言系统(UMLS)术语,并覆盖了广泛的胸部实体,与之前数据集中注释的实体数量相比,数量大大增加。图像以高分辨率存储,实体以医学影像数据结构(MIDS)格式进行局部化,并带有解剖标签。此外,23张图像由一组专家放射科医生进行了注释,以包括放射学发现的语义分割。此外,提供了包括患者的人口统计信息、成像研究的投影类型和采集参数等在内的广泛信息。这些数据库迭代包括21342次CR、34829次DX和7918次CT研究。

The BIMCV-COVID19+ dataset is a large-scale dataset comprising chest X-ray images (CR, DX) and computed tomography (CT) scans of COVID-19 patients, along with their radiological findings, pathology, polymerase chain reaction (PCR), immunoglobulin G (IgG), and immunoglobulin M (IgM) diagnostic antibody tests, and radiology reports from the Valencia Region Medical Imaging Database (BIMCV). The findings are mapped to standard Unified Medical Language System (UMLS) terms and cover a wide range of thoracic entities, significantly increasing the number of annotated entities compared to previous datasets. The images are stored in high resolution, and the entities are localized in the Medical Imaging Data Structure (MIDS) format with anatomical labels. Additionally, 23 images have been annotated by a panel of expert radiologists to include semantic segmentation of radiological findings. Furthermore, extensive information including patient demographics, projection types of imaging studies, and acquisition parameters is provided. These database iterations include 21,342 CR, 34,829 DX, and 7,918 CT studies.
创建时间:
2024-01-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
BIMCV-COVID19+数据集的构建基于大量COVID-19患者的胸部X光片(CXR)和计算机断层扫描(CT)图像,这些图像来自瓦伦西亚地区医学影像数据库(BIMCV)。数据集不仅包含高分辨率的图像,还详细记录了患者的放射学发现、病理学信息、聚合酶链反应(PCR)和免疫球蛋白G(IgG)及免疫球蛋白M(IgM)诊断抗体测试结果。此外,所有发现均被映射到统一医学语言系统(UMLS)术语,并以医学影像数据结构(MIDS)格式进行本地化标注。专家团队还对23张图像进行了语义分割标注,进一步增强了数据集的丰富性和准确性。
使用方法
BIMCV-COVID19+数据集适用于多种医学影像分析任务,包括但不限于COVID-19的诊断和预后评估。研究者可以通过PyTorch和OpenCV等工具对数据集进行处理和分析,利用数据集中的高分辨率图像和详细标注信息训练深度学习模型。数据集的结构化存储方式和丰富的元数据信息使得数据加载和预处理变得高效便捷。此外,数据集还提供了多种预处理和特征构建脚本,帮助研究者快速上手并进行深入的分析研究。
背景与挑战
背景概述
BIMCV-COVID19+数据集是由瓦伦西亚地区医学影像数据库(BIMCV)创建的一个大型数据集,专注于COVID-19患者的胸部X射线和计算机断层扫描(CT)图像。该数据集不仅包含高分辨率的影像数据,还详细记录了患者的放射学发现、病理学信息、PCR和IgG/IgM诊断抗体测试结果,以及放射学报告。这些数据被映射到统一医学语言系统(UMLS)术语,涵盖了广泛的胸腔实体,相较于先前的数据集,其标注的实体数量显著增加。此外,数据集还提供了患者的详细人口统计信息、投影类型和成像研究获取参数等。该数据集的创建旨在支持COVID-19的诊断和研究,特别是在利用人工智能和深度学习技术进行影像分析方面。
当前挑战
BIMCV-COVID19+数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,涉及多种影像类型和复杂的医学信息,这增加了数据处理的复杂性和难度。其次,数据标注的标准化和一致性问题,尤其是在映射到UMLS术语时,需要确保高精度的标注质量。此外,数据集的应用面临技术挑战,如如何提高AI系统的特异性,使其在实际临床环境中更为可靠。最后,数据集的更新和维护也是一个持续的挑战,确保数据集能够及时反映最新的医学研究和临床实践。
常用场景
经典使用场景
BIMCV-COVID19+数据集在胸部X射线图像分析中展现了其经典应用场景。通过结合PyTorch和OpenCV技术,该数据集被广泛用于训练和验证深度学习模型,以检测和诊断COVID-19患者的肺炎症状。具体而言,数据集中的高分辨率图像和详细的放射学报告为模型提供了丰富的特征,使得模型在识别肺炎特征方面表现出色。此外,数据集还支持语义分割和实体本地化,进一步提升了模型的准确性和可靠性。
解决学术问题
BIMCV-COVID19+数据集在解决COVID-19相关学术研究问题中发挥了重要作用。首先,它为研究人员提供了一个大规模、高质量的数据资源,用于开发和验证基于深度学习的肺炎检测算法。其次,数据集中的标准化术语和广泛覆盖的胸腔实体,使得研究结果更具可比性和通用性。此外,数据集还促进了可解释性AI和因果推断的研究,为深度学习模型的透明性和可信度提供了新的视角。
实际应用
在实际应用中,BIMCV-COVID19+数据集显著提升了COVID-19肺炎的诊断效率和准确性。通过训练出的深度学习模型,医疗工作者能够快速筛查和诊断疑似病例,从而缩短了诊断时间并提高了治疗效果。此外,数据集的应用还扩展到了计算机辅助诊断(CAD)系统,帮助全科医生和放射科医生更准确地解读胸部X射线图像,减少了误诊和漏诊的风险。
数据集最近研究
最新研究方向
在医学影像分析领域,BIMCV-COVID19+数据集的最新研究方向主要集中在利用深度学习技术提升胸部X光片的诊断准确性。研究者们通过结合PyTorch和OpenCV等先进工具,致力于开发能够自动检测肺炎等疾病的计算机辅助诊断系统(CAD)。此外,研究还涉及如何通过引入生物标志物、中性粒细胞与淋巴细胞比率(NLR)等参数,进一步提高模型的预测精度。这些研究不仅有助于提升COVID-19患者的诊断效率,也为其他胸部疾病的自动化诊断提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录