five

moukaii/Tuberculosis_Dataset|结核病数据集|多模态数据数据集

收藏
hugging_face2024-03-02 更新2024-03-04 收录
结核病
多模态数据
下载链接:
https://hf-mirror.com/datasets/moukaii/Tuberculosis_Dataset
下载链接
链接失效反馈
资源简介:
该数据集是从原始“MultiCaRe数据集”中筛选出的专注于肺结核患者的多模态数据集,包含肺部计算机断层扫描(CT)影像数据和肺结核患者的临床病例记录,以及病例关键词、CT图像描述、患者ID、性别和年龄信息。数据集支持的任务包括胸部CT图像分割和肺结核分类算法的开发,以及从临床记录中提取医学术语的NLP方法。数据集的语言为英语,数据字段包括case_id、gender、age、case_text、keywords、pics_array和Caption。数据集的初始收集和预处理过程包括从原始MultiCaRe数据集中筛选出与肺结核相关的病例报告、图像和描述,并通过Hugging Face Python脚本进行进一步处理。数据集的社会影响主要体现在提高肺结核诊断的准确性和效率。数据集的偏差、风险和局限性包括选择偏差、技术偏差、解释偏差、隐私和保密风险、数据完整性和质量风险,以及数据质量的局限性。

该数据集是从原始“MultiCaRe数据集”中筛选出的专注于肺结核患者的多模态数据集,包含肺部计算机断层扫描(CT)影像数据和肺结核患者的临床病例记录,以及病例关键词、CT图像描述、患者ID、性别和年龄信息。数据集支持的任务包括胸部CT图像分割和肺结核分类算法的开发,以及从临床记录中提取医学术语的NLP方法。数据集的语言为英语,数据字段包括case_id、gender、age、case_text、keywords、pics_array和Caption。数据集的初始收集和预处理过程包括从原始MultiCaRe数据集中筛选出与肺结核相关的病例报告、图像和描述,并通过Hugging Face Python脚本进行进一步处理。数据集的社会影响主要体现在提高肺结核诊断的准确性和效率。数据集的偏差、风险和局限性包括选择偏差、技术偏差、解释偏差、隐私和保密风险、数据完整性和质量风险,以及数据质量的局限性。
提供机构:
moukaii
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集从原始的‘The MultiCaRe Dataset’中精心筛选,专注于胸结核患者。构建过程首先基于关键词如‘tuberculosis’或‘tb’筛选病例报告,确保仅包含与结核病相关的报告。随后,通过过滤包含关键词如‘ct’、‘lung’或‘chest’的图像描述,进一步提炼数据集。最后,通过确保图像标签包含‘ct’和‘lung’,选择与肺部CT扫描相关的图像。此过程确保了数据集的高相关性和质量。
特点
该数据集具有多模态特性,结合了肺部CT影像数据和临床病例记录,包括患者的关键词、CT图像描述、患者ID、性别和年龄信息。这种多模态整合为结核病的诊断和治疗研究提供了丰富的资源。此外,数据集的构建过程中实施了严格的筛选和处理步骤,确保了数据的高质量和相关性。
使用方法
该数据集可用于开发胸部CT图像分割和结核病分类算法,以及从临床笔记中提取医学术语的自然语言处理方法。使用者可以通过访问数据集的官方页面下载数据,并根据提供的结构和实例进行数据处理和分析。数据集的详细字段信息和实例结构为研究者提供了清晰的指导,便于高效利用数据进行研究和开发。
背景与挑战
背景概述
在医学影像与临床数据分析领域,moukaii/Tuberculosis_Dataset数据集的创建标志着对结核病(Tuberculosis, TB)研究的一次重要推进。该数据集由Zhankai Ye主导,从原始的“The MultiCaRe Dataset”中精心筛选出与胸结核患者相关的肺部计算机断层扫描(CT)影像数据及临床病例报告。这一多模态数据集不仅包含了患者的性别、年龄等基本信息,还涵盖了病例文本、关键词及影像描述,为结核病的诊断与治疗研究提供了丰富的数据资源。自创建以来,该数据集已显著推动了CT影像分割与分类算法的发展,以及自然语言处理(NLP)技术在临床笔记中提取医学术语的应用,对公共卫生和医学研究领域产生了深远影响。
当前挑战
尽管moukaii/Tuberculosis_Dataset数据集在结核病研究中展现了巨大潜力,但其构建与应用过程中仍面临诸多挑战。首先,数据的选择偏差问题不容忽视,原始数据集的随机抽样无法保证不同人口群体的代表性,可能导致研究结果的普适性受限。其次,技术偏差也是一个重要问题,先进影像技术的不均衡分布可能导致数据集偏向于来自设备更先进机构的病例。此外,解释者偏差在病例文本和影像描述中同样存在,不同专家的经验和专业水平可能导致诊断结果的差异。在数据质量方面,文本数据中关键描述词的缺失和影像数据的不完整性,以及图像分辨率和尺寸的不一致性,都为数据分析带来了困难。这些挑战需要在未来的研究中得到充分考虑和解决,以确保数据集的有效性和可靠性。
常用场景
经典使用场景
在医学影像与临床文本的交叉领域,moukaii/Tuberculosis_Dataset 数据集以其独特的多模态特性,成为研究肺结核诊断与分类的经典资源。该数据集结合了肺部计算机断层扫描(CT)图像与患者的临床病例报告,为开发先进的图像分割算法和结核病阳性或对照分类模型提供了丰富的数据支持。此外,通过整合临床文本中的关键词,该数据集还推动了自然语言处理(NLP)技术在医学术语提取中的应用,从而提升了临床笔记的自动化分析能力。
实际应用
在实际应用中,moukaii/Tuberculosis_Dataset 数据集为肺结核的早期诊断和治疗提供了强有力的支持。通过结合CT图像和临床病例报告,该数据集能够帮助医疗机构开发和优化自动化诊断工具,从而提高诊断的准确性和效率。此外,数据集中的多模态信息还可以用于培训和验证新的医疗影像分析算法,进一步推动肺结核的精准医疗和个性化治疗的发展。
衍生相关工作
moukaii/Tuberculosis_Dataset 数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者们开发了多种用于肺结核CT图像分割和分类的深度学习模型,显著提升了诊断的准确性。同时,数据集的多模态特性也激发了自然语言处理(NLP)技术在医学文本分析中的应用研究,推动了医学术语提取和临床笔记自动化的前沿进展。这些衍生工作不仅丰富了肺结核研究的工具箱,也为其他多模态医学数据集的研究提供了宝贵的经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录