oxkitsune/open-kbp|医学影像数据集|放射治疗数据集

hugging_face2024-05-17 更新2024-05-25 收录

医学影像

放射治疗

下载链接：

https://hf-mirror.com/datasets/oxkitsune/open-kbp

下载链接

链接失效反馈

资源简介：

Open Knowledge-Based Planning（OpenKBP）数据集是一个用于知识基础规划的数据集，包含CT图像、剂量分布、体素尺寸、患者信息、可能的剂量掩码、结构掩码和结构掩码名称等特征。数据集分为训练集、验证集和测试集，分别包含200、40和100个样本。

提供机构：

oxkitsune

原始信息汇总

数据集概述

数据集名称

名称: Open Knowledge-Based Planning

数据集特征

ct: 3D数组，形状为(128, 128, 128)，数据类型为float32。
dose: 3D数组，形状为(128, 128, 128)，数据类型为float32。
voxel_dimensions: 序列，长度为3，数据类型为float32。
patient: 字符串类型。
possible_dose_mask: 3D数组，形状为(128, 128, 128)，数据类型为float32。
structure_masks: 4D数组，形状为(128, 128, 128, 10)，数据类型为float32。
structure_mask_names: 序列，长度为10，数据类型为字符串。

数据集划分

训练集: 包含200个样本，占用空间23540972292字节。
验证集: 包含40个样本，占用空间4708194480字节。
测试集: 包含100个样本，占用空间11770486200字节。

数据集大小

下载大小: 363683542字节。
数据集总大小: 40019652972字节。

数据文件配置

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

许可证

许可证: MIT

AI搜集汇总

数据集介绍

构建方式

Open Knowledge-Based Planning (OpenKBP) 数据集的构建基于医学影像和放射治疗规划的实际需求。该数据集通过收集和整理来自多个患者的CT扫描图像、剂量分布、体素尺寸、患者标识、可能的剂量掩码、结构掩码及其名称等信息，形成了一个三维和四维的数组结构。这些数据经过标准化处理，确保了数据的一致性和可用性，为放射治疗规划的算法研究和模型训练提供了坚实的基础。

特点

OpenKBP 数据集的显著特点在于其高维度和多模态的数据结构。数据集包含了128x128x128的三维数组，涵盖了CT图像、剂量分布和可能的剂量掩码，以及128x128x128x10的四维结构掩码，能够全面反映放射治疗中的复杂情况。此外，数据集还提供了详细的结构掩码名称，便于研究人员进行精确的分析和模型训练。

使用方法

OpenKBP 数据集适用于放射治疗规划的算法研究和模型训练。研究人员可以通过加载数据集中的不同分割（如训练集、验证集和测试集），利用CT图像、剂量分布和结构掩码等信息，训练和验证放射治疗规划模型。数据集的高维度和多模态特性，使得其在深度学习和机器学习领域具有广泛的应用前景，能够有效提升放射治疗规划的精度和效率。

背景与挑战

背景概述

在医学影像处理与放射治疗规划领域，Open Knowledge-Based Planning (OpenKBP) 数据集的引入标志着对复杂治疗方案优化的一次重要尝试。该数据集由知名研究机构与专家团队共同开发，旨在通过提供高质量的计算机断层扫描（CT）图像和剂量分布数据，推动基于知识的规划算法的发展。OpenKBP 数据集的核心研究问题是如何在保证患者安全的前提下，最大化放射治疗的疗效。其发布不仅为研究人员提供了一个标准化的测试平台，还显著推动了个性化医疗和精准治疗的研究进程。

当前挑战

尽管 OpenKBP 数据集在放射治疗规划领域具有重要意义，但其构建与应用过程中仍面临诸多挑战。首先，数据集的复杂性体现在其高维度的三维图像数据和剂量分布，这对算法的计算能力和存储资源提出了高要求。其次，确保数据的准确性和一致性是另一大挑战，尤其是在处理多中心、多设备采集的数据时。此外，如何在保持数据隐私的同时，实现数据的高效共享与利用，也是该数据集面临的重要问题。这些挑战不仅影响了数据集的实际应用效果，也对其在学术研究和临床实践中的推广提出了考验。

常用场景

经典使用场景

在医学影像处理领域，Open Knowledge-Based Planning (OpenKBP) 数据集被广泛用于放射治疗计划的研究与优化。该数据集通过提供详细的CT扫描图像、剂量分布以及结构掩码，使得研究人员能够开发和验证基于知识的计划算法。这些算法旨在提高放射治疗的效果，同时减少对健康组织的损害。

解决学术问题

OpenKBP 数据集解决了放射治疗计划中的多个关键学术问题。首先，它为研究人员提供了一个标准化的数据平台，用于评估和比较不同的剂量优化算法。其次，通过提供详细的结构掩码，该数据集有助于研究如何更精确地定位和保护关键器官。此外，OpenKBP 还促进了跨学科的合作，推动了医学影像处理与放射治疗计划的深度融合。

衍生相关工作

基于 OpenKBP 数据集，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了新的剂量优化模型，显著提高了放射治疗的精确度。此外，还有研究探讨了如何结合深度学习技术，进一步提升放射治疗计划的智能化水平。这些衍生工作不仅丰富了放射治疗领域的研究内容，也为临床实践提供了有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UCI Machine Learning Repository

UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合，这些被机器学习社区用于机器学习算法的实证分析。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录