oxkitsune/open-kbp|医学影像数据集|放射治疗数据集
收藏数据集概述
数据集名称
- 名称: Open Knowledge-Based Planning
数据集特征
- ct: 3D数组,形状为(128, 128, 128),数据类型为float32。
- dose: 3D数组,形状为(128, 128, 128),数据类型为float32。
- voxel_dimensions: 序列,长度为3,数据类型为float32。
- patient: 字符串类型。
- possible_dose_mask: 3D数组,形状为(128, 128, 128),数据类型为float32。
- structure_masks: 4D数组,形状为(128, 128, 128, 10),数据类型为float32。
- structure_mask_names: 序列,长度为10,数据类型为字符串。
数据集划分
- 训练集: 包含200个样本,占用空间23540972292字节。
- 验证集: 包含40个样本,占用空间4708194480字节。
- 测试集: 包含100个样本,占用空间11770486200字节。
数据集大小
- 下载大小: 363683542字节。
- 数据集总大小: 40019652972字节。
数据文件配置
- 默认配置:
- 训练集路径:
data/train-*
- 验证集路径:
data/validation-*
- 测试集路径:
data/test-*
- 训练集路径:
许可证
- 许可证: MIT

UCI Machine Learning Repository
UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合,这些被机器学习社区用于机器学习算法的实证分析。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录