five

GMAI-MMBench|医疗AI数据集|评估基准数据集

收藏
arXiv2024-08-09 更新2024-08-10 收录
医疗AI
评估基准
下载链接:
https://uni-medical.github.io/GMAI-MMBench.github.io/
下载链接
链接失效反馈
资源简介:
GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准,包含285个高质量数据集,覆盖39种医疗图像模态和18个临床任务。数据集内容丰富,包括2D检测、分类和2D/3D分割等多种任务,数据来源于全球各地的公共和医院资源。创建过程中,数据集经过严格筛选和标准化处理,确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用,特别是在疾病诊断和治疗方面的辅助能力。
提供机构:
上海人工智能实验室
创建时间:
2024-08-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
GMAI-MMBench数据集的构建过程分为三个主要步骤。首先,数据集收集和标准化,从公共来源和医院收集285个高质量的数据集,涵盖各种医学图像任务,包括2D检测、2D分类和2D/3D分割。其次,标签分类和词汇树构建,将所有标签分为18个临床VQA任务、18个临床部门和35个模态,并生成词汇树结构以方便自定义评估。最后,QA生成和选择,为每个标签生成VQA对,并进行人工验证和选择,确保数据质量和平衡分布。
特点
GMAI-MMBench数据集具有三个主要特点:1)全面的医学知识:由来自全球的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构:包含18个临床VQA任务和18个临床部门,精心组织成词汇树;3)多感知粒度:交互方法从图像到区域级别,提供不同程度的感知细节。
使用方法
使用GMAI-MMBench数据集时,用户可以根据词汇树结构自定义评估任务,选择所需的数据点和评估指标。此外,用户还可以根据模型的需求选择不同的感知粒度,如图像、区域、掩码和轮廓级别,以评估模型在不同任务和感知粒度上的性能。
背景与挑战
背景概述
在医疗领域,大型视觉语言模型(LVLMs)展现出巨大的潜力,能够处理图像、文本和生理信号等多种数据类型,并在疾病诊断和治疗等方面提供辅助。为了评估LVLMs在医疗应用中的有效性,建立一个全面的基准至关重要。当前存在的基准通常基于特定学术文献,主要关注单一领域,缺乏感知粒度变化,导致临床相关性有限、评估不完整、对交互式LVLMs的指导不足等问题。为了解决这些限制,研究人员开发了GMAI-MMBench,这是迄今为止最全面的通用医疗AI基准,具有分类良好的数据结构和多感知粒度。GMAI-MMBench由来自全球的285个数据集构建,涵盖39种医疗图像模态、18个临床相关任务、18个科室和4种感知粒度,以视觉问答(VQA)格式组织。此外,它还实现了词汇树结构,允许用户自定义评估任务,以满足各种评估需求,并极大地支持医疗AI研究和应用。
当前挑战
GMAI-MMBench在临床实践中提出了重大挑战。即使是最好的模型GPT-4o也仅能达到52.24%的准确率,这表明最先进的LVLMs在处理医疗专业问题上存在不足,难以满足多样化的临床需求。此外,开源LVLMs(如MedDr和DeepSeek-VL-7B)的准确率约为41%,与专有模型相比具有竞争力,但仍存在明显差距。大多数医疗专用模型难以达到中等性能水平(约30%的准确率),而大多数LVLMs在不同临床VQA任务、科室和感知粒度方面表现出不平衡的性能。主要导致性能瓶颈的因素包括感知错误、缺乏医疗领域知识、不相关的回答以及因安全协议而拒绝回答问题。
常用场景
经典使用场景
GMAI-MMBench 数据集被广泛应用于评估大型视觉语言模型(LVLMs)在真实临床场景中的表现。该数据集涵盖了广泛的医疗知识和临床任务,能够帮助研究者们评估 LVLMs 在疾病诊断、严重程度分级等医疗任务中的能力。此外,GMAI-MMBench 的多感知粒度特性使其能够评估 LVLMs 在不同感知层次上的交互能力,从而更好地满足临床需求。
衍生相关工作
GMAI-MMBench 数据集的发布引发了一系列相关研究。研究者们基于 GMAI-MMBench 进行 LVLMs 的评估和改进,探索其在医疗领域的应用潜力。此外,GMAI-MMBench 还促进了医疗 AI 基准的进一步发展,例如针对特定医疗任务或领域的基准构建,以及多模态医疗数据的整合和利用。
数据集最近研究
最新研究方向
GMAI-MMBench,作为当前最全面的通用医疗AI基准,其研究方向主要集中在医疗视觉语言模型(LVLMs)在现实临床场景中的应用评估。该数据集的设计旨在评估LVLMs在诊断和治疗等多种医疗任务中的有效性。GMAI-MMBench具有三个关键特点:1)全面的医疗知识,由来自世界各地的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构,具有18个临床视觉问答任务和18个临床部门,精心组织成词法树;3)多感知粒度,交互方法从图像到区域级别,提供不同程度的感知细节。该数据集的最新研究揭示了LVLMs在处理医疗任务时的局限性,例如在复杂推理任务和特定临床部门中的性能不平衡。此外,该研究还发现开源模型在性能上逐渐接近商业模型,但所有模型在多选择问题上的表现仍有待提高。GMAI-MMBench为医疗AI研究提供了一个强大的平台,有助于推动LVLMs在医疗领域的进一步发展。
相关研究论文
  • 1
    GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI上海人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录