GMAI-MMBench|医疗AI数据集|评估基准数据集

arXiv2024-08-09 更新2024-08-10 收录

医疗AI

评估基准

下载链接：

https://uni-medical.github.io/GMAI-MMBench.github.io/

下载链接

链接失效反馈

资源简介：

GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准，包含285个高质量数据集，覆盖39种医疗图像模态和18个临床任务。数据集内容丰富，包括2D检测、分类和2D/3D分割等多种任务，数据来源于全球各地的公共和医院资源。创建过程中，数据集经过严格筛选和标准化处理，确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用，特别是在疾病诊断和治疗方面的辅助能力。

提供机构：

上海人工智能实验室

创建时间：

2024-08-07

AI搜集汇总

数据集介绍

构建方式

GMAI-MMBench数据集的构建过程分为三个主要步骤。首先，数据集收集和标准化，从公共来源和医院收集285个高质量的数据集，涵盖各种医学图像任务，包括2D检测、2D分类和2D/3D分割。其次，标签分类和词汇树构建，将所有标签分为18个临床VQA任务、18个临床部门和35个模态，并生成词汇树结构以方便自定义评估。最后，QA生成和选择，为每个标签生成VQA对，并进行人工验证和选择，确保数据质量和平衡分布。

特点

GMAI-MMBench数据集具有三个主要特点：1）全面的医学知识：由来自全球的285个多样化的临床相关数据集组成，涵盖39种模态；2）良好的分类数据结构：包含18个临床VQA任务和18个临床部门，精心组织成词汇树；3）多感知粒度：交互方法从图像到区域级别，提供不同程度的感知细节。

使用方法

使用GMAI-MMBench数据集时，用户可以根据词汇树结构自定义评估任务，选择所需的数据点和评估指标。此外，用户还可以根据模型的需求选择不同的感知粒度，如图像、区域、掩码和轮廓级别，以评估模型在不同任务和感知粒度上的性能。

背景与挑战

背景概述

在医疗领域，大型视觉语言模型（LVLMs）展现出巨大的潜力，能够处理图像、文本和生理信号等多种数据类型，并在疾病诊断和治疗等方面提供辅助。为了评估LVLMs在医疗应用中的有效性，建立一个全面的基准至关重要。当前存在的基准通常基于特定学术文献，主要关注单一领域，缺乏感知粒度变化，导致临床相关性有限、评估不完整、对交互式LVLMs的指导不足等问题。为了解决这些限制，研究人员开发了GMAI-MMBench，这是迄今为止最全面的通用医疗AI基准，具有分类良好的数据结构和多感知粒度。GMAI-MMBench由来自全球的285个数据集构建，涵盖39种医疗图像模态、18个临床相关任务、18个科室和4种感知粒度，以视觉问答（VQA）格式组织。此外，它还实现了词汇树结构，允许用户自定义评估任务，以满足各种评估需求，并极大地支持医疗AI研究和应用。

当前挑战

GMAI-MMBench在临床实践中提出了重大挑战。即使是最好的模型GPT-4o也仅能达到52.24%的准确率，这表明最先进的LVLMs在处理医疗专业问题上存在不足，难以满足多样化的临床需求。此外，开源LVLMs（如MedDr和DeepSeek-VL-7B）的准确率约为41%，与专有模型相比具有竞争力，但仍存在明显差距。大多数医疗专用模型难以达到中等性能水平（约30%的准确率），而大多数LVLMs在不同临床VQA任务、科室和感知粒度方面表现出不平衡的性能。主要导致性能瓶颈的因素包括感知错误、缺乏医疗领域知识、不相关的回答以及因安全协议而拒绝回答问题。

常用场景

经典使用场景

GMAI-MMBench 数据集被广泛应用于评估大型视觉语言模型（LVLMs）在真实临床场景中的表现。该数据集涵盖了广泛的医疗知识和临床任务，能够帮助研究者们评估 LVLMs 在疾病诊断、严重程度分级等医疗任务中的能力。此外，GMAI-MMBench 的多感知粒度特性使其能够评估 LVLMs 在不同感知层次上的交互能力，从而更好地满足临床需求。

衍生相关工作

GMAI-MMBench 数据集的发布引发了一系列相关研究。研究者们基于 GMAI-MMBench 进行 LVLMs 的评估和改进，探索其在医疗领域的应用潜力。此外，GMAI-MMBench 还促进了医疗 AI 基准的进一步发展，例如针对特定医疗任务或领域的基准构建，以及多模态医疗数据的整合和利用。

数据集最近研究