MME-RealWorld|图像注释数据集|机器学习基准数据集

huggingface2024-08-24 更新2024-12-12 收录

图像注释

机器学习基准

下载链接：

https://huggingface.co/datasets/yifanzhang114/MME-RealWorld

下载链接

链接失效反馈

资源简介：

MME-RealWorld是一个精心设计的基准，旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像，平均分辨率为2,000 × 1,500像素，涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释，涉及43个任务。数据集的主要优势包括：1) 数据规模：由32名志愿者手动注释的29,429个QA对，是目前已知的最大全人工注释基准。2) 数据质量：高分辨率图像和人工完成的注释，确保了数据质量。3) 任务难度和实际应用价值：即使是最高级的模型，准确率也未超过60%，许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN：针对中文场景收集的图像和注释，解决了英文版本翻译可能存在的问题。

开放时间：

2024-08-17

创建时间：

2024-08-17

原始信息汇总

MME-RealWorld 数据集概述

数据集详情

MME-RealWorld 是一个精心设计的基准数据集，旨在解决现实世界应用中的实际问题。该数据集具有以下特点：

数据规模：
- 由32名志愿者手动标注，包含29,429个针对现实场景的问答对，是目前已知最大的完全人工标注的基准数据集。
数据质量：
- 分辨率：包含13,366张平均分辨率为2,000 × 1,500像素的高分辨率图像，有助于提供有意义的人类辅助。
- 标注：所有标注均由专业团队手动完成，并进行交叉检查以确保数据质量。
任务难度和现实世界实用性：
- 即使是目前最先进的模型，准确率也未超过60%。
- 许多现实世界任务的难度远超传统基准数据集中的任务，例如视频监控中需要计数133辆车辆，或在遥感中识别和计数地图上平均分辨率超过5000×5000的小物体。
MME-RealWord-CN：
- 针对现有中文基准数据集通常从英文版本翻译而来的局限性，收集了聚焦于中国场景的额外图像，并由中国志愿者进行标注，共包含5,917个问答对。

使用方法

由于图像文件较大且已被分割成多个压缩部分，请首先将相同名称的压缩文件合并，然后一起提取。

bash #!/bin/bash

导航到包含分割文件的目录

cd TARFILES

循环处理每个分割文件集

for part in *.tar.gz.part_aa; do # 提取文件的基本名称 base_name=$(basename "$part" .tar.gz.part_aa)

# 将分割文件合并为一个存档
cat "${base_name}".tar.gz.part_* > "${base_name}.tar.gz"

# 提取合并后的存档
tar -xzf "${base_name}.tar.gz"

# 可选：删除临时的合并存档
rm "${base_name}.tar.gz"

done

AI搜集汇总

数据集介绍

构建方式

MME-RealWorld数据集的构建过程体现了对真实世界应用场景的深度关注。该数据集由32名志愿者手动标注，涵盖了13,366张高分辨率图像，平均分辨率为2000×1500像素，生成了29,429个问答对，覆盖了43个任务。这些任务分布在5个真实场景中，确保了数据的多样性和实用性。所有标注均由专业团队交叉验证，确保了数据的高质量。此外，数据集还特别关注了中文场景，收集了5,917个中文问答对，避免了翻译带来的不准确性。

特点

MME-RealWorld数据集以其大规模、高质量和高难度著称。作为目前最大的人工标注基准，其图像分辨率在现有竞争者中处于领先地位，确保了细节信息的完整性。数据集的问答对涵盖了广泛的真实场景任务，难度显著高于传统基准，即使是当前最先进的模型也难以达到60%的准确率。此外，数据集还特别推出了中文版本，避免了翻译带来的问题，进一步提升了数据的实用性和准确性。

使用方法

MME-RealWorld数据集的使用方法较为灵活，支持多种评估工具。用户可以通过VLMEvalKit和Lmms-eval库进行一键评估，快速验证模型性能。由于图像文件较大且被分割成多个压缩部分，用户需先合并同名压缩文件，然后统一解压。数据集还提供了Lite版本，包含每个任务的50个样本，适合加速推理过程。具体操作可通过提供的脚本实现，确保数据处理的高效性和准确性。

背景与挑战

背景概述

MME-RealWorld数据集于2024年8月20日由一支由25名众包工作者和7名多模态大语言模型（MLLM）专家组成的团队发布，旨在解决现有多模态大语言模型基准在现实世界应用中的局限性。该数据集包含13,366张高分辨率图像和29,429个问答对，覆盖了43个任务，专注于现实场景中的复杂问题。MME-RealWorld以其大规模、高质量的手动标注和高分辨率图像，成为当前最大的手动标注基准之一，显著推动了多模态大语言模型在真实环境中的应用研究。

当前挑战

MME-RealWorld数据集在构建过程中面临多重挑战。首先，数据规模的扩展需要大量人力投入，32名志愿者手动标注了29,429个问答对，确保数据的高质量。其次，高分辨率图像的采集与处理增加了技术难度，尤其是在视频监控和遥感等任务中，模型需要识别极小物体或复杂场景。此外，任务设计的复杂性要求模型具备更高的推理能力，现有模型的准确率普遍低于60%，表明其在真实场景中的应用仍存在显著瓶颈。最后，针对中文场景的数据收集与标注也面临翻译不准确和文化差异的挑战，需额外投入资源以确保数据的适用性。

常用场景

经典使用场景

MME-RealWorld数据集在视觉问答（VQA）和多模态大语言模型（MLLM）评估中展现了其独特的价值。该数据集通过包含13,366张高分辨率图像和29,429个手动标注的问答对，覆盖了43个真实世界场景的子任务，为模型提供了丰富的视觉和语言信息。研究人员可以利用该数据集进行多模态模型的训练和评估，特别是在高分辨率图像处理和复杂场景理解方面，MME-RealWorld为模型性能的提升提供了强有力的支持。

解决学术问题

MME-RealWorld数据集有效解决了现有多模态大语言模型基准测试中的几个关键问题。首先，其大规模的手动标注数据显著减少了模型性能的方差，确保了评估结果的稳定性。其次，高分辨率的图像和专业的标注团队保证了数据的质量，避免了模型生成标注带来的偏差。此外，数据集中的任务设计更具挑战性，能够更好地反映模型在真实世界中的表现，尤其是在复杂场景下的识别和推理能力。

衍生相关工作

MME-RealWorld数据集的发布催生了一系列相关研究和技术突破。例如，LLaVA-OV模型在该数据集上的表现推动了多模态模型在复杂场景下的优化。此外，VLMEvalKit和Lmms-eval等评估工具的支持，使得研究人员能够更便捷地进行模型评估和比较。这些工作不仅提升了多模态模型的性能，也为未来的研究提供了新的方向和基准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能 - 构建机器生命的训练基石

数据集 93个

机构 8个

大模型

数据集 439个

机构 10个

自动驾驶

数据集 34个

机构 7个

医学影像

数据集 123个

机构 7个

空间智能

数据集 21个

机构 5个

蛋白质结构

数据集 50个

机构 8个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心2024-07-05 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github2024-09-19 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv2024-09-26 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab2024-05-09 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github2024-06-19 收录