MME-RealWorld|图像注释数据集|机器学习基准数据集
收藏MME-RealWorld 数据集概述
数据集详情
MME-RealWorld 是一个精心设计的基准数据集,旨在解决现实世界应用中的实际问题。该数据集具有以下特点:
-
数据规模:
- 由32名志愿者手动标注,包含29,429个针对现实场景的问答对,是目前已知最大的完全人工标注的基准数据集。
-
数据质量:
- 分辨率:包含13,366张平均分辨率为2,000 × 1,500像素的高分辨率图像,有助于提供有意义的人类辅助。
- 标注:所有标注均由专业团队手动完成,并进行交叉检查以确保数据质量。
-
任务难度和现实世界实用性:
- 即使是目前最先进的模型,准确率也未超过60%。
- 许多现实世界任务的难度远超传统基准数据集中的任务,例如视频监控中需要计数133辆车辆,或在遥感中识别和计数地图上平均分辨率超过5000×5000的小物体。
-
MME-RealWord-CN:
- 针对现有中文基准数据集通常从英文版本翻译而来的局限性,收集了聚焦于中国场景的额外图像,并由中国志愿者进行标注,共包含5,917个问答对。
使用方法
由于图像文件较大且已被分割成多个压缩部分,请首先将相同名称的压缩文件合并,然后一起提取。
bash #!/bin/bash
导航到包含分割文件的目录
cd TARFILES
循环处理每个分割文件集
for part in *.tar.gz.part_aa; do # 提取文件的基本名称 base_name=$(basename "$part" .tar.gz.part_aa)
# 将分割文件合并为一个存档
cat "${base_name}".tar.gz.part_* > "${base_name}.tar.gz"
# 提取合并后的存档
tar -xzf "${base_name}.tar.gz"
# 可选:删除临时的合并存档
rm "${base_name}.tar.gz"
done

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心2024-07-05 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github2024-09-19 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv2024-09-26 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab2024-05-09 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github2024-06-19 收录