five

EMMA (Enhanced MultiModal reAsoning)|多模态推理数据集|大语言模型数据集

收藏
arXiv2025-01-10 更新2025-01-14 收录
多模态推理
大语言模型
下载链接:
https://emma-benchmark.github.io/
下载链接
链接失效反馈
资源简介:
EMMA(增强多模态推理)数据集由电子科技大学、中山大学、华盛顿大学、微软和香港中文大学的研究团队共同创建,旨在评估多模态大语言模型在数学、物理、化学和编程领域的多模态推理能力。该数据集包含2788个问题,其中1796个是新构建的,问题类型涵盖选择题和开放式问题,涉及图像和文本的多模态推理任务。数据集的构建过程包括从现有基准中筛选问题,并通过与领域专家合作手动创建新问题。EMMA的应用领域主要集中在多模态推理能力的评估,旨在解决当前MLLMs在处理复杂多模态和多步推理任务时的局限性。
提供机构:
电子科技大学, 中山大学, 华盛顿大学, 微软, 香港中文大学
创建时间:
2025-01-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
EMMA数据集的构建过程分为两个主要步骤:首先,从现有的多模态推理基准中筛选出无法仅通过文本推理或单一视觉处理解决的问题;其次,通过与领域专家合作,手动构建新的问题,确保这些问题需要跨模态的深度推理。数据集涵盖了数学、物理、化学和编程四个领域,共包含2788个问题,其中1796个是新构建的。每个问题都经过严格的过滤流程,确保其真正需要多模态推理能力。
特点
EMMA数据集的特点在于其强调跨模态的深度推理能力,尤其是视觉推理与文本推理的结合。数据集中的问题设计复杂,通常需要多次视觉处理和多步推理,无法通过单一模态独立解决。例如,物理问题中的3D场模拟、化学中的反应模拟以及编程中的可视化生成任务,都要求模型在视觉和文本之间进行有机的推理。此外,EMMA还提供了细粒度的标签,帮助分析模型在不同推理技能上的表现。
使用方法
EMMA数据集的使用方法主要包括对多模态大语言模型(MLLMs)的评估和测试。用户可以通过直接提示或链式思维(Chain-of-Thought, CoT)提示来评估模型在多模态推理任务中的表现。数据集中的问题分为选择题和开放式问题,用户可以根据任务需求选择合适的评估方式。此外,EMMA还支持测试时计算扩展方法,如多数投票、最佳N选择和锦标赛式选择,以进一步探索模型在多模态推理中的潜力。
背景与挑战
背景概述
EMMA(Enhanced MultiModal reAsoning)是一个专注于评估多模态大语言模型(MLLMs)在多模态推理能力上的基准测试数据集。该数据集由来自中国电子科技大学、中山大学、华盛顿大学、微软和香港中文大学的研究团队于2025年创建,旨在解决现有基准测试中多模态推理能力评估不足的问题。EMMA涵盖了数学、物理、化学和编程四个领域,提出了需要跨模态推理的任务,要求模型在文本和视觉信息之间进行有机的推理。EMMA的创建填补了现有基准测试的空白,尤其是在复杂多模态推理任务上的评估,推动了多模态模型在跨模态推理能力上的研究。
当前挑战
EMMA面临的主要挑战包括两个方面:首先,多模态推理任务的复杂性要求模型能够同时处理文本和视觉信息,并进行多步推理,这对现有的MLLMs提出了极高的要求。尽管模型在单模态任务上表现出色,但在跨模态推理任务上表现不佳,尤其是在需要空间想象、视觉分解和多步推理的任务中。其次,数据集的构建过程中也面临挑战,尤其是在筛选和构建真正需要多模态推理的问题时,研究人员需要通过严格的过滤流程,确保问题无法仅通过文本或单次视觉处理解决。此外,EMMA还揭示了现有模型在视觉推理上的瓶颈,尤其是在需要精细空间模拟和多步视觉推理的任务中,模型的表现远低于人类专家水平。
常用场景
经典使用场景
EMMA数据集主要用于评估多模态大语言模型(MLLMs)在数学、物理、化学和编程等领域的多模态推理能力。其经典使用场景包括通过结合文本和图像信息,解决复杂的多模态推理问题。例如,在物理问题中,模型需要通过图像中的力矢量图来推断电场力的方向,或在化学问题中,通过分子结构图推断化学反应后的分子形态。
解决学术问题
EMMA数据集解决了多模态推理中的关键学术问题,特别是模型在处理需要跨模态推理的任务时的局限性。现有的基准测试大多侧重于文本主导的推理或浅层次的视觉理解,而EMMA通过设计复杂的多模态问题,要求模型在视觉和文本之间进行深度的交互推理。这些问题无法通过单一模态的独立推理解决,从而为评估和改进MLLMs的多模态推理能力提供了新的测试平台。
衍生相关工作
EMMA数据集衍生了许多相关的研究工作,特别是在多模态推理模型的改进和评估方面。例如,基于EMMA的研究提出了新的视觉推理架构和训练范式,以提升模型在复杂多模态任务中的表现。此外,EMMA还推动了多模态推理基准测试的发展,如MMMU-Pro等后续工作,进一步细化和扩展了多模态推理任务的评估范围。这些工作不仅提升了模型的多模态推理能力,还为未来的多模态人工智能研究提供了重要的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

PlantVillage Dataset

该数据集包含约54,305张植物叶子的图像,这些图像在受控环境下收集,涵盖14种不同的植物种类。数据集包含38种植物疾病类别和1种背景图像。

github 收录