five

princeton-nlp/CharXiv|图表理解数据集|多模态处理数据集

收藏
hugging_face2024-07-15 更新2024-06-15 收录
图表理解
多模态处理
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/CharXiv
下载链接
链接失效反馈
资源简介:
CharXiv数据集是一个用于评估多模态大语言模型在图表理解方面能力的基准数据集。该数据集包含2,323张来自arXiv预印本的高分辨率图表,每张图表配有4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案。数据集的使用仅限于模型评估,不允许用于模型训练。
提供机构:
princeton-nlp
原始信息汇总

CharXiv 数据集概述

基本信息

  • 许可证: CC BY-SA 4.0
  • 任务类别:
    • 视觉问答
    • 文档问答
    • 问答
  • 语言: 英语
  • 标签:
    • 图表理解
    • 图表推理
    • 科学图表
    • 多模态大型语言模型
    • 图表
    • 图表问答
    • 视觉语言
  • 数据规模: 1K<n<10K

数据集描述

  • 名称: CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
  • 来源: 由人类专家完全策划,包含2,323张从arXiv预印本中手动收集的高分辨率图表。
  • 内容: 每张图表配对4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案,易于验证。

使用限制

  • 用途: 仅用于评估模型,不允许用于训练模型。

许可证

  • 问题许可证: CC BY-SA 4.0
  • 图表版权: 归原始作者所有,每个图表的来源在original_id列中提供,即包含这些图表的arXiv预印本编号。

联系方式

AI搜集汇总
数据集介绍
main_image_url
构建方式
CharXiv数据集是由人类专家精心策划的图表理解基准,涵盖了从arXiv预印本中手动选取的2,323张高分辨率图表。每张图表均配以四个描述性问题(其中三个可回答,一个不可回答)和一个推理问题,这些问题需要使用开放词汇简短回答,且易于验证。
特点
该数据集具有多样性和挑战性,专为评估多模态大型语言模型中的图表理解能力而设计。数据集中的图表均来源于科学文献,包含的问题涵盖了描述和推理两大类,且所有问题均需人类专家进行标注和验证,确保了数据集的高质量和可靠性。
使用方法
使用CharXiv数据集时,用户应遵循数据集的使用协议,仅将数据集用于模型评估而非训练。数据集遵循标准的数据集架构,用户在测试模型时,通常只需使用包含图像的压缩文件。此外,CharXiv评估结果可通过专门的评估工具获取,未来还将集成到lmms-eval和VLMEvalKit中。
背景与挑战
背景概述
CharXiv数据集,作为一项旨在揭示多模态大型语言模型在现实图表理解方面的差距的研究成果,由普林斯顿大学的研究团队于2024年在NeurIPS会议上提出。该数据集由人类专家精心策划,包含从arXiv预印本中手动选取的2,323张高分辨率图表,每张图表配有四个描述性问题(其中三个可以回答,一个无法回答)和一个推理问题,这些问题需要开放词汇的简短回答,并且易于验证。CharXiv数据集的创建填补了图表理解领域的研究空白,为多模态语言模型的研究与评估提供了新的基准。
当前挑战
CharXiv数据集面临的挑战主要体现在两个方面:一是领域问题的挑战,即如何通过图表理解提升多模态大型语言模型的性能;二是构建过程中的挑战,包括如何确保数据集的多样性和准确性,以及如何处理图表来源的版权问题。此外,数据集在构建过程中需要保证问题的可验证性和答案的开放性,这对于模型的评估提出了更高的要求。
常用场景
经典使用场景
在当前科学文献研究领域,CharXiv数据集以其独特的图表理解挑战,成为评估多模态大型语言模型能力的经典场景。该数据集由人工专家精心筛选并注释,包含来自arXiv预印本的2,323张高分辨率图表,每张图表均配以描述性和推理性问题,旨在检验模型对于图表信息的理解与推理能力。
实际应用
在实际应用中,CharXiv数据集可用于评估和改进多模态大型语言模型在科学图表理解方面的表现,进而推动科研领域的信息提取和知识发现,例如在生物信息学、物理学和经济学等领域的文献分析中发挥重要作用。
衍生相关工作
CharXiv数据集的发布促进了相关领域的研究,衍生出了一系列经典工作,如针对图表理解的模型改进、评估方法的发展以及跨模态信息处理的深入研究,为多模态人工智能领域的发展贡献了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录