princeton-nlp/CharXiv|图表理解数据集|多模态处理数据集
收藏hugging_face2024-07-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/CharXiv
下载链接
链接失效反馈资源简介:
CharXiv数据集是一个用于评估多模态大语言模型在图表理解方面能力的基准数据集。该数据集包含2,323张来自arXiv预印本的高分辨率图表,每张图表配有4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案。数据集的使用仅限于模型评估,不允许用于模型训练。
提供机构:
princeton-nlp
原始信息汇总
CharXiv 数据集概述
基本信息
- 许可证: CC BY-SA 4.0
- 任务类别:
- 视觉问答
- 文档问答
- 问答
- 语言: 英语
- 标签:
- 图表理解
- 图表推理
- 科学图表
- 多模态大型语言模型
- 图表
- 图表问答
- 视觉语言
- 数据规模: 1K<n<10K
数据集描述
- 名称: CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
- 来源: 由人类专家完全策划,包含2,323张从arXiv预印本中手动收集的高分辨率图表。
- 内容: 每张图表配对4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案,易于验证。
使用限制
- 用途: 仅用于评估模型,不允许用于训练模型。
许可证
- 问题许可证: CC BY-SA 4.0
- 图表版权: 归原始作者所有,每个图表的来源在
original_id列中提供,即包含这些图表的arXiv预印本编号。
联系方式
- 问题提交: GitHub 问题
- 电子邮件: zw1300@cs.princeton.edu
AI搜集汇总
数据集介绍

构建方式
CharXiv数据集是由人类专家精心策划的图表理解基准,涵盖了从arXiv预印本中手动选取的2,323张高分辨率图表。每张图表均配以四个描述性问题(其中三个可回答,一个不可回答)和一个推理问题,这些问题需要使用开放词汇简短回答,且易于验证。
特点
该数据集具有多样性和挑战性,专为评估多模态大型语言模型中的图表理解能力而设计。数据集中的图表均来源于科学文献,包含的问题涵盖了描述和推理两大类,且所有问题均需人类专家进行标注和验证,确保了数据集的高质量和可靠性。
使用方法
使用CharXiv数据集时,用户应遵循数据集的使用协议,仅将数据集用于模型评估而非训练。数据集遵循标准的数据集架构,用户在测试模型时,通常只需使用包含图像的压缩文件。此外,CharXiv评估结果可通过专门的评估工具获取,未来还将集成到lmms-eval和VLMEvalKit中。
背景与挑战
背景概述
CharXiv数据集,作为一项旨在揭示多模态大型语言模型在现实图表理解方面的差距的研究成果,由普林斯顿大学的研究团队于2024年在NeurIPS会议上提出。该数据集由人类专家精心策划,包含从arXiv预印本中手动选取的2,323张高分辨率图表,每张图表配有四个描述性问题(其中三个可以回答,一个无法回答)和一个推理问题,这些问题需要开放词汇的简短回答,并且易于验证。CharXiv数据集的创建填补了图表理解领域的研究空白,为多模态语言模型的研究与评估提供了新的基准。
当前挑战
CharXiv数据集面临的挑战主要体现在两个方面:一是领域问题的挑战,即如何通过图表理解提升多模态大型语言模型的性能;二是构建过程中的挑战,包括如何确保数据集的多样性和准确性,以及如何处理图表来源的版权问题。此外,数据集在构建过程中需要保证问题的可验证性和答案的开放性,这对于模型的评估提出了更高的要求。
常用场景
经典使用场景
在当前科学文献研究领域,CharXiv数据集以其独特的图表理解挑战,成为评估多模态大型语言模型能力的经典场景。该数据集由人工专家精心筛选并注释,包含来自arXiv预印本的2,323张高分辨率图表,每张图表均配以描述性和推理性问题,旨在检验模型对于图表信息的理解与推理能力。
实际应用
在实际应用中,CharXiv数据集可用于评估和改进多模态大型语言模型在科学图表理解方面的表现,进而推动科研领域的信息提取和知识发现,例如在生物信息学、物理学和经济学等领域的文献分析中发挥重要作用。
衍生相关工作
CharXiv数据集的发布促进了相关领域的研究,衍生出了一系列经典工作,如针对图表理解的模型改进、评估方法的发展以及跨模态信息处理的深入研究,为多模态人工智能领域的发展贡献了新的视角和方法论。
以上内容由AI搜集并总结生成



