five

princeton-nlp/CharXiv|图表理解数据集|多模态处理数据集

收藏
hugging_face2024-07-15 更新2024-06-15 收录
图表理解
多模态处理
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/CharXiv
下载链接
链接失效反馈
资源简介:
CharXiv数据集是一个用于评估多模态大语言模型在图表理解方面能力的基准数据集。该数据集包含2,323张来自arXiv预印本的高分辨率图表,每张图表配有4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案。数据集的使用仅限于模型评估,不允许用于模型训练。
提供机构:
princeton-nlp
原始信息汇总

CharXiv 数据集概述

基本信息

  • 许可证: CC BY-SA 4.0
  • 任务类别:
    • 视觉问答
    • 文档问答
    • 问答
  • 语言: 英语
  • 标签:
    • 图表理解
    • 图表推理
    • 科学图表
    • 多模态大型语言模型
    • 图表
    • 图表问答
    • 视觉语言
  • 数据规模: 1K<n<10K

数据集描述

  • 名称: CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
  • 来源: 由人类专家完全策划,包含2,323张从arXiv预印本中手动收集的高分辨率图表。
  • 内容: 每张图表配对4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案,易于验证。

使用限制

  • 用途: 仅用于评估模型,不允许用于训练模型。

许可证

  • 问题许可证: CC BY-SA 4.0
  • 图表版权: 归原始作者所有,每个图表的来源在original_id列中提供,即包含这些图表的arXiv预印本编号。

联系方式

AI搜集汇总
数据集介绍
main_image_url
构建方式
CharXiv数据集是由人类专家精心策划的图表理解基准,涵盖了从arXiv预印本中手动选取的2,323张高分辨率图表。每张图表均配以四个描述性问题(其中三个可回答,一个不可回答)和一个推理问题,这些问题需要使用开放词汇简短回答,且易于验证。
特点
该数据集具有多样性和挑战性,专为评估多模态大型语言模型中的图表理解能力而设计。数据集中的图表均来源于科学文献,包含的问题涵盖了描述和推理两大类,且所有问题均需人类专家进行标注和验证,确保了数据集的高质量和可靠性。
使用方法
使用CharXiv数据集时,用户应遵循数据集的使用协议,仅将数据集用于模型评估而非训练。数据集遵循标准的数据集架构,用户在测试模型时,通常只需使用包含图像的压缩文件。此外,CharXiv评估结果可通过专门的评估工具获取,未来还将集成到lmms-eval和VLMEvalKit中。
背景与挑战
背景概述
CharXiv数据集,作为一项旨在揭示多模态大型语言模型在现实图表理解方面的差距的研究成果,由普林斯顿大学的研究团队于2024年在NeurIPS会议上提出。该数据集由人类专家精心策划,包含从arXiv预印本中手动选取的2,323张高分辨率图表,每张图表配有四个描述性问题(其中三个可以回答,一个无法回答)和一个推理问题,这些问题需要开放词汇的简短回答,并且易于验证。CharXiv数据集的创建填补了图表理解领域的研究空白,为多模态语言模型的研究与评估提供了新的基准。
当前挑战
CharXiv数据集面临的挑战主要体现在两个方面:一是领域问题的挑战,即如何通过图表理解提升多模态大型语言模型的性能;二是构建过程中的挑战,包括如何确保数据集的多样性和准确性,以及如何处理图表来源的版权问题。此外,数据集在构建过程中需要保证问题的可验证性和答案的开放性,这对于模型的评估提出了更高的要求。
常用场景
经典使用场景
在当前科学文献研究领域,CharXiv数据集以其独特的图表理解挑战,成为评估多模态大型语言模型能力的经典场景。该数据集由人工专家精心筛选并注释,包含来自arXiv预印本的2,323张高分辨率图表,每张图表均配以描述性和推理性问题,旨在检验模型对于图表信息的理解与推理能力。
实际应用
在实际应用中,CharXiv数据集可用于评估和改进多模态大型语言模型在科学图表理解方面的表现,进而推动科研领域的信息提取和知识发现,例如在生物信息学、物理学和经济学等领域的文献分析中发挥重要作用。
衍生相关工作
CharXiv数据集的发布促进了相关领域的研究,衍生出了一系列经典工作,如针对图表理解的模型改进、评估方法的发展以及跨模态信息处理的深入研究,为多模态人工智能领域的发展贡献了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录