princeton-nlp/CharXiv|图表理解数据集|多模态处理数据集
收藏CharXiv 数据集概述
基本信息
- 许可证: CC BY-SA 4.0
- 任务类别:
- 视觉问答
- 文档问答
- 问答
- 语言: 英语
- 标签:
- 图表理解
- 图表推理
- 科学图表
- 多模态大型语言模型
- 图表
- 图表问答
- 视觉语言
- 数据规模: 1K<n<10K
数据集描述
- 名称: CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
- 来源: 由人类专家完全策划,包含2,323张从arXiv预印本中手动收集的高分辨率图表。
- 内容: 每张图表配对4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案,易于验证。
使用限制
- 用途: 仅用于评估模型,不允许用于训练模型。
许可证
- 问题许可证: CC BY-SA 4.0
- 图表版权: 归原始作者所有,每个图表的来源在
original_id
列中提供,即包含这些图表的arXiv预印本编号。
联系方式
- 问题提交: GitHub 问题
- 电子邮件: zw1300@cs.princeton.edu

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录