five

CC-OCR|OCR技术数据集|多模态模型数据集

收藏
arXiv2024-12-05 更新2024-12-07 收录
OCR技术
多模态模型
下载链接:
https://github.com/QwenLM/CC-OCR
下载链接
链接失效反馈
资源简介:
CC-OCR是由阿里巴巴集团和华中科技大学共同创建的综合性OCR基准数据集,旨在评估大型多模态模型在识字能力方面的表现。该数据集包含四个主要任务:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取,涵盖39个子任务,包含7,058张全标注图像,其中41%来自实际应用。数据集的创建过程注重多样性、实用性和挑战性,涵盖自然场景、真实文档和手写图像等多种数据源。CC-OCR的应用领域广泛,包括文档数字化、办公机器人和城市监控等,旨在解决复杂文本识别和多模态理解的问题。
提供机构:
阿里巴巴集团
创建时间:
2024-12-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
CC-OCR数据集的构建遵循多样性、实用性和挑战性的原则,涵盖了多种场景和任务。数据来源包括现有的具有合格注释的基准数据集、需要重新注释以满足LMMs评估标准的数据集,以及自收集的数据集。具体而言,CC-OCR包括四个以OCR为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。数据集包含39个子集,共7058张全注释图像,其中41%来自实际应用,首次发布。
特点
CC-OCR数据集的特点在于其全面性和挑战性。它不仅涵盖了多种语言和场景,还包括了细粒度的视觉挑战,如方向敏感性、定位、自然噪声和艺术文本。此外,数据集还包括了多种表达形式的解码和结构化输入输出,如数学公式、化学分子式、HTML和JSON格式。这些特点使得CC-OCR成为评估大型多模态模型在OCR任务中能力的理想基准。
使用方法
CC-OCR数据集的使用方法包括对多场景文本阅读、多语言文本阅读、文档解析和关键信息提取任务的评估。评估方法包括使用类似于TextMonkey的Eval-Trans和EvalPos指标进行OCR评估,以及使用归一化编辑距离(NED)和树编辑距离相似性(TEDS)进行文档解析评估。对于关键信息提取任务,采用字段级别的F1分数进行评估。此外,数据集还提供了详细的注释和评估方法,确保模型性能的准确评估。
背景与挑战
背景概述
CC-OCR数据集由阿里巴巴集团、华中科技大学和华南理工大学联合开发,旨在为评估大型多模态模型在文字识别(OCR)任务中的表现提供一个全面且具有挑战性的基准。该数据集创建于2024年,涵盖了多场景文本阅读、多语言文本阅读、文档解析和关键信息提取四大核心任务,包含39个子集和7058张全标注图像。CC-OCR的推出填补了当前多模态模型在复杂结构和细粒度视觉挑战方面评估的空白,对推动多模态模型在实际应用中的进步具有重要意义。
当前挑战
CC-OCR数据集在构建过程中面临多重挑战。首先,解决领域问题的挑战在于如何全面评估多模态模型在不同场景和任务中的表现,特别是多方向文本和自然噪声等细粒度视觉挑战。其次,构建过程中的挑战包括数据集的多样性和实用性,确保数据来源广泛且具有代表性,同时需要对现有数据进行重新标注以满足多模态模型的评估标准。此外,数据集的标注过程复杂,需确保标注的准确性和一致性,以支持多模态模型的全面评估。
常用场景
经典使用场景
CC-OCR数据集在评估大型多模态模型(LMMs)的识字能力方面具有经典应用场景。该数据集通过四个核心任务——多场景文本阅读、多语言文本阅读、文档解析和关键信息提取,全面评估LMMs在处理复杂结构和细粒度视觉挑战方面的能力。这些任务涵盖了从自然场景到文档的各种文本识别需求,为模型提供了广泛的训练和测试环境。
衍生相关工作
CC-OCR数据集的发布催生了一系列相关研究工作,特别是在多场景文本阅读、多语言文本识别和文档解析等领域。例如,基于CC-OCR的评估结果,研究者们提出了多种改进模型,以提升LMMs在复杂文本环境下的识别精度和鲁棒性。此外,CC-OCR还激发了对文本识别和文档解析任务的深入研究,推动了相关技术的创新和发展。
数据集最近研究
最新研究方向
CC-OCR数据集在多模态大模型(LMMs)的评估中展现了其在多场景文本阅读、多语言文本阅读、文档解析和关键信息提取等任务中的全面性和挑战性。最新的研究方向集中在通过CC-OCR数据集对LMMs进行系统性评估,揭示其在文本定位、多方向文本处理和重复幻觉等方面的优势与不足。研究者们通过对比分析不同LMMs在CC-OCR上的表现,提出了提升模型在复杂视觉挑战和多语言环境下性能的策略,推动了LMMs在实际应用中的进一步发展。
相关研究论文
  • 1
    CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy阿里巴巴集团 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录