DLC-Bench|图像识别数据集|自然语言处理数据集

arXiv2025-04-23 更新2025-04-24 收录

图像识别

自然语言处理

下载链接：

https://describe-anything.github.io/

下载链接

链接失效反馈

资源简介：

DLC-Bench是由NVIDIA提出的，用于评估详细局部化图像和视频字幕生成的基准。该数据集通过半监督学习数据管道DLC-SDP生成，它利用高质量的分段注释和未标记的网络图像来丰富区域描述。DLC-Bench的设计目的是为了评估详细局部化字幕，而无需依赖参考字幕，它为模型提供了多种粒度的评估，包括关键词级别、短语级别和详细的 multisentence 局部化图像和视频字幕生成。

提供机构：

NVIDIA

创建时间：

2025-04-23

AI搜集汇总

数据集介绍

构建方式

DLC-Bench数据集的构建采用了半监督学习（SSL）的数据管道（DLC-SDP），通过两个阶段实现高质量局部描述数据的生成。第一阶段利用现有分割数据集中的高质量掩码和关键词，通过视觉语言模型（VLM）将关键词扩展为基于掩码区域的详细描述。第二阶段通过自训练方法扩展至未标注的网络图像，结合CLIP置信度过滤和LLM摘要技术，生成多样化且高质量的局部描述数据。该数据集包含892个手动验证的问题，覆盖广泛的属性和潜在幻觉案例，确保评估的全面性和准确性。

特点

DLC-Bench数据集的核心特点在于其创新的评估方法，摒弃了传统依赖参考描述的评估方式，转而采用基于预定义正负属性的评估框架。该数据集通过正负问题对模型生成的描述进行评分，正问题关注区域应包含的细节，负问题则关注应避免的错误或无关信息。这种评估方式不仅更灵活准确，还能有效鼓励模型生成信息丰富且精确的描述，避免了因参考描述不完整而导致的误判。

使用方法

DLC-Bench的使用分为两个步骤：首先，模型需为基准数据集中的每个掩码区域生成详细描述；其次，通过文本语言模型（LLM）作为评判员，根据预定义的正负问题对生成描述进行评估。正问题评分基于描述是否准确包含指定细节，负问题则评估描述是否避免错误或无关信息。评分机制灵活，允许部分得分，并通过对对象识别的正确性进行验证，确保评估的严谨性。该基准适用于多粒度区域描述任务，包括关键词级、短语级和详细多句描述。

背景与挑战

背景概述

DLC-Bench是由NVIDIA、UC Berkeley和UCSF的研究团队于2025年提出的一个专注于详细局部图像和视频描述（Detailed Localized Captioning, DLC）的数据集。该数据集旨在解决视觉语言模型（VLMs）在生成特定区域详细描述时的核心挑战，包括局部细节丢失、高质量数据稀缺以及现有评估基准的局限性。DLC-Bench通过引入半监督学习数据管道（DLC-SDP）和基于属性的评估方法，显著提升了模型在细粒度区域理解任务上的表现。该数据集在7个基准测试中取得了最先进的性能，推动了计算机视觉和自然语言处理领域在细粒度视觉理解方面的发展。

当前挑战

DLC-Bench面临的挑战主要包括三个方面：1) 领域问题挑战：现有VLMs在生成特定区域的详细描述时，往往因从全局图像表示中提取局部特征而导致细粒度细节丢失，尤其是复杂场景中的小物体；2) 数据构建挑战：高质量DLC数据的稀缺性，现有数据集如RefCOCOs和Visual Genome通常只提供短短语，不足以训练模型生成丰富的详细描述；3) 评估挑战：现有基准依赖参考描述的文本匹配，无法全面评估生成描述的事实正确性和细节丰富度。DLC-Bench通过引入基于预定义属性的评估方法，消除了对参考描述的依赖，从而更准确地评估模型的细粒度描述能力。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，DLC-Bench数据集为细粒度区域描述任务提供了标准化的评估基准。该数据集通过预定义的正负属性评估机制，支持对图像视频中用户指定区域的详细描述质量进行无参考标注的客观衡量，典型应用于评估模型在复杂场景下对物体部件、纹理、空间关系等细节的捕捉能力。其创新性的评估范式尤其适合验证视觉语言模型在医疗影像分析、自动驾驶场景理解等需要精准区域描述的垂直领域表现。

解决学术问题

DLC-Bench有效解决了细粒度视觉描述任务中的三大核心挑战：区域细节丢失问题通过焦点提示机制保留高分辨率特征；数据稀缺问题通过半监督数据管道整合标注与网络图像；评估偏差问题则通过属性问答式评估摆脱对不完整参考描述的依赖。该数据集推动了对小物体识别精度、跨模态对齐质量、动态场景理解等关键研究议题的探索，为《Describe Anything Model》等创新模型提供了验证平台，显著提升了细粒度视觉描述的学术研究水平。

衍生相关工作

围绕DLC-Bench已衍生出系列创新研究：VP-SPHINX通过视觉提示增强实现跨模态定位，在基准测试中取得61.2%语义IoU；VideoRefer构建时空视频理解框架，将动态区域描述准确率提升至68.6%；RegionGPT采用区域感知架构，在Flickr30k实体数据集上实现74.7的CIDEr得分。这些工作共同推动了细粒度视觉描述技术向多粒度、多模态、动态化方向发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。