VRD (Visual Relationship Detection dataset)|计算机视觉数据集|自然语言处理数据集

OpenDataLab2025-03-22 更新2024-05-09 收录

计算机视觉

自然语言处理

public

101条

17MB

下载链接：

https://opendatalab.org.cn/OpenDataLab/VRD

下载链接

链接失效反馈

资源简介：

一个包含 5000 张图像和 3799.3 万个关系的数据集。该数据集包含 100 个对象类别和 70 个将这些对象连接在一起的谓词类别。视觉关系捕捉图像中对象对之间的各种交互（例如“骑自行车的人”和“推自行车的人”）。因此，可能的关系集非常大，很难为所有可能的关系获得足够的训练样本。由于这个限制，以前关于视觉关系检测的工作集中在预测少数关系上。尽管大多数关系并不频繁，但它们的对象（例如“man”和“bicycle”）和谓词（例如“riding”和“push”）独立出现的频率更高。我们提出了一个模型，该模型使用这种洞察力单独训练对象和谓词的视觉模型，然后将它们组合在一起以预测每个图像的多个关系。我们通过利用语义词嵌入中的语言先验来微调预测关系的可能性，从而改进先前的工作。我们的模型可以扩展以从几个示例中预测数千种类型的关系。此外，我们将预测关系中的对象定位为图像中的边界框。我们进一步证明了理解关系可以改进基于内容的图像检索。

提供机构：

OpenDataLab

开放时间：

2022-04-29

创建时间：

2022-04-29