VRD (Visual Relationship Detection dataset)|计算机视觉数据集|自然语言处理数据集
收藏OpenDataLab2025-03-22 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VRD
下载链接
链接失效反馈资源简介:
一个包含 5000 张图像和 3799.3 万个关系的数据集。该数据集包含 100 个对象类别和 70 个将这些对象连接在一起的谓词类别。视觉关系捕捉图像中对象对之间的各种交互(例如“骑自行车的人”和“推自行车的人”)。因此,可能的关系集非常大,很难为所有可能的关系获得足够的训练样本。由于这个限制,以前关于视觉关系检测的工作集中在预测少数关系上。尽管大多数关系并不频繁,但它们的对象(例如“man”和“bicycle”)和谓词(例如“riding”和“push”)独立出现的频率更高。我们提出了一个模型,该模型使用这种洞察力单独训练对象和谓词的视觉模型,然后将它们组合在一起以预测每个图像的多个关系。我们通过利用语义词嵌入中的语言先验来微调预测关系的可能性,从而改进先前的工作。我们的模型可以扩展以从几个示例中预测数千种类型的关系。此外,我们将预测关系中的对象定位为图像中的边界框。我们进一步证明了理解关系可以改进基于内容的图像检索。
提供机构:
OpenDataLab
开放时间:
2022-04-29
创建时间:
2022-04-29