array/socratis_image_text_emotion|情感分析数据集|多模态数据数据集

hugging_face2023-12-01 更新2024-03-04 收录

情感分析

多模态数据

下载链接：

https://hf-mirror.com/datasets/array/socratis_image_text_emotion

下载链接

链接失效反馈

资源简介：

SOCRATIS是一个包含18K种不同情感及其原因的数据集，基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应，并比较人类编写的情感反应与机器生成的反应。初步研究显示，人类更喜欢人类编写的情感反应，且当前的评价指标与人类偏好不相关，表明有进一步研究的空间。数据集公开发布，包含测试数据，格式为每个图像-标题对的唯一ID对应一系列情感和解释，部分数据可能缺少匿名化的人口统计信息。

提供机构：

array

原始信息汇总

SOCRATIS 数据集概述

数据集描述

SOCRATIS 是一个包含多样性开放式情感反应的基准数据集，针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因，基于 2,000 个图像-标题对。

数据格式

数据集文件 test.json 包含测试数据，格式如下： json { "unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...] }

unique_id：图像-标题对的唯一标识符。
每个 unique_id 键对应一个列表，包含来自不同工作者的多个条目。
每个条目包括情感及其解释，以及可能缺失的匿名化人口统计信息（可选且匿名）。

数据文件

图像文件存储在以下链接中：https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing

初步发现

人类更偏好人类编写的情感反应，而非机器生成的情感反应，偏好比例超过两倍。
当前的评估指标未能与人类偏好相关联，表明存在大量研究空间。

AI搜集汇总

数据集介绍

构建方式

SOCRATIS数据集通过精心设计，收集了18,000个多样化的情感反应及其原因，这些反应基于2,000对图像-文本配对。数据集的构建过程包括从多个工作者中收集情感和解释，每个图像-文本配对都有一个唯一的标识符，并包含多个工作者的输入。情感和解释的收集是开放式的，允许工作者自由表达他们的情感反应。此外，数据集还包含了可选的匿名化人口统计信息，尽管许多注释中可能缺少这些信息。

使用方法

SOCRATIS数据集适用于多种任务，包括文本分类、图像分类和对话系统。使用者可以通过访问提供的测试数据文件`test.json`，获取图像-文本配对的情感反应和解释。每个配对都有一个唯一的标识符，并包含多个工作者的输入。图像文件可通过提供的链接下载。数据集的开放性和多样性使其成为情感计算和自然语言处理研究的宝贵资源，尤其适用于需要深入理解人类情感反应的应用场景。

背景与挑战

背景概述

SOCRATIS数据集由ICCV WECIA Workshop 2023（口头报告）发布，主要研究人员通过该项目页面和相关论文详细介绍了其构建过程。该数据集包含18,000个多样化的情感反应及其原因，基于2,000个图像-文本对。其核心研究问题在于探索人类对图像-文本对的情感反应，并比较人类与机器生成的情感反应的差异。初步研究结果表明，人类更倾向于人类书写的情感反应，而非机器生成的反应。此外，现有评估指标未能有效反映人类偏好，这为未来的研究提供了广阔的空间。

当前挑战

SOCRATIS数据集在构建过程中面临的主要挑战包括：首先，如何确保情感反应的多样性和真实性，以反映人类对图像-文本对的复杂情感。其次，现有评估指标未能有效衡量人类偏好，这需要开发新的评估方法。此外，数据集中部分匿名化的人口统计信息缺失，这可能影响情感反应的全面分析。最后，如何平衡数据集的多样性与代表性，以确保其在情感分析和对话系统中的广泛应用，也是一个重要的挑战。

常用场景

经典使用场景

在情感分析与图像理解领域，SOCRATIS数据集以其独特的图像-文本情感反应对为研究者提供了丰富的资源。该数据集通过2000对图像-文本组合，涵盖了18000种多样化的情感反应及其解释，为研究情感识别、情感生成以及人机交互中的情感表达提供了宝贵的数据支持。

解决学术问题

SOCRATIS数据集解决了当前情感分析研究中的一大难题，即机器生成的情感反应与人类实际情感反应之间的差异。通过提供人类对图像-文本对的情感反应及其解释，该数据集为研究者提供了一个评估和改进情感生成模型的基准，有助于推动情感计算领域的发展。

实际应用

在实际应用中，SOCRATIS数据集可用于开发和优化情感识别系统，如社交媒体情感分析、客户服务机器人以及心理健康监测工具。通过理解和模拟人类的情感反应，这些系统能够提供更加个性化和人性化的服务，从而提升用户体验和满意度。

数据集最近研究

最新研究方向

在情感计算与图像理解领域，SOCRATIS数据集的最新研究方向聚焦于探索人类对图像-文本对情感反应的多样性和复杂性。该数据集不仅提供了丰富的情感标签和解释，还揭示了当前情感生成模型与人类偏好之间的显著差距。研究者们正致力于开发新的评估指标，以更准确地衡量模型生成的情感反应与人类真实情感之间的相关性。此外，数据集中匿名化的社会人口统计信息为研究不同群体的情感反应差异提供了宝贵资源，推动了跨文化情感分析和个性化情感模型的前沿研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录