array/socratis_image_text_emotion|情感分析数据集|多模态数据数据集
收藏SOCRATIS 数据集概述
数据集描述
SOCRATIS 是一个包含多样性开放式情感反应的基准数据集,针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因,基于 2,000 个图像-标题对。
数据格式
数据集文件 test.json
包含测试数据,格式如下:
json
{
"unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...]
}
unique_id
:图像-标题对的唯一标识符。- 每个
unique_id
键对应一个列表,包含来自不同工作者的多个条目。 - 每个条目包括情感及其解释,以及可能缺失的匿名化人口统计信息(可选且匿名)。
数据文件
图像文件存储在以下链接中:https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing
初步发现
- 人类更偏好人类编写的情感反应,而非机器生成的情感反应,偏好比例超过两倍。
- 当前的评估指标未能与人类偏好相关联,表明存在大量研究空间。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录