five

CMACD|情感计算数据集|社交媒体分析数据集

收藏
github2024-11-13 更新2024-11-14 收录
情感计算
社交媒体分析
下载链接:
https://github.com/yeaso/Chinese-Affective-Computing-Dataset
下载链接
链接失效反馈
资源简介:
这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
创建时间:
2024-11-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算领域,现有的数据集往往将情感和人格特质分开标注,缺乏对微情感和情感强度的细致标注。为填补这一空白,本研究从主要社交媒体平台微博中筛选出11,338名有效用户,这些用户来自超过50,000名个体,并具有多样的MBTI人格标签。通过收集这些用户的566,900条帖子及其MBTI人格标签,采用EQN方法,构建了一个多标签的中文情感计算数据集,该数据集整合了同一用户的六种情感和微情感,并标注了情感强度。
使用方法
CMACD数据集主要面向具有合法需求的科研人员,使用者需通过电子邮件申请获取数据集。为展示数据集的特性和应用价值,并方便基础测试和反馈,研究团队已公开了一个小样本数据集demo.csv。使用者可通过访问指定链接获取该小样本数据集,并参考相关文献进行数据集的引用和使用。
背景与挑战
背景概述
情感与个性是理解人类心理状态的核心要素。现有的情感计算数据集通常将情感和个性特征分开标注,缺乏对微情感和情感强度的细粒度标注,尤其是在单一标签和多标签分类中。中文情感数据集极为稀缺,而捕捉中国用户个性特征的数据集更是有限。为填补这一空白,本研究从主要社交媒体平台微博中收集数据,筛选出11,338名有效用户,这些用户来自超过50,000名具有多样MBTI个性标签的个体,并获取了566,900条帖子及其用户的MBTI个性标签。通过EQN方法,我们构建了一个多标签中文情感计算数据集,该数据集将同一用户的个性特征与六种情感和微情感相结合,每种情感均标注有强度等级。多个NLP分类模型的验证结果显示了该数据集的强大实用性。此数据集旨在推动机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
当前挑战
尽管该数据集已采取隐私保护措施,但由于涉及人类个性和情感的研究,确保用户安全成为一大挑战。CMACD仅免费提供给有合法需求的研究人员。此外,构建过程中面临的挑战包括从海量社交媒体数据中筛选有效用户和帖子,以及对情感和个性特征进行细粒度标注。这些挑战不仅要求高度的数据处理能力,还需要精确的心理学和情感分析方法。
常用场景
经典使用场景
在情感计算领域,CMACD数据集的经典使用场景主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了一个精细化的情感标注平台。研究者可以利用此数据集训练和验证情感分类模型,探索情感与人格之间的复杂关系,从而提升机器对人类情感状态的识别能力。
解决学术问题
CMACD数据集解决了现有情感计算数据集中情感与个性特征分离的问题,填补了中文情感数据集的空白。通过引入微情感和情感强度的多标签标注,该数据集为心理学、教育学、市场营销等多个领域的研究提供了丰富的数据支持。其精细化的标注方式有助于深入理解人类情感的复杂性,推动情感计算领域的发展。
实际应用
在实际应用中,CMACD数据集可用于开发情感分析工具,帮助企业进行市场调研和消费者行为分析。例如,在金融领域,通过分析用户的情感状态和人格特征,可以更准确地预测市场情绪和投资行为。此外,教育机构可以利用该数据集开发个性化教学系统,根据学生的情感状态和人格特征提供定制化的教育方案。
数据集最近研究
最新研究方向
在情感计算领域,CMACD数据集的最新研究方向主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了丰富的情感和人格数据。前沿研究不仅探索了如何利用这些数据提升自然语言处理模型的情感识别能力,还涉及心理学、教育、市场营销、金融和政治等多个交叉领域的应用。这些研究旨在深化对复杂人类情感的理解,并为相关领域的决策提供数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录