five

PersonalityEvd|人格识别数据集|对话分析数据集

收藏
arXiv2024-09-29 更新2024-10-02 收录
人格识别
对话分析
下载链接:
https://github.com/LeiSun-RUC/PersonalityEvd
下载链接
链接失效反馈
资源简介:
PersonalityEvd数据集由中国人民大学信息学院构建,包含72名说话者和约2000个来自中国电视剧的对话。该数据集旨在支持可解释的人格识别任务,通过对话内容揭示人格特质的支持证据。数据集内容包括对话级别的个性状态标签和说话者级别的个性特质标签,以及详细的推理过程。创建过程涉及使用GPT-4进行预标注,然后由心理学专业学生进行手动校正。该数据集主要应用于心理学诊断、人机交互等领域,旨在解决传统人格识别方法缺乏解释性的问题。
提供机构:
中国人民大学信息学院
创建时间:
2024-09-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
PersonalityEvd数据集的构建基于Chain-of-Personality-Evidence (CoPE)框架,该框架旨在揭示从具体情境到短期人格状态再到长期人格特质的推理过程。数据集从CPED语料库中选取了72位发言者和约2000个对话,每个发言者平均参与约30个对话。数据集不仅包含对话级别的人格状态标签和发言者级别的人格特质标签,还详细标注了支持这些标签的推理过程,确保每个标签都有相应的自然语言解释。
特点
PersonalityEvd数据集的显著特点在于其解释性。每个对话和发言者的人格标签都附有详细的自然语言推理过程,这使得模型不仅能够识别人格特质,还能提供支持这些识别的证据。此外,数据集包含了多种情境下的对话,涵盖了广泛的人格表现,从而提供了丰富的人格识别训练数据。
使用方法
PersonalityEvd数据集可用于训练和评估解释性人格识别模型。研究者可以通过该数据集进行两个主要任务:证据基础的人格状态识别(EPR-S)和证据基础的人格特质识别(EPR-T)。这两个任务要求模型不仅预测人格标签,还需生成支持这些预测的证据。通过这种方式,模型能够在识别人格特质的同时,提供透明和可解释的推理过程。
背景与挑战
背景概述
人格识别旨在通过对话和社交媒体等用户数据识别其中隐含的人格特质。当前研究主要将人格识别视为分类任务,未能揭示识别人格特质的支持证据。为此,Sun等人(2024)提出了一项名为可解释人格识别的新任务,旨在揭示人格特质的推理过程作为支持证据。基于人格理论,人格特质由稳定的人格状态模式构成,这些状态是特定情境下短期思维、情感和行为的特征模式。研究团队构建了一个名为PersonalityEvd的可解释人格识别数据集,包含72名发言者和约2000个从中国电视剧中提取的对话,每个发言者参与约30个对话。该数据集不仅标注了对话级别的人格状态和发言者级别的人格特质标签,还提供了详细的推理过程以支持这些标签。
当前挑战
PersonalityEvd数据集面临的挑战主要集中在两个方面:一是揭示人格特质支持证据的复杂性,这要求模型不仅识别人格标签,还需提供相应的推理过程;二是数据构建过程中的高成本和复杂性,包括从大量对话中筛选相关数据、进行详细的人格状态和特质标注,以及确保标注的一致性和准确性。此外,当前模型在理解和解释人格特质方面仍远未达到人类水平,尤其是在处理多对话长上下文和不同对话者互动时,模型的表现尤为困难。
常用场景
经典使用场景
PersonalityEvd数据集的经典使用场景在于其支持的可解释性人格识别任务。通过分析对话中的具体语境,模型能够识别出短期人格状态,并进一步推断出长期稳定的人格特质。这种从具体到抽象的推理过程,使得模型不仅能够预测人格标签,还能提供相应的支持证据,从而增强了模型的可解释性和透明度。
实际应用
PersonalityEvd数据集在实际应用中具有广泛潜力,特别是在人机交互、心理诊断与调节以及求职者筛选等领域。通过分析对话内容,系统可以更准确地识别用户的人格特质,从而提供个性化的服务和建议。例如,在心理健康领域,系统可以根据用户对话中的情绪和行为模式,提供针对性的心理支持和干预措施。
衍生相关工作
PersonalityEvd数据集的提出激发了大量相关研究工作。例如,基于该数据集的研究者们开发了多种新型的人格识别模型,这些模型不仅能够预测人格特质,还能提供详细的推理过程和证据支持。此外,该数据集还促进了跨学科的研究,如心理学与计算机科学的结合,推动了可解释性人工智能在人格分析领域的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录