PersonalityEvd|人格识别数据集|对话分析数据集

arXiv2024-09-29 更新2024-10-02 收录

人格识别

对话分析

下载链接：

https://github.com/LeiSun-RUC/PersonalityEvd

下载链接

链接失效反馈

资源简介：

PersonalityEvd数据集由中国人民大学信息学院构建，包含72名说话者和约2000个来自中国电视剧的对话。该数据集旨在支持可解释的人格识别任务，通过对话内容揭示人格特质的支持证据。数据集内容包括对话级别的个性状态标签和说话者级别的个性特质标签，以及详细的推理过程。创建过程涉及使用GPT-4进行预标注，然后由心理学专业学生进行手动校正。该数据集主要应用于心理学诊断、人机交互等领域，旨在解决传统人格识别方法缺乏解释性的问题。

提供机构：

中国人民大学信息学院

创建时间：

2024-09-29

AI搜集汇总

数据集介绍

构建方式

PersonalityEvd数据集的构建基于Chain-of-Personality-Evidence (CoPE)框架，该框架旨在揭示从具体情境到短期人格状态再到长期人格特质的推理过程。数据集从CPED语料库中选取了72位发言者和约2000个对话，每个发言者平均参与约30个对话。数据集不仅包含对话级别的人格状态标签和发言者级别的人格特质标签，还详细标注了支持这些标签的推理过程，确保每个标签都有相应的自然语言解释。

特点

PersonalityEvd数据集的显著特点在于其解释性。每个对话和发言者的人格标签都附有详细的自然语言推理过程，这使得模型不仅能够识别人格特质，还能提供支持这些识别的证据。此外，数据集包含了多种情境下的对话，涵盖了广泛的人格表现，从而提供了丰富的人格识别训练数据。

使用方法

PersonalityEvd数据集可用于训练和评估解释性人格识别模型。研究者可以通过该数据集进行两个主要任务：证据基础的人格状态识别（EPR-S）和证据基础的人格特质识别（EPR-T）。这两个任务要求模型不仅预测人格标签，还需生成支持这些预测的证据。通过这种方式，模型能够在识别人格特质的同时，提供透明和可解释的推理过程。

背景与挑战

背景概述

人格识别旨在通过对话和社交媒体等用户数据识别其中隐含的人格特质。当前研究主要将人格识别视为分类任务，未能揭示识别人格特质的支持证据。为此，Sun等人（2024）提出了一项名为可解释人格识别的新任务，旨在揭示人格特质的推理过程作为支持证据。基于人格理论，人格特质由稳定的人格状态模式构成，这些状态是特定情境下短期思维、情感和行为的特征模式。研究团队构建了一个名为PersonalityEvd的可解释人格识别数据集，包含72名发言者和约2000个从中国电视剧中提取的对话，每个发言者参与约30个对话。该数据集不仅标注了对话级别的人格状态和发言者级别的人格特质标签，还提供了详细的推理过程以支持这些标签。

当前挑战

PersonalityEvd数据集面临的挑战主要集中在两个方面：一是揭示人格特质支持证据的复杂性，这要求模型不仅识别人格标签，还需提供相应的推理过程；二是数据构建过程中的高成本和复杂性，包括从大量对话中筛选相关数据、进行详细的人格状态和特质标注，以及确保标注的一致性和准确性。此外，当前模型在理解和解释人格特质方面仍远未达到人类水平，尤其是在处理多对话长上下文和不同对话者互动时，模型的表现尤为困难。

常用场景

经典使用场景

PersonalityEvd数据集的经典使用场景在于其支持的可解释性人格识别任务。通过分析对话中的具体语境，模型能够识别出短期人格状态，并进一步推断出长期稳定的人格特质。这种从具体到抽象的推理过程，使得模型不仅能够预测人格标签，还能提供相应的支持证据，从而增强了模型的可解释性和透明度。

实际应用

PersonalityEvd数据集在实际应用中具有广泛潜力，特别是在人机交互、心理诊断与调节以及求职者筛选等领域。通过分析对话内容，系统可以更准确地识别用户的人格特质，从而提供个性化的服务和建议。例如，在心理健康领域，系统可以根据用户对话中的情绪和行为模式，提供针对性的心理支持和干预措施。

衍生相关工作

PersonalityEvd数据集的提出激发了大量相关研究工作。例如，基于该数据集的研究者们开发了多种新型的人格识别模型，这些模型不仅能够预测人格特质，还能提供详细的推理过程和证据支持。此外，该数据集还促进了跨学科的研究，如心理学与计算机科学的结合，推动了可解释性人工智能在人格分析领域的应用和发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家，记录了18000次飞行，由于缺乏卫星覆盖，海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录