CAPE|情感分析数据集|对话生成数据集

arXiv2024-10-18 更新2024-10-22 收录

情感分析

对话生成

下载链接：

http://arxiv.org/abs/2410.14145v1

下载链接

链接失效反馈

资源简介：

CAPE数据集是由国际数字经济学院 (IDEA) 和密歇根大学等机构合作创建的，旨在通过认知评估理论生成基于情感的中文对话数据集。该数据集包含2,848个多轮对话，涵盖15种不同的情感类别，旨在帮助大型语言模型生成更符合人类情感表达的对话。数据集的创建过程结合了个人特质、情境因素和评估过程，确保了对话的情感和内容的高度一致性。CAPE数据集主要应用于情感预测和下一句预测任务，旨在提升对话系统中情感表达的自然度和准确性。

提供机构：

国际数字经济学院 (IDEA)

创建时间：

2024-10-18

AI搜集汇总

数据集介绍

构建方式

CAPE数据集的构建基于认知评估理论（Cognitive Appraisal Theory），采用两阶段自动数据生成框架。首先，根据个人特质、目标和情境构建生成信念和知识。随后，通过评估过程，结合对话历史和预定义的个体因素，生成情绪标签和对应的话语。这一自动数据合成框架生成了包含2,848个多轮对话的CAPE数据集，涵盖15种不同的情绪。数据集经过严格的清洗和人工评估，确保情绪标签的准确性、上下文的一致性和对话的流畅性。

特点

CAPE数据集的显著特点在于其基于认知评估理论的构建方式，确保了对话中情绪反应的上下文适当性。数据集涵盖了广泛的个人和情境因素，包括个性、目标、信念和知识，使得生成的对话更加丰富和真实。此外，CAPE数据集在情绪和情境的覆盖范围上超越了现有的数据集，提供了更为多样化和细致的对话情境。

使用方法

CAPE数据集可用于训练和评估情感对话生成模型，特别适用于情感预测和下一话语预测任务。研究者可以通过该数据集微调大型语言模型，以提升其在情感表达和对话生成中的表现。评估方法包括情绪标签的准确性、情绪与话语的一致性、情绪与上下文的一致性、情绪强度、对话的连贯性和流畅性。通过这些评估，可以全面检验模型在情感对话生成中的性能。

背景与挑战

背景概述

在人机交互领域，情感的表达与理解一直是研究的核心问题。特别是在大型语言模型（LLMs）的应用中，生成与情境相符的情感响应对于提升交互的自然性和机器的人性化至关重要。然而，人类情感的复杂性和认知过程的多样性使得这一任务充满挑战。为此，Liu等人于2024年提出了CAPE数据集，这是一个基于认知评估理论（Cognitive Appraisal Theory, CAT）的中文情感生成数据集。该数据集由国际数字经济学院（IDEA）、密歇根大学、香港科技大学和加州大学洛杉矶分校的研究人员共同创建，旨在通过考虑个人和情境因素，生成具有情境适当性的情感对话。CAPE数据集的引入不仅推动了情感表达在对话代理中的研究，也为更细致和有意义的人机交互铺平了道路。

当前挑战

CAPE数据集在构建过程中面临多重挑战。首先，情感生成领域的问题复杂，涉及个人特质、情境影响及个体对当前情境的评估，这些因素的交互作用使得情感生成任务异常复杂。其次，构建过程中需要设计一个自动化的数据生成框架，以确保生成的对话能够准确反映情感和行为的动态变化。此外，由于现有研究主要集中在英文情感表达上，CAPE数据集在跨文化情感理解方面也提出了新的挑战。最后，数据集的质量控制和人工评估也是一大难题，确保情感标签的准确性和对话内容的情境适当性需要精细的操作和严格的评估标准。

常用场景

经典使用场景

CAPE数据集的经典使用场景在于情感生成与对话系统的开发。通过该数据集，研究者能够训练和评估模型在多轮对话中生成符合情境的情感响应。具体任务包括情感预测和下一话语预测，这些任务要求模型不仅理解对话的上下文，还需捕捉并表达适当的情感，从而提升人机交互的自然度和情感共鸣。

解决学术问题

CAPE数据集解决了情感生成领域中的多个关键学术问题。首先，它填补了中文情感对话数据集的空白，为跨文化情感研究提供了丰富的资源。其次，通过引入认知评估理论（CAT），数据集帮助模型更深入地理解情感生成的复杂心理过程，从而提高情感响应的准确性和适当性。此外，CAPE还推动了多模态情感识别和生成技术的发展，为情感智能研究开辟了新的方向。

衍生相关工作

CAPE数据集的推出激发了大量相关研究工作。例如，基于CAPE的情感生成模型已被应用于多模态情感识别系统，进一步提升了情感分析的准确性。同时，研究者们也开始探索如何将CAPE中的认知评估理论应用于其他语言和文化背景下的情感生成任务。此外，CAPE的成功还推动了更多大规模情感对话数据集的创建，促进了情感智能领域的整体发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL（数量性状位点）分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究，支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录