google-research-datasets/go_emotions|情绪分析数据集|文本分类数据集
收藏GoEmotions 数据集概述
数据集描述
数据集摘要
GoEmotions 数据集包含 58k 条精心筛选的 Reddit 评论,标记了 27 种情感类别或中性情感。数据集包括原始数据和简化的版本,后者包含预定义的训练/验证/测试集。
支持的任务和排行榜
该数据集适用于多类别、多标签情感分类任务。
语言
数据集中的文本为英语。
数据集结构
数据实例
每个实例是一个 Reddit 评论,包含一个对应的 ID 和一个或多个情感标注(或中性)。
数据字段
简化配置包括:
text
: Reddit 评论文本labels
: 情感标注comment_id
: 评论的唯一标识符(可用于在原始数据集中查找条目)
原始数据还包括:
author
: 评论作者的 Reddit 用户名subreddit
: 评论所属的子版块link_id
: 评论的链接 IDparent_id
: 评论的父 IDcreated_utc
: 评论的时间戳rater_id
: 标注者的唯一 IDexample_very_unclear
: 标注者是否标记该示例非常不清楚或难以标注(在这种情况下,他们没有选择任何情感标签)
在原始数据中,标签以独立的列形式列出,包含二进制 0/1 条目,而不是像简化数据中那样的 ID 列表。
数据分割
简化数据包括一组训练/验证/测试集,分别包含 43,410、5426 和 5427 个示例。
数据集创建
策划理由
从论文摘要中:
理解语言中表达的情感有广泛的应用,从构建同理心的聊天机器人到检测有害的在线行为。这一领域的进步可以通过使用具有细粒度分类法的大型数据集来改善,这些分类法适用于多个下游任务。
源数据
初始数据收集和规范化
数据从 Reddit 评论中通过多种自动化方法收集,具体讨论见论文的 3.1 节。
源语言生产者
英语母语的 Reddit 用户。
标注
标注过程
[更多信息需要]
标注者
标注由 3 名英语母语的印度众包工作者完成。
个人和敏感信息
该数据集包括发布每条评论的 Reddit 用户的原始用户名。虽然 Reddit 用户名通常与个人真实世界的身份无关,但这并不总是如此。因此,在某些情况下,可能有可能发现创建这些内容的人的身份。
使用数据的注意事项
数据集的社会影响
情感检测是一个有价值的问题,可能会带来改进,例如更好的人机交互。然而,情感检测算法(特别是在计算机视觉中)有时会被滥用,在招聘决策、保险定价和学生注意力等人类监控和评估应用中做出错误的推断(参见这篇文章)。
偏见的讨论
从作者的 GitHub 页面:
数据中可能存在的偏见包括:Reddit 和用户基础的固有偏见、用于数据过滤的冒犯性/粗俗词汇列表、评估冒犯性身份标签时的固有或无意识偏见,以及所有标注者都是来自印度的英语母语者。所有这些都可能影响标注、精确度和召回率。任何使用此数据集的人都应意识到这些数据集的局限性。
其他已知限制
[更多信息需要]
附加信息
数据集策展人
亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。参见作者列表。
许可信息
该数据集所在的 GitHub 仓库具有Apache License 2.0。
引用信息
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020} }
贡献
感谢 @joeddav 添加此数据集。
