five

MEMD-ABSA|情感分析数据集|数据集数据集

收藏
arXiv2023-06-29 更新2024-06-21 收录
情感分析
数据集
下载链接:
https://github.com/NUSTM/MEMD-ABSA
下载链接
链接失效反馈
资源简介:
MEMD-ABSA是由南京理工大学计算机科学与工程学院创建的大规模多元素多领域数据集,专注于方面级情感分析。该数据集包含近20,000条评论句子和30,000个四元组,这些四元组被标注了明确的和隐含的方面和观点,适用于ABSA研究。数据集涵盖五个领域,支持多元素提取任务,旨在解决现有数据集在规模和领域覆盖上的不足。此外,数据集还支持开放领域的ABSA任务,以及挖掘隐含方面和观点的挑战。
提供机构:
南京理工大学计算机科学与工程学院
创建时间:
2023-06-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
MEMD-ABSA数据集的构建基于五个不同领域的社交媒体数据,涵盖书籍、服装、酒店、餐厅和笔记本电脑。数据收集自多个公开平台,包括亚马逊、Yelp和Airbnb等,共计近20,000条评论句子。这些句子经过精细的标注,形成了约30,000个四元组,每个四元组包含显式和隐式的方面和观点,支持多元素提取任务。标注过程采用Inception平台,通过定义明确的标注指南,确保标注的一致性和准确性。
特点
MEMD-ABSA数据集的主要特点在于其多元素和多领域的覆盖,不仅包含传统的显式方面和观点,还特别关注隐式的方面和观点,这在现有数据集中较为罕见。此外,数据集规模显著大于以往的ABSA数据集,提供了更丰富的训练和评估资源。数据集的多样性和大规模标注使其成为评估模型在开放领域表现的有力工具。
使用方法
MEMD-ABSA数据集适用于多种基于方面的情感分析任务,包括方面提取、基于方面的情感分类、方面-观点对提取等。研究者可以使用该数据集训练和评估模型在多元素提取任务中的表现,特别是在处理显式和隐式方面和观点时的能力。数据集的开放获取和详细标注指南使其成为情感分析领域研究的重要资源。
背景与挑战
背景概述
在情感分析领域,基于方面的情感分析(Aspect-Based Sentiment Analysis, ABSA)一直是研究的热点。近年来,研究者逐渐从简单的ABSA子任务转向端到端的多元素ABSA任务。然而,当前研究中使用的数据集主要局限于特定任务的单个元素,通常集中在同领域设置中,忽视了隐含的方面和观点,且数据规模较小。为解决这些问题,我们提出了一种大规模的多元素多领域数据集(MEMD),涵盖了五个领域的四个元素,包括近20,000条评论句子和30,000个带有显式和隐式方面和观点的四元组,用于ABSA研究。
当前挑战
构建MEMD-ABSA数据集面临的主要挑战包括:1) 解决领域问题,如图像分类中的挑战;2) 构建过程中遇到的挑战,如数据集的多样性和规模。具体挑战包括:1) 现有研究主要在两个小规模数据集上进行,且数据集的注释有限,导致深度学习模型在训练时容易过拟合;2) 大多数现有ABSA数据集仅考虑显式方面和观点的提取,而忽略了隐含的方面和观点,这在大约40%的评论句子中存在。此外,缺乏一个有影响力的大规模多领域多元素数据集,以全面评估模型在开放领域中的性能。
常用场景
经典使用场景
MEMD-ABSA数据集在基于方面的情感分析(ABSA)领域中,被广泛用于多元素、多领域的情感分析任务。其经典使用场景包括从评论中提取显式和隐式的方面和观点,以及识别这些方面的情感极性。例如,数据集可以用于训练模型,以从产品评论中提取关于设计、功能和用户体验的显式和隐式情感表达。
实际应用
在实际应用中,MEMD-ABSA数据集可用于开发和优化情感分析工具,这些工具能够自动分析用户生成的内容,如产品评论、社交媒体帖子等。例如,电商平台可以使用这些工具来实时监控和分析用户对产品的情感反馈,从而改进产品和服务。
衍生相关工作
基于MEMD-ABSA数据集,研究者们开发了多种模型和方法,用于处理多元素、多领域的情感分析任务。例如,一些研究提出了生成式和非生成式的基准模型,用于在开放域设置下进行多个ABSA子任务的评估。此外,还有研究探讨了如何利用大型语言模型(如ChatGPT)来提升情感分析的性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

Set5

Set5数据集是一个包含5张图像的图像超分辨率测试数据集,包括'baby', 'bird', 'butterfly', 'head', 'woman',通常用于评估图像超分辨率模型的性能。

huggingface 收录

QQP

QQP(Quora Question Pairs)数据集包含来自Quora平台的问题对,目的是判断两个问题是否表达相同的意思。数据集包含约40万对问题,每对问题都有一个标签,表示它们是否是重复的。

www.kaggle.com 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录