MEMD-ABSA|情感分析数据集|数据集数据集

arXiv2023-06-29 更新2024-06-21 收录

情感分析

数据集

下载链接：

https://github.com/NUSTM/MEMD-ABSA

下载链接

链接失效反馈

资源简介：

MEMD-ABSA是由南京理工大学计算机科学与工程学院创建的大规模多元素多领域数据集，专注于方面级情感分析。该数据集包含近20,000条评论句子和30,000个四元组，这些四元组被标注了明确的和隐含的方面和观点，适用于ABSA研究。数据集涵盖五个领域，支持多元素提取任务，旨在解决现有数据集在规模和领域覆盖上的不足。此外，数据集还支持开放领域的ABSA任务，以及挖掘隐含方面和观点的挑战。

提供机构：

南京理工大学计算机科学与工程学院

创建时间：

2023-06-29

AI搜集汇总

数据集介绍

构建方式

MEMD-ABSA数据集的构建基于五个不同领域的社交媒体数据，涵盖书籍、服装、酒店、餐厅和笔记本电脑。数据收集自多个公开平台，包括亚马逊、Yelp和Airbnb等，共计近20,000条评论句子。这些句子经过精细的标注，形成了约30,000个四元组，每个四元组包含显式和隐式的方面和观点，支持多元素提取任务。标注过程采用Inception平台，通过定义明确的标注指南，确保标注的一致性和准确性。

特点

MEMD-ABSA数据集的主要特点在于其多元素和多领域的覆盖，不仅包含传统的显式方面和观点，还特别关注隐式的方面和观点，这在现有数据集中较为罕见。此外，数据集规模显著大于以往的ABSA数据集，提供了更丰富的训练和评估资源。数据集的多样性和大规模标注使其成为评估模型在开放领域表现的有力工具。

使用方法

MEMD-ABSA数据集适用于多种基于方面的情感分析任务，包括方面提取、基于方面的情感分类、方面-观点对提取等。研究者可以使用该数据集训练和评估模型在多元素提取任务中的表现，特别是在处理显式和隐式方面和观点时的能力。数据集的开放获取和详细标注指南使其成为情感分析领域研究的重要资源。

背景与挑战

背景概述

在情感分析领域，基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）一直是研究的热点。近年来，研究者逐渐从简单的ABSA子任务转向端到端的多元素ABSA任务。然而，当前研究中使用的数据集主要局限于特定任务的单个元素，通常集中在同领域设置中，忽视了隐含的方面和观点，且数据规模较小。为解决这些问题，我们提出了一种大规模的多元素多领域数据集（MEMD），涵盖了五个领域的四个元素，包括近20,000条评论句子和30,000个带有显式和隐式方面和观点的四元组，用于ABSA研究。

当前挑战

构建MEMD-ABSA数据集面临的主要挑战包括：1) 解决领域问题，如图像分类中的挑战；2) 构建过程中遇到的挑战，如数据集的多样性和规模。具体挑战包括：1) 现有研究主要在两个小规模数据集上进行，且数据集的注释有限，导致深度学习模型在训练时容易过拟合；2) 大多数现有ABSA数据集仅考虑显式方面和观点的提取，而忽略了隐含的方面和观点，这在大约40%的评论句子中存在。此外，缺乏一个有影响力的大规模多领域多元素数据集，以全面评估模型在开放领域中的性能。

常用场景

经典使用场景

MEMD-ABSA数据集在基于方面的情感分析（ABSA）领域中，被广泛用于多元素、多领域的情感分析任务。其经典使用场景包括从评论中提取显式和隐式的方面和观点，以及识别这些方面的情感极性。例如，数据集可以用于训练模型，以从产品评论中提取关于设计、功能和用户体验的显式和隐式情感表达。

实际应用

在实际应用中，MEMD-ABSA数据集可用于开发和优化情感分析工具，这些工具能够自动分析用户生成的内容，如产品评论、社交媒体帖子等。例如，电商平台可以使用这些工具来实时监控和分析用户对产品的情感反馈，从而改进产品和服务。

衍生相关工作

基于MEMD-ABSA数据集，研究者们开发了多种模型和方法，用于处理多元素、多领域的情感分析任务。例如，一些研究提出了生成式和非生成式的基准模型，用于在开放域设置下进行多个ABSA子任务的评估。此外，还有研究探讨了如何利用大型语言模型（如ChatGPT）来提升情感分析的性能。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据，旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新，并以Parquet格式提供，可通过DuckDB进行查询。

huggingface 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录