xtremespeech|极端言论数据集|言论分析数据集

github2022-12-27 更新2024-05-31 收录

极端言论

言论分析

下载链接：

https://github.com/antmarakis/xtremespeech

下载链接

链接失效反馈

资源简介：

用于定义极端言论的数据集，通过听取受影响社区的意见来构建。

A dataset designed to define extreme speech, constructed by incorporating feedback from affected communities.

创建时间：

2022-03-02

AI搜集汇总

数据集介绍

构建方式

xtremespeech数据集的构建基于对受影响社区的深入倾听，旨在定义极端言论的边界。研究团队通过收集和分析来自不同社区的真实对话和言论，结合自然语言处理技术，构建了一个包含多种语言和文化背景的极端言论数据集。数据集的构建过程严格遵循伦理规范，确保数据的真实性和代表性。

特点

xtremespeech数据集的特点在于其多样性和广泛性，涵盖了多种语言和文化背景下的极端言论实例。数据集不仅包括文本数据，还附带了详细的元数据，如言论的上下文、发布平台和社区反馈等。这些特点使得该数据集在极端言论检测和社区影响分析方面具有重要的研究价值。

使用方法

xtremespeech数据集的使用方法包括数据请求、预处理和分析。研究者需通过指定邮箱联系数据集提供方获取数据。获取数据后，建议进行必要的预处理，如文本清洗和标注，以便于后续的模型训练和分析。数据集适用于极端言论检测、社区影响评估以及跨文化语言研究等多个领域。

背景与挑战

背景概述

xtremespeech数据集由Antonis Maronikolakis等研究人员于2022年创建，旨在通过倾听受影响社区的声音来定义极端言论，并构建一个用于研究极端言论的数据集。该数据集的研究背景源于社交媒体平台上极端言论的泛滥，这些言论往往引发社会冲突和暴力事件。研究团队通过结合计算语言学和社会科学的方法，试图从受影响社区的视角出发，重新定义和识别极端言论。该数据集在自然语言处理领域具有重要意义，尤其是在社交媒体内容审核、仇恨言论检测等方面，为相关研究提供了新的视角和数据支持。

当前挑战

xtremespeech数据集在构建过程中面临多重挑战。首先，极端言论的定义具有高度主观性和文化依赖性，如何在不同社会背景下准确定义极端言论是一个复杂的问题。其次，数据收集过程中需要确保受影响社区的声音得到充分表达，同时避免数据偏差和伦理问题。此外，极端言论的多样性和模糊性使得标注工作异常困难，需要结合语言学和社会科学的专业知识进行精细处理。最后，如何在保护用户隐私的前提下公开数据集，也是一个亟待解决的技术和伦理挑战。

常用场景

经典使用场景

xtremespeech数据集在自然语言处理领域中被广泛用于极端言论的检测与分析。该数据集通过收集来自受影响社区的言论数据，为研究者提供了一个丰富的语料库，用于训练和评估模型在识别极端言论方面的性能。特别是在社交媒体和在线论坛等场景中，xtremespeech数据集帮助研究者深入理解极端言论的传播机制及其对社会的影响。

衍生相关工作

xtremespeech数据集的发布催生了一系列相关研究，特别是在极端言论检测和情感分析领域。基于该数据集，研究者开发了多种先进的深度学习模型，如基于Transformer的检测框架和多模态融合方法。这些工作不仅提升了极端言论检测的技术水平，也为其他相关领域如虚假信息检测和网络舆情分析提供了重要的参考和借鉴。

数据集最近研究

最新研究方向

在自然语言处理领域，极端言论的检测与分析已成为一个重要的研究方向。xtremespeech数据集通过倾听受影响社区的声音，定义了极端言论的边界，并提供了相应的数据集和实验方法。这一研究不仅推动了极端言论检测技术的发展，还为理解社交媒体中的仇恨言论和极端主义提供了新的视角。该数据集的应用有助于开发更加精准的检测模型，从而在维护网络环境的健康和安全方面发挥重要作用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论（Hofstede's Cultural Dimensions Theory）的相关数据，涵盖了多个国家和地区的文化维度评分，如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。