COUNTER|极端内容检测数据集|多语言处理数据集

arXiv2024-12-16 更新2024-12-25 收录

极端内容检测

多语言处理

下载链接：

https://gitlab.inria.fr/ariabi/counter-dataset-public

下载链接

链接失效反馈

资源简介：

COUNTER数据集由法国国家信息与自动化研究所创建，旨在解决在线极端内容检测的多语言复杂性问题。该数据集包含英语、法语和阿拉伯语的帖子，涵盖社交媒体、平台和论坛，涉及极端主义的多个层次和行动呼吁。数据集通过伪匿名化处理，保护个人隐私，同时保留上下文信息。创建过程中，数据集经过多重标注，并分析了标注过程中的偏差和分歧。COUNTER数据集主要应用于极端内容检测领域，旨在提高模型在多语言环境下的公平性和透明度。

提供机构：

法国国家信息与自动化研究所

创建时间：

2024-12-16

AI搜集汇总

数据集介绍

构建方式

COUNTER数据集的构建过程涵盖了多语言、多平台的在线激进内容收集，包括英语、法语和阿拉伯语的社交媒体帖子。数据来源广泛，涉及Facebook、Twitter、Telegram等平台，并通过Tor访问了部分暗网内容。数据收集基于与激进主义相关的关键词，涵盖了两大主要意识形态（圣战主义和极右翼）及其子类别。数据集经过伪匿名化处理，以保护用户隐私，同时保留了上下文信息。此外，数据集还通过专家标注和双重标注的方式，确保了标注的一致性和多样性。

特点

COUNTER数据集的特点在于其多语言性和丰富的标注信息。数据集涵盖了英语、法语和阿拉伯语三种语言，标注内容包括激进化程度、行动呼吁和命名实体识别（NER）。此外，数据集还通过双重标注和合成数据的方式，探讨了标注者之间的分歧以及社会人口特征对标注和模型预测的影响。数据集的伪匿名化处理确保了敏感信息的保护，同时保留了语义信息，便于研究共享。

使用方法

COUNTER数据集的使用方法主要包括多任务学习和模型性能评估。研究人员可以使用该数据集训练多语言模型，如XLM-T，进行激进内容检测任务。数据集的分层划分确保了训练、验证和测试集中各类标签的均衡分布。此外，数据集还提供了合成数据，用于分析模型在不同社会人口特征下的偏差。通过对比不同标注聚合方法（如MACE和多数投票），研究人员可以评估标注分歧对模型性能的影响，并选择适合的标注聚合策略。

背景与挑战

背景概述

COUNTER数据集由Inria的研究团队于2024年创建，旨在应对在线平台上激进内容的检测问题。该数据集涵盖了英语、法语和阿拉伯语的多语言内容，标注了激进程度、行动呼吁以及命名实体等信息。研究团队通过伪匿名化处理保护用户隐私，同时保留了上下文信息。COUNTER的创建填补了现有数据集在多样性和多语言处理上的不足，为研究在线激进内容的检测提供了重要的数据支持。该数据集不仅为模型训练提供了丰富的标注数据，还通过分析标注过程中的偏见和分歧，揭示了模型性能的影响因素，强调了在模型开发中公平性和透明性的重要性。

当前挑战

COUNTER数据集在构建和应用过程中面临多重挑战。首先，激进内容的定义具有主观性和动态性，随着时间和事件的变化，激进行为的语言表达也在不断演变，这给检测算法的有效性带来了持续挑战。其次，数据集的标注过程依赖于人工标注者的主观判断，不同标注者之间的分歧和偏见可能影响模型的训练和评估。此外，数据集的构建涉及多语言和多平台的内容收集，如何确保数据的代表性和多样性也是一个难题。最后，激进内容的快速演变和新词汇的出现可能导致数据集在未来的适用性下降，模型的泛化能力受到限制。这些挑战要求研究者在数据集构建和模型开发中不断优化和调整策略，以确保检测系统的准确性和鲁棒性。

常用场景

经典使用场景

COUNTER数据集在在线极端内容检测领域具有广泛的应用，尤其是在多语言环境下识别激进言论和极端主义意识形态。该数据集通过标注激进程度、行动呼吁和命名实体，为研究人员提供了一个多维度、多语言的语料库，能够有效支持自然语言处理（NLP）模型的训练与评估。其经典使用场景包括社交媒体平台上的极端内容监控、极端主义用户的早期识别以及跨文化背景下的激进言论分析。

实际应用

在实际应用中，COUNTER数据集被广泛用于社交媒体平台的极端内容监控和过滤。例如，平台可以利用该数据集训练的模型，自动检测和标记潜在的激进言论，防止极端主义内容的传播。此外，执法机构和反恐部门也可以利用该数据集，识别和跟踪极端主义用户的在线行为，从而采取预防措施。数据集的多语言特性使其能够应用于全球范围内的极端内容检测，特别是在多文化和多语言环境中具有显著优势。

衍生相关工作

COUNTER数据集衍生了一系列相关研究，特别是在极端内容检测和偏见分析领域。例如，基于该数据集的研究探索了多任务学习在激进内容检测中的应用，提出了通过结合命名实体识别（NER）和意识形态预测等辅助任务来提升模型性能的方法。此外，数据集还被用于生成合成数据，以模拟不同社会人口特征对模型预测的影响，进一步推动了偏见分析和公平性研究的发展。这些工作不仅扩展了数据集的应用范围，还为极端内容检测领域的模型优化提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。