Paparare/toxic_benchmark_2024|自然语言处理数据集|有毒语言检测数据集

arXiv2024-10-17 更新2024-10-22 收录

自然语言处理

有毒语言检测

下载链接：

http://arxiv.org/abs/2410.13313v1

下载链接

链接失效反馈

资源简介：

Paparare/toxic_benchmark_2024是由哥伦比亚大学Xinmeng Hou创建的一个用于检测有毒语言的综合性标注基准数据集。该数据集包含1942条数据，旨在通过人文研究为基础的规范性标注框架，确保对冒犯性语言的一致且无偏见的标注。数据集的创建过程结合了多源语言模型标注数据，通过小规模统计分析和实验验证了其有效性。该数据集主要应用于自然语言处理领域，旨在解决语言多样性保护和偏见减少的问题，特别是在非主流和非标准语言使用中。

提供机构：

哥伦比亚大学

创建时间：

2024-10-17

AI搜集汇总

数据集介绍

构建方式

Paparare/toxic_benchmark_2024数据集的构建基于人文研究，旨在通过规范化的标注框架确保对冒犯性语言的一致且无偏见的标注。该数据集通过结合人类标注员和语言模型（LLM）的标注，显著提高了标注者间的一致性。具体而言，研究团队设计了明确的标注标准，区分了语言意图的方向（DI）和攻击性水平（AG），并通过多源LLM标注数据微调小型模型，使其在有限数据条件下表现优于单一来源的人类标注数据集。

使用方法

Paparare/toxic_benchmark_2024数据集的使用方法主要包括两个步骤：首先，用户可以根据数据集提供的标注标准，对文本进行意图方向（DI）和攻击性水平（AG）的分类。其次，用户可以利用该数据集微调自然语言处理模型，特别是在资源有限的情况下，通过多源LLM标注数据提升模型的鲁棒性。该数据集适用于冒犯性语言检测、社交媒体内容审核等领域，尤其适合处理非主流语言和低资源场景下的语言多样性问题。

背景与挑战

背景概述

Paparare/toxic_benchmark_2024 数据集由哥伦比亚大学的研究人员 Xinmeng Hou 等人于2024年提出，旨在通过人文研究的基础，构建一个规范化的标注基准，以减少对非主流语言使用的偏见，并确保对冒犯性语言的一致标注。该数据集的核心研究问题是如何在数据标注过程中揭示潜在的语言模式，同时最小化对非标准语言使用的偏见影响，从而保护语言的多样性。研究还探讨了在缺乏专业标注者的情况下，大型语言模型（LLMs）是否可以作为有效的替代方案。该数据集通过引入结构化标注指南，显著提高了标注者之间的一致性，并在小数据集上表现出色，展示了其在资源有限情况下的应用潜力。

当前挑战

Paparare/toxic_benchmark_2024 数据集面临的挑战主要集中在两个方面。首先，冒犯性语言的检测本身具有高度主观性，尤其是在涉及非主流语言或文化背景时，标注者可能会因文化差异而产生偏见，导致误标或漏标。其次，数据集的构建过程中，如何确保标注的一致性是一个重要挑战。尽管通过引入结构化标注指南和多样化标注团队可以减少偏见，但标注者之间的分歧仍然难以完全消除。此外，数据集中包含的非主流语言和低资源语言的标注数据较为稀缺，这进一步增加了标注的难度。研究还表明，尽管LLMs在标注任务中表现出色，但其在区分轻度与重度攻击性语言方面的能力仍有待提升。

常用场景

经典使用场景

Paparare/toxic_benchmark_2024数据集在自然语言处理领域中被广泛用于有毒语言检测的研究。该数据集通过提供标准化的注释框架，帮助研究人员在社交媒体、论坛等平台上识别和分类有毒语言。其经典使用场景包括训练和评估机器学习模型，特别是那些用于自动检测和过滤网络上有害内容的模型。通过该数据集，研究者能够更好地理解有毒语言的特征，并开发出更精确的检测工具。

解决学术问题

Paparare/toxic_benchmark_2024数据集解决了有毒语言检测中的多个学术问题。首先，它通过引入标准化的注释框架，减少了注释过程中的主观偏差，确保了数据标签的一致性和可靠性。其次，该数据集特别关注非主流语言和少数群体语言的使用，避免了这些语言被误判为有毒语言的情况。此外，该数据集还探讨了在缺乏专业注释者的情况下，使用大型语言模型（LLMs）进行注释的可行性，为资源有限的研究提供了新的解决方案。

实际应用

在实际应用中，Paparare/toxic_benchmark_2024数据集被广泛用于社交媒体平台的有毒内容过滤系统。通过该数据集训练的模型能够自动识别和屏蔽含有侮辱性、攻击性或仇恨言论的内容，从而维护网络环境的健康和安全。此外，该数据集还可用于教育领域，帮助开发语言学习工具，教导用户如何避免使用有毒语言，并促进跨文化交流中的语言多样性。

数据集最近研究

相关研究论文

1
Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language哥伦比亚大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国250米灌溉耕地分布数据集（2000-2020）

灌溉耕地分布是开展生态、水文和气候研究的关键数据，并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型，融合多源遥感数据（包括耕地分布、植被指数、水稻田分布）、灌溉统计和调查数据，以及灌溉适宜性分析，生成了中国逐年、250米灌溉耕地分布图（CIrrMap250）。利用2万个参考样本和高分辨率灌溉取水数据，对灌溉耕地分布数据的精度进行评估。结果显示，CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88，优于现有的同类产品。

国家青藏高原科学数据中心收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录