five

新浪微博性别歧视审查(SWSR)数据集|性别歧视数据集|社交媒体分析数据集

收藏
arXiv2021-08-06 更新2024-06-21 收录
性别歧视
社交媒体分析
下载链接:
http://doi.org/10.5281/zenodo.4773875
下载链接
链接失效反馈
资源简介:
SWSR数据集是首个针对中文的性别歧视数据集,由伦敦玛丽女王大学创建。该数据集包含10496条新浪微博内容,包括微博及其评论,旨在识别和分析中文网络环境中的性别歧视言论。数据集通过关键词搜索收集,涵盖多种性别歧视类型,如外貌、文化背景、微侵犯和性侵犯。此外,数据集还提供用户性别和位置等匿名信息,以支持更深入的分析。SWSR数据集的应用领域包括性别歧视的自动检测和分析,以及促进跨语言性别歧视研究。
提供机构:
伦敦玛丽女王大学
创建时间:
2021-08-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建新浪微博性别歧视审查(SWSR)数据集的过程中,研究团队首先通过关键词驱动的搜索方法,从新浪微博平台(weibo.cn)上收集了与性别歧视相关的内容。具体而言,团队确定了七个与性别歧视热点话题和事件相关的关键词,包括‘婊子’、‘女同性恋’、‘女权’、‘厌女’、‘metoo运动’、‘性别歧视’和‘性骚扰’。这些关键词被用于筛选微博内容,并进一步收集相关的评论。随后,通过去除重复内容、过滤无评论的微博以及处理短评论等步骤,最终形成了包含1,527条微博和8,969条评论的数据集。此外,团队还构建了一个包含3,016个与性别歧视和辱骂相关词汇的中文词典SexHateLex,以辅助数据集的标注和后续研究。
特点
SWSR数据集的一个显著特点是其多层次的标注体系,包括性别歧视与否的二元标注、性别歧视类别的多类别标注(如基于外貌的刻板印象、基于文化背景的刻板印象、微攻击和性侵犯),以及目标类型的标注(个体或群体)。这种细致的标注方式使得数据集不仅适用于性别歧视的检测,还能支持更细粒度的性别相关辱骂语言的研究。此外,数据集还包含了用户的匿名化信息,如性别、地理位置和社交网络特征,这些信息为研究用户特征与性别歧视内容之间的关系提供了可能。
使用方法
SWSR数据集可用于多种自然语言处理任务,特别是性别歧视检测和相关研究。研究者可以利用数据集中的微博和评论文本,结合多层次的标注信息,训练和评估性别歧视检测模型。例如,可以使用BERT、RoBERTa等基于Transformer的模型,或者传统的机器学习模型如逻辑回归和支持向量机,来识别和分类性别歧视内容。此外,数据集中的用户元数据可以用于探索用户特征与性别歧视内容之间的关联,从而为个性化内容审查和干预提供依据。SexHateLex词典则可以作为外部知识源,增强模型对性别歧视词汇的识别能力。
背景与挑战
背景概述
随着社交媒体平台的普及,网络性别歧视问题日益引起关注,对互联网的健康发展和社会产生了负面影响。尽管性别歧视检测领域的研究不断增长,但大多数研究集中在英语和Twitter平台上。为了拓宽这一研究领域,我们考虑了中文和新浪微博平台,并提出了首个中文性别歧视数据集——新浪微博性别歧视审查(SWSR)数据集,以及一个包含辱骂和性别相关词汇的大型中文词典SexHateLex。我们介绍了数据收集和标注过程,并提供了数据集特征的探索性分析,以验证其质量和展示性别歧视在中文中的表现形式。SWSR数据集在不同粒度级别上提供了标签,包括性别歧视或非性别歧视、性别歧视类别和目标类型,可用于构建计算方法来识别和调查更细粒度的性别相关辱骂语言。我们使用最先进的机器学习模型进行了三次性别歧视分类实验,结果显示了竞争性能,为中文性别歧视检测提供了基准,并进行了错误分析,突出了中文自然语言处理中需要更多研究的开放挑战。
当前挑战
构建SWSR数据集过程中遇到的挑战包括:1) 数据收集的复杂性,特别是由于中国方言的多样性和新兴网络语言的模糊性;2) 标注过程中的主观性和一致性问题,尤其是在识别隐含和微妙的性别歧视表达时;3) 模型在处理隐含性别歧视、缺乏先验信息和过度依赖性别歧视词汇方面的局限性。此外,外部知识的引入,如词典的使用,虽然对模型性能有所提升,但仍存在数据集多样性、词汇不一致性、语言特征、幽默讽刺和拼写变异等问题。
常用场景
经典使用场景
新浪微博性别歧视审查(SWSR)数据集最经典的使用场景在于自动检测和分类中文社交媒体平台上的性别歧视言论。该数据集通过收集和标注新浪微博上的性别歧视相关内容,提供了多层次的标签,包括性别歧视与否、性别歧视类别以及目标类型。这些标签使得研究者能够构建计算模型,以识别和研究更为细粒度的性别相关辱骂语言。
解决学术问题
SWSR数据集解决了在性别歧视检测领域中,大多数研究集中在英语和Twitter平台上的问题。通过提供首个中文性别歧视数据集,该数据集拓宽了性别歧视检测研究的视野,特别是在中文社交媒体平台如新浪微博上的应用。这不仅有助于学术界对性别歧视现象的深入理解,还为跨语言和跨平台的性别歧视检测研究提供了宝贵的资源。
衍生相关工作
SWSR数据集的发布催生了多项相关研究工作,包括但不限于多语言性别歧视检测、跨领域仇恨言论检测以及用户特征对性别歧视检测的影响研究。此外,该数据集还促进了性别歧视相关词汇资源的构建和扩展,如SexHateLex词典,这些资源为后续研究提供了重要的基础和支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录