five

mlburnham/PoliStance_Affect|政治立场分析数据集|文本分类数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
政治立场分析
文本分类
下载链接:
https://hf-mirror.com/datasets/mlburnham/PoliStance_Affect
下载链接
链接失效反馈
资源简介:
PoliStance Affect数据集用于训练一个蕴含分类器,以识别对政治家的支持或反对态度。数据来源包括Kawintiranon (2022)的推文、MTSD数据集,以及从第115、116和117届国会的政治家每周通讯中提取的推文和句子。数据集经过三重编码,包括原始数据集编译者、GPT-4和用于解决差异的第三轮编码。数据集中的政治家推特账号已被替换为他们的名字。数据集包含训练集、验证集和测试集,分别有17164、4291和5383个样本。数据集的标签包括立场(反对、中立、支持)和蕴含(蕴含、不蕴含)。测试集还包含训练集和验证集中未包含的6位政治家的文档。

Dataset for training an entailment classifier to recognize approval/disapproval of politicians. Documents are Tweets from Kawintiranon (2022), the MTSD dataset, as well as Tweets and sentences taken weekly newsletters for select politicians from the 115th, 116th, and 117th congress. Documents are triple coded -- once from the original compilers of the dataset, once from GPT-4, and a third time to adjudicate discrepancies between the two. The dataset contains train, validation, and test sets, with the test set including documents about 6 politicians not included in the training or validation data.
提供机构:
mlburnham
AI搜集汇总
数据集介绍
main_image_url
构建方式
PoliStance Affect数据集的构建基于对政治人物的推文和周报内容的深度分析,这些数据来源于Kawintiranon(2022)的MTSD数据集以及特定政治人物的推文和周报。数据经过三重编码处理,首先由原始数据集编译者进行编码,其次通过GPT-4进行编码,最后通过第三方进行差异仲裁,以确保数据的高质量和一致性。
使用方法
PoliStance Affect数据集适用于零样本分类任务,特别适合用于训练蕴含分类器以识别对政治人物的批准或反对态度。用户可以通过加载数据集的训练、验证和测试分割来构建和评估模型,利用提供的特征如前提、目标、假设、立场和蕴含信息进行模型训练和测试。
背景与挑战
背景概述
PoliStance Affect数据集由mlburnham发布,专注于训练蕴含分类器以识别对政治人物的支持或反对态度。该数据集的构建基于Kawintiranon(2022)的MTSD数据集,以及从第115至117届国会中精选政治人物的推文和每周通讯。数据集中的文档经过三重编码,分别由原始数据集编译者、GPT-4进行标注,并进行第三次校正以解决前两次标注中的差异。该数据集的发布旨在推动自然语言处理领域在政治立场识别方面的研究,特别是在零样本分类任务中的应用,为相关领域的研究提供了丰富的资源和挑战。
当前挑战
PoliStance Affect数据集在构建过程中面临多项挑战。首先,数据来源多样,包括推文和政治人物的通讯,这要求对不同文本类型的处理和标注具有一致性。其次,三重编码过程确保了标注的准确性,但也增加了数据处理的复杂性和时间成本。此外,数据集中包含的政治人物立场识别任务,特别是在零样本分类场景下,要求模型具备高度的泛化能力,以应对训练集中未见过的政治人物。这些挑战不仅推动了数据集构建技术的进步,也为后续研究提供了丰富的实验场景和优化方向。
常用场景
经典使用场景
PoliStance Affect数据集在政治立场分析领域具有广泛的应用前景。其经典使用场景包括训练和评估零样本分类模型,以识别和区分对特定政治人物的支持、反对或中立态度。通过分析推文和新闻简报中的文本内容,模型能够捕捉到细微的情感倾向和立场表达,从而为政治舆情分析提供有力支持。
解决学术问题
该数据集有效解决了政治立场自动分类这一学术难题。通过提供多源数据和多重编码的标注,PoliStance Affect不仅提升了模型的泛化能力,还为研究者提供了一个标准化的基准,用于评估和比较不同立场分类算法的效果。这对于推动自然语言处理技术在政治科学领域的应用具有重要意义。
实际应用
在实际应用中,PoliStance Affect数据集可用于构建政治舆情监控系统,帮助政府、媒体和研究机构实时追踪公众对特定政治人物或政策的态度变化。此外,该数据集还可应用于政治竞选策略的制定,通过分析选民的立场倾向,为候选人提供有针对性的沟通和宣传建议。
数据集最近研究
最新研究方向
在政治立场与情感分析领域,mlburnham/PoliStance_Affect数据集的最新研究方向聚焦于利用先进的自然语言处理技术,特别是零样本分类方法,来精准识别和分类公众对政治人物的支持或反对态度。该数据集通过整合来自Twitter和政治新闻简报的多源数据,采用GPT-4进行三重编码,以确保标注的准确性和一致性。这一研究不仅推动了情感分析技术在政治领域的应用,还为理解公众舆论对政治决策的影响提供了新的视角。通过引入未在训练集中出现的政治人物数据,研究者们进一步探索了模型的泛化能力和对新情境的适应性,这对于预测和分析未来政治动态具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录