five

SM-D, AIGTBench|AI生成文本检测数据集|社交媒体分析数据集

收藏
arXiv2024-12-24 更新2024-12-26 收录
AI生成文本检测
社交媒体分析
下载链接:
http://arxiv.org/abs/2412.18148v1
下载链接
链接失效反馈
资源简介:
SM-D数据集由香港科技大学(广州)和CISPA亥姆霍兹信息安全中心的研究团队创建,旨在量化社交媒体平台上AI生成文本(AIGT)的普及情况。该数据集包含了来自Medium、Quora和Reddit三个平台的约240万条帖子,时间跨度为2022年1月至2024年10月。AIGTBench数据集则是一个用于训练和评估AIGT检测器的基准数据集,包含了由12个不同的大型语言模型生成的约2877万条AIGT样本和1355万条HWT样本。AIGTBench的创建过程结合了开源数据集和基于社交媒体文本生成的AIGT数据,旨在为AIGT检测器提供多样化的训练和评估环境。该数据集的应用领域主要集中在社交媒体内容的AI生成文本检测,旨在解决AIGT在社交媒体上的滥用问题,如虚假信息传播和舆论操纵。
提供机构:
香港科技大学(广州), CISPA亥姆霍兹信息安全中心
创建时间:
2024-12-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
SM-D数据集的构建基于从Medium、Quora和Reddit三个主流社交媒体平台收集的约240万条帖子,时间跨度为2022年1月至2024年10月。数据经过预处理,剔除了字符数少于150或英文内容比例低于90%的文本,以确保数据质量。AIGTBench数据集则结合了公开的开源数据集和通过12种大型语言模型(LLMs)生成的社交媒体文本,旨在为AIGT检测器提供训练和评估基准。AIGTBench包含约2877万条AI生成文本和1355万条人类撰写文本,涵盖了GPT系列、Llama系列等多种模型。
特点
SM-D数据集的特点在于其广泛的覆盖范围,涵盖了三个主要社交媒体平台上的大量用户生成内容,时间跨度长达近三年,能够反映AI生成文本在社交媒体上的动态变化。AIGTBench数据集则以其多样性和全面性著称,不仅包含了多种开源数据集,还通过12种不同的LLMs生成了大量文本,确保了检测器在不同模型生成文本上的泛化能力。此外,AIGTBench还通过平台特定的任务设计,模拟了真实的社交媒体文本生成场景,进一步增强了数据集的实用性。
使用方法
SM-D数据集主要用于量化社交媒体平台上AI生成文本的流行趋势,通过应用AIGTBench训练出的最佳检测器OSM-Det,可以追踪不同平台上AI生成文本的比例(AAR)随时间的变化。AIGTBench数据集则用于训练和评估AIGT检测器,通过对比不同检测器的性能,选择最优模型进行实际应用。此外,AIGTBench还可用于分析AI生成文本与人类撰写文本在语言模式、主题分布、用户互动等方面的差异,为相关研究提供数据支持。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,社交媒体平台上AI生成文本(AIGTs)的出现日益增多。然而,AIGTs的滥用可能对公众舆论产生深远影响,例如传播错误信息和操纵叙事。尽管其重要性,目前仍缺乏对社交媒体上AIGTs普遍性的系统性研究。为填补这一空白,香港科技大学(广州)和CISPA亥姆霍兹信息安全中心的研究团队于2024年12月发布了SM-D和AIGTBench数据集。SM-D包含来自Medium、Quora和Reddit三大社交媒体平台的约240万条帖子,时间跨度为2022年1月至2024年10月。AIGTBench则结合了开源数据集和由12种LLMs生成的社交媒体文本,用于训练和评估AIGT检测器。该研究首次系统地量化、监测并分析了社交媒体上的AIGTs,揭示了不同平台上AI生成内容的变化趋势及其与人类撰写文本的多维度差异。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,AIGT检测的核心挑战在于如何准确区分AI生成文本与人类撰写文本。随着LLMs生成质量的提升,AIGTs与人类文本在语言模式、主题分布和表达风格上愈发相似,传统的检测方法难以应对这种复杂性。其次,在数据集构建过程中,研究人员面临数据多样性和质量的挑战。尽管AIGTBench涵盖了12种主流LLMs生成的文本,但仍未覆盖所有LLMs,且数据分布偏向GPT和Llama系列,可能导致检测器在其他模型上的泛化能力不足。此外,社交媒体数据的噪声和冗余信息增加了数据清洗和预处理的难度,进一步影响了数据集的构建效率和准确性。
常用场景
经典使用场景
SM-D和AIGTBench数据集在社交媒体平台上AI生成文本(AIGT)的检测与监控中发挥了重要作用。通过收集来自Medium、Quora和Reddit等平台的数百万条帖子,研究人员能够系统地量化AIGT的普及程度,并构建多样化的基准数据集AIGTBench,用于训练和评估AIGT检测器。这些数据集为研究AI生成文本在社交媒体中的传播趋势、语言特征及其对公众舆论的影响提供了坚实的基础。
衍生相关工作
基于SM-D和AIGTBench数据集,衍生出了多项经典研究工作。例如,研究人员利用这些数据集开发了OSM-Det检测器,该检测器在AIGTBench上表现出色,准确率和F1分数分别达到0.979和0.980。此外,这些数据集还被用于研究AIGT与HWT在语言特征、主题分布和用户互动等方面的差异,推动了AI生成文本检测领域的进一步发展。其他相关研究还包括对AIGT在不同社交媒体平台上的传播趋势进行深入分析,揭示了LLM技术在内容创作中的广泛应用及其对用户行为的影响。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)的快速发展,社交媒体平台上AI生成文本(AIGT)的普及率显著增加,引发了对其潜在滥用的广泛关注。近期研究聚焦于量化、监测和分析社交媒体上的AIGT,以应对其可能带来的虚假信息传播和舆论操纵等社会影响。通过构建大规模数据集SM-D和AIGTBench,研究者能够训练和评估AIGT检测器,识别出最佳性能的检测器OSM-Det。研究还揭示了不同社交媒体平台上AIGT的显著增长趋势,尤其是在Medium和Quora上,AI生成内容的占比从2022年初的不到2%激增至2024年的近40%。此外,研究通过语言学分析和多维度的帖子分析,揭示了AIGT与人类撰写文本在语言模式、话题分布、用户互动和作者粉丝分布等方面的差异。这些发现为未来研究提供了宝贵的见解,有助于更好地理解AIGT在社交媒体中的动态演变及其潜在影响。
相关研究论文
  • 1
    Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media香港科技大学(广州), CISPA亥姆霍兹信息安全中心 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录