five

政策主题分类数据|政策文本分类数据集|自然语言处理数据集

收藏
浙江省数据知识产权登记平台2024-08-09 更新2024-08-10 收录
政策文本分类
自然语言处理
下载链接:
https://www.zjip.org.cn/home/announce/trends/48726
下载链接
链接失效反馈
资源简介:
政策公文主题分类是政府治理现代化的重要手段之一,对提升政府治理能力和社会管理服务水平具有重要意义。通过对政策文本进行主题分类,可以更快的响应用户政策检索需求,进一步提高工作效率。1.数据采集:从不同类型的政务公开网站上间隔性获取最新的政策公文,将其中的政策文本数据进行保存。 2.数据清洗:对采集的政策文本数据进行数据清洗,仅保留可用的政策公文信息。剔除文本数据中可能存在的URL、IP地址、电子邮件、手机号码、电话号码、身份证号码信息;剔除无效的政策文本数据,判断标准为汉字数量是否少于10、符号比例是否低于50%、中英文字符和数字的占有比例是低于10%、中文字符比例是否低于10%。 3.数据主题分类:对清洗好的政策文本数据,使用训练好的Bert变体模型进行政策主题分类。首先,使用BPE算法对政策文本数据进行分词后,对切分的子词进行向量化后作为Bert变体模型的编码器的输入。之后,将编码器中的多层Transformer中得到的上下文信息经过分类头得到每个政策主题的概率。最终,取概率最高的主题作为当前政策的主题。
提供机构:
杭州城市大脑有限公司
创建时间:
2024-07-16
AI搜集汇总
数据集介绍
main_image_url
特点
该数据集是由杭州城市大脑有限公司提供的政策主题分类数据,包含2528条每日更新的政策文本信息,每条数据详细记录了政策编号、主题列表及分类概率,应用于政府公文主题分类场景,采用Bert变体模型进行自动化分类处理。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录