中国行政区划数据|行政区划数据集|数据存储数据集

github2024-06-07 更新2024-06-17 收录

行政区划

数据存储

下载链接：

https://github.com/slightlee/regions_data

下载链接

链接失效反馈

资源简介：

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

This project encompasses administrative division data for China, including data at the provincial, prefectural, county, township, and village levels. The data is sourced from the National Bureau of Statistics and is stored in SQLite3 database files, which can be directly accessed using database connection tools.

创建时间：

2024-05-22

原始信息汇总

数据集概述

数据内容

本数据集包含中国行政区划数据，涵盖省级、地级、县级、乡级和村级五级行政区划信息。

数据存储

数据以sqlite3 db格式存储，文件名为regions.db，支持通过数据库连接工具直接访问。

数据来源

数据来源于国家统计局，具体链接为https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/。
2023年度全国统计用区划代码和城乡划分代码更新维护的标准时点为2023年6月30日。

数据同步时间

数据最新同步时间为2024年6月7日。

使用方法

方式一：重新生成数据

下载本项目。
修改main.py中的base_url地址。
安装依赖：pip install -r requirements.txt。
运行：python data_/main.py。
生成的数据文件保存在regions.db中。

方式二：直接使用`regions.db`数据

数据拓展计划

计划进行数据清洗和精简表结构。
计划增加JSON数据格式存储。

AI搜集汇总

数据集介绍

构建方式

中国行政区划数据集的构建基于国家统计局发布的最新行政区划代码和城乡划分代码。数据涵盖了省、市、区县、乡镇街道和社区村五级行政区划，确保了数据的全面性和权威性。数据处理流程包括从统计局网站抓取原始数据，经过清洗、格式转换和存储，最终生成SQL、JSON和CSV三种格式的数据文件。这一过程确保了数据的高质量和易用性，为各类应用场景提供了可靠的数据支持。

使用方法

用户可以通过两种方式使用该数据集。首先，用户可以拉取项目代码，修改配置文件中的数据源地址，安装依赖后运行脚本获取最新数据。其次，用户可以直接使用项目根目录下已处理好的数据文件，包括SQL、JSON和CSV格式，无需额外处理即可导入数据库或进行数据分析。此外，项目还提供了在线预览和本地预览功能，方便用户快速查看数据结构和内容。

背景与挑战

背景概述

中国行政区划数据集是由国家统计局提供的权威数据，涵盖了省、市、区县、乡镇街道及社区村五级行政区划信息。该数据集的创建旨在为地理信息系统、城市规划、社会研究等多个领域提供标准化和结构化的行政区划数据。主要研究人员或机构为国家统计局，其核心研究问题是如何确保行政区划数据的准确性、完整性和及时更新。该数据集对相关领域的影响力在于其为各类研究和应用提供了基础数据支持，促进了地理信息技术的应用与发展。

当前挑战

中国行政区划数据集在构建过程中面临多项挑战。首先，数据来源的多样性和复杂性要求高度的数据清洗和整合能力，以确保数据的准确性和一致性。其次，行政区划的频繁变动，如区划调整、名称变更等，需要持续的数据更新和维护机制。此外，数据格式的多样性（如SQL、JSON、CSV）增加了数据处理的复杂性，要求开发高效的数据转换工具。最后，数据的安全性和隐私保护也是一大挑战，特别是在数据共享和使用过程中，需严格遵守相关法律法规。

常用场景

经典使用场景

中国行政区划数据集的经典使用场景主要体现在地理信息系统（GIS）的构建与优化中。该数据集提供了详尽的省、市、区县、乡镇街道及社区村五级行政区划信息，为GIS应用提供了基础数据支持。通过整合这些数据，研究人员和开发者能够构建精确的地理信息模型，实现空间分析、路径规划、资源分配等复杂功能。此外，该数据集还广泛应用于城市规划、交通管理、应急响应等领域，为各类决策支持系统提供了可靠的数据基础。

解决学术问题

中国行政区划数据集在学术研究中解决了多个关键问题。首先，它为地理学、社会学、经济学等学科提供了标准化的地理空间数据，有助于研究区域发展差异、人口迁移模式、经济活动分布等复杂现象。其次，该数据集支持大规模数据分析和建模，为研究者提供了丰富的实证数据，推动了空间计量经济学、区域科学等领域的理论创新。此外，通过提供最新的行政区划信息，该数据集还有助于确保研究结果的时效性和准确性，提升了学术研究的科学价值。

实际应用

在实际应用中，中国行政区划数据集展现了广泛的适用性。政府部门利用该数据集进行区域经济统计、人口普查、土地利用规划等工作，提高了行政管理的效率和科学性。企业则通过该数据集进行市场分析、物流优化、客户定位等商业活动，增强了市场竞争力。此外，非政府组织和社会团体也利用该数据集进行公益项目选址、社区服务优化等工作，提升了社会服务的精准度和覆盖面。总体而言，该数据集在多个领域中发挥了基础性作用，推动了社会经济的发展。

数据集最近研究

最新研究方向

近年来，中国行政区划数据的研究逐渐聚焦于地理信息系统（GIS）与大数据技术的融合应用。学者们致力于通过整合多源数据，提升行政区划数据的精确性和实时性，以支持城市规划、灾害管理及公共服务优化等领域的决策制定。此外，随着智慧城市建设的推进，该数据集在物联网、人工智能等前沿技术中的应用也日益广泛，为城市智能化管理提供了坚实的基础数据支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

mmlu_eval

该数据集用于评估和比较不同模型的推理能力。它包含多个特征，如问题、主题、选项、答案、输入、基线模型输出、混合推理模型输出和评估结果。数据集分为一个验证集，包含1531个样本。数据集的大小为10295402字节，下载大小为4908248字节。

huggingface 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

中国行政区划数据|行政区划数据集|数据存储数据集

数据集概述

数据内容

数据存储

数据来源

数据同步时间

使用方法

方式一：重新生成数据

方式二：直接使用regions.db数据

数据拓展计划

方式二：直接使用`regions.db`数据