Recorded Crime: Borough Rates|犯罪分析数据集|区域比较数据集

github2023-05-13 更新2024-05-31 收录

犯罪分析

区域比较

下载链接：

https://github.com/datasets/london-crime

下载链接

链接失效反馈

资源简介：

该数据集包含伦敦各区的犯罪记录和每千人犯罪率，数据按财政年度和犯罪类别分类。犯罪率是根据财政年度中期的估计人口计算的，所有数据涉及必须向英国内政部报告的可通知犯罪类别。

This dataset comprises crime records and crime rates per thousand individuals across various boroughs in London, categorized by fiscal year and crime type. The crime rates are calculated based on the estimated population at the mid-point of the fiscal year, encompassing all data related to notifiable crime categories that must be reported to the UK Home Office.

创建时间：

2019-02-02

原始信息汇总

数据集概述

数据来源

数据集是从London data网站抓取的。

数据内容

包含记录的犯罪数量及每千人口的犯罪率，按财政年度和行政区划分。
犯罪率以每千人口计算，使用财政年度前半年的年中人口估计。
数据涉及“可通知犯罪”，即英格兰和威尔士所有警察部队必须向内政部报告的犯罪类别。
由于没有人口数据，希思罗机场的犯罪率不可用。

数据注意事项

自2012年4月起，警方记录的犯罪分类有所变化，因此在比较2012/13年与之前年份的犯罪数据时应谨慎。
自2011年4月起，Action Fraud开始代表个别警察部队记录欺诈犯罪，到2013年3月已全面实施，因此在比较此过渡期与早期年份的数据时应谨慎。

数据文件

输出数据位于data目录下，包含两个CSV文件：
- crime-rates.csv
- recorded-offences.csv

许可证

数据集遵循开放政府许可证（Open Government Licence），允许自由且灵活地使用和再利用信息，仅附带少数条件。

AI搜集汇总

数据集介绍

构建方式

该数据集通过从伦敦数据网站抓取信息构建而成，涵盖了按财政年度和行政区划分的广泛犯罪类别的记录犯罪数量及每千人口的犯罪率。犯罪率基于财政年度前半年的年中人口估计值计算，确保了数据的时效性和准确性。数据集特别指出，由于2012年4月警察记录犯罪分类的变化，以及2011年4月至2013年3月间欺诈犯罪记录方式的变更，使用者在比较这些时期及之前的数据时应谨慎。

特点

数据集的特点在于其详细记录了伦敦各行政区不同财政年度的犯罪数据，包括犯罪数量和每千人口的犯罪率。数据以CSV格式提供，分为‘crime-rates.csv’和‘recorded-offences.csv’两个文件，便于用户进行数据分析和处理。此外，数据集还特别标注了由于记录方式变化可能影响数据比较的注意事项，增强了数据的透明度和可靠性。

使用方法

使用该数据集前，需确保环境配置为Python 3.6及以上版本，并安装dataflows库。用户可以通过运行提供的Python脚本‘london-crime.py’来更新数据。数据集遵循开放政府许可，允许用户自由灵活地使用和再利用数据，仅需遵守少量条件。这为研究人员和政策制定者提供了便利，使他们能够基于最新的犯罪数据进行深入分析和决策支持。

背景与挑战

背景概述

Recorded Crime: Borough Rates数据集由伦敦数据网站（London data）抓取而来，主要记录了伦敦各行政区按财政年度和犯罪大类划分的犯罪数量及每千人口的犯罪率。该数据集的核心研究问题在于通过分析不同行政区的犯罪率变化，揭示伦敦市犯罪趋势及其与人口分布的关系。自创建以来，该数据集为犯罪学、社会学及公共政策研究提供了重要的数据支持，尤其在犯罪预防和警务资源配置方面具有显著影响力。数据集的计算方法基于财政年度中期的估计人口，确保了数据的准确性和可比性。

当前挑战

该数据集在解决犯罪率分析与预测问题时面临多重挑战。首先，由于2012年4月警察记录的犯罪分类发生变化，导致2012/13年度前后的子类别犯罪数据难以直接比较。其次，自2011年4月起，欺诈犯罪的记录由Action Fraud接管，这一过渡期内的数据与早期数据存在不一致性，增加了跨时间分析的复杂性。此外，希思罗机场因缺乏人口数据而无法计算犯罪率，进一步限制了数据的全面性。在构建过程中，数据抓取与清洗的自动化处理也面临技术挑战，需确保数据的完整性与一致性。

常用场景

经典使用场景

在犯罪学和社会学研究中，Recorded Crime: Borough Rates数据集被广泛用于分析伦敦各行政区的犯罪率变化趋势。研究者通过该数据集可以深入探讨不同犯罪类型在时间和空间上的分布特征，进而揭示社会经济因素与犯罪率之间的潜在关联。

解决学术问题

该数据集为学术界提供了关于犯罪率与人口密度、经济状况等变量之间关系的实证研究基础。通过分析不同行政区的犯罪率数据，研究者能够验证犯罪热点理论、社会失序理论等经典犯罪学假设，并为制定有效的犯罪预防政策提供科学依据。

衍生相关工作

基于该数据集，许多经典研究得以展开，例如犯罪热点分析、犯罪预测模型的构建以及犯罪与社会经济因素的相关性研究。这些研究不仅推动了犯罪学理论的发展，还为城市规划、公共安全政策制定等领域提供了重要的参考依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录

Lifan-Z/Chinese-poetries-txt

这个数据集从《全唐诗》和《全宋诗》中提取了四种不同风格的诗歌，包括五绝（5x4）17521首、五律（5x8）60896首、七绝（7x4）84485首和七律（7x8）71818首。每行数据对应一首诗，适用于文本生成任务。

hugging_face 收录