five

US Homicide Reports|犯罪统计数据集|凶杀案件分析数据集

收藏
github2024-05-07 更新2024-05-31 收录
犯罪统计
凶杀案件分析
下载链接:
https://github.com/LinaYorda/predicting-crime-with-machine-learning
下载链接
链接失效反馈
资源简介:
该数据集来源于Murder Accountability Project,包含了1980年至2014年间超过600,000起凶杀案的详细报告。它整合了FBI的补充凶杀报告,以及通过信息自由法案获得的未向司法部官方报告的超过22,000起凶杀案的数据。数据集提供了每个凶杀案的详细信息,包括案件记录ID、机构代码、机构名称、机构类型、犯罪发生的城市和州、犯罪发生的年份和月份、事件数量、犯罪类型、犯罪是否解决、受害者性别、受害者年龄、受害者种族、受害者族裔、犯罪者性别、犯罪者年龄、犯罪者种族、犯罪者族裔、受害者和犯罪者之间的关系、犯罪使用的武器、受害者数量、犯罪者数量以及信息来源。

This dataset originates from the Murder Accountability Project and encompasses detailed reports of over 600,000 homicides occurring between 1980 and 2014. It amalgamates the FBI's Supplementary Homicide Reports with data on more than 22,000 homicides not officially reported to the Department of Justice, obtained through the Freedom of Information Act. The dataset provides comprehensive details for each homicide, including case record ID, agency code, agency name, agency type, city and state of the crime, year and month of the crime, number of incidents, type of crime, whether the crime was solved, victim's gender, victim's age, victim's race, victim's ethnicity, perpetrator's gender, perpetrator's age, perpetrator's race, perpetrator's ethnicity, relationship between victim and perpetrator, weapon used in the crime, number of victims, number of perpetrators, and the source of information.
创建时间:
2024-05-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Murder Accountability Project,由Thomas Hargrove领导,旨在提升美国凶杀案数据的透明度和司法效能。数据集整合了FBI的补充凶杀报告,涵盖1976年至今的详细记录,并包括通过《信息自由法》获取的未正式报告给司法部的22,000多起凶杀案。数据集从Kaggle下载,包含1980年至2014年间超过600,000起案件,提供了每起案件的详细信息,如记录ID、机构代码、城市、州、年份、月份、犯罪类型、是否解决等。
特点
该数据集以其全面性和详细性著称,涵盖了从犯罪发生地到犯罪者与受害者详细信息的广泛维度。其独特之处在于不仅包括官方报告,还纳入了通过《信息自由法》获取的未报告案件,增强了数据的完整性和代表性。此外,数据集的细致分类和多维度分析潜力,使其成为研究犯罪学和社会学的重要资源。
使用方法
数据集适用于多种分析和建模任务,特别是在预测犯罪是否解决方面。用户可以通过下载数据集并使用Python等编程语言进行数据预处理、探索性数据分析(EDA)和模型训练。建议使用如Logistic Regression、Random Forest、XGBoost和Decision Tree等机器学习模型进行预测分析。通过调整模型参数和评估指标如准确率、精确率、召回率和AUC,用户可以优化模型性能并进行深入分析。
背景与挑战
背景概述
美国凶杀报告数据集(US Homicide Reports)是由Murder Accountability Project项目汇编的,旨在提高美国凶杀率和司法效能的透明度。该数据集涵盖了1980年至2014年间超过60万起凶杀案件,整合了FBI的补充凶杀报告和通过《信息自由法》获取的未正式报告的案件。由Thomas Hargrove领导的这一项目强调了开放数据在解决社会问题和增强刑事司法问责制中的重要性。数据集详细记录了每起案件的多个关键细节,包括犯罪者和受害者的性别、年龄、种族、关系以及使用的武器等,为研究犯罪解决因素提供了丰富的信息源。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源多样,包括官方报告和非正式渠道,确保数据的一致性和准确性是一大难题。其次,数据集包含大量变量,如犯罪者和受害者的详细信息,这些变量之间的复杂关系增加了数据分析的难度。此外,数据集的时间跨度长,涉及多个年代的社会背景变化,这要求研究者在分析时考虑历史和社会因素的影响。在应用机器学习模型预测犯罪结果时,如何避免模型因种族和民族信息导致的偏见,确保模型的伦理性和公正性,也是一项重大挑战。
常用场景
经典使用场景
在犯罪学与社会安全领域,US Homicide Reports数据集被广泛用于探索和预测犯罪解决率。通过整合美国各州从1980年至2014年的超过60万起凶杀案件详细记录,该数据集为研究人员提供了丰富的变量信息,如犯罪类型、受害者与加害者的性别、年龄、种族等。这些详细数据使得机器学习模型能够深入分析影响犯罪解决的关键因素,从而为政策制定者和执法机构提供科学的决策支持。
实际应用
在实际应用中,US Homicide Reports数据集为执法机构和政策制定者提供了重要的工具。通过分析历史数据,执法部门可以识别高风险区域和群体,优化资源分配,提高犯罪预防和解决效率。此外,数据集还支持开发智能警务系统,通过实时数据分析和预测模型,帮助警方快速响应和处理犯罪事件。这些应用不仅提升了公共安全水平,还增强了社会对执法机构的信任。
衍生相关工作
US Homicide Reports数据集的发布催生了多项相关研究和工作。例如,基于该数据集的机器学习模型研究,不仅提升了犯罪预测的准确性,还推动了算法伦理和公平性的讨论。此外,数据集的公开性激发了跨学科的合作,如社会学、计算机科学和法律领域的学者共同探讨数据驱动的社会治理模式。这些衍生工作进一步扩展了数据集的应用范围,推动了犯罪学和社会安全领域的创新发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

D4LA-版面分析数据集

# D4LA 文档版面分析数据集 (the most Diverse and Detailed Dataset ever for Document Layout Analysis) ## 数据集概述 D4LA是面向文档版面分析的数据集。 ### 数据集简介 包含12类文档工27类文档版面类型,详细如下: ![d4la](./d4la.jpg) ### 标注格式 ``` D4LA ├── train_images │ ├── 1.jpg ├── test_images │ ├── 2.jpg ├── VGT_D4LA_grid_pkl │ ├── 1.pkl │ └── 2.pkl ├── json │ ├── train.json │ └── test.json ``` ### 引用方式 If you find this repository useful, please consider citing our work: ``` @inproceedings{da2023vgt, title={Vision Grid Transformer for Document Layout Analysis}, author={Cheng Da and Chuwei Luo and Qi Zheng and Cong Yao}, year={2023}, booktitle = {ICCV}, } ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/damo/D4LA.git ```

魔搭社区 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录