five

AiresPucrs/COMPAS|刑事司法数据集|算法评估数据集

收藏
hugging_face2024-03-25 更新2024-03-04 收录
刑事司法
算法评估
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/COMPAS
下载链接
链接失效反馈
资源简介:
COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)数据集用于分析刑事司法系统的各个方面,包括某些被告群体是否更可能受到更严厉的判决、算法预测的准确性以及这些预测对判决决策的影响。该数据集包含40列,详细记录了被告的 demographic 信息、评估细节、再犯指标和 COMPAS 算法分配的风险分数。每行代表一个独特的评估或案例,捕捉与个人与刑事司法系统互动相关的信息以及 COMPAS 工具对其再犯风险和其他因素的评估。数据集包含18,316个示例,使用英语,并根据开放数据库公约许可。

The COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset is used to analyze various aspects of the criminal justice system, including the likelihood of certain groups receiving harsher sentences and the accuracy of the COMPAS algorithms predictions. The dataset contains 40 columns that capture demographic information, assessment details, recidivism indicators, and risk scores assigned by the COMPAS algorithm. Each row represents a unique assessment or case related to an individuals involvement with the criminal justice system. The dataset consists of 18,316 demonstrations and is available in English. It is licensed under the Open Database Commons license.
提供机构:
AiresPucrs
AI搜集汇总
数据集介绍
main_image_url
构建方式
COMPAS数据集的构建基于对司法系统中COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)评分的详细记录。该数据集汇集了大量被告人的个人信息、犯罪历史、司法评分及相关的法律记录,旨在为研究司法决策和人工智能伦理提供数据支持。通过整合这些多维度的数据,数据集为研究者提供了一个全面且细致的视角,以探讨司法系统中的算法应用及其潜在影响。
特点
COMPAS数据集的显著特点在于其多维度的数据结构,涵盖了个体的基础信息、犯罪历史、司法评分及法律记录等多个方面。数据集不仅包含了定量数据如年龄、犯罪次数等,还包含了定性数据如犯罪描述和评分等级,为研究者提供了丰富的分析维度。此外,数据集的标签设计(如是否再犯、暴力再犯等)使其在司法预测和伦理研究中具有广泛的应用潜力。
使用方法
使用COMPAS数据集时,研究者可以通过HuggingFace的`datasets`库轻松加载数据。通过以下代码片段,用户可以加载训练集并进行进一步的分析或模型训练: python from datasets import load_dataset dataset = load_dataset("AiresPucrs/COMPAS", split='train') 该数据集适用于文本分类任务,尤其在司法预测和人工智能伦理研究领域具有重要应用价值。研究者可以根据数据集中的多维度信息,构建模型以预测再犯风险或评估司法决策的公平性。
背景与挑战
背景概述
COMPAS数据集由AiresPucrs团队创建,作为Teeny-Tiny Castle项目的一部分,旨在支持人工智能伦理与安全研究的教育工具。该数据集主要用于文本分类任务,涉及法律领域,特别是与犯罪风险评估相关的数据。数据集包含了多个与犯罪记录、个人背景、以及风险评估相关的特征,如年龄、性别、种族、犯罪记录次数等。通过这些数据,研究人员可以探索和分析犯罪风险评估模型中的偏见与公平性问题,从而推动人工智能在法律领域的应用更加公正和透明。
当前挑战
COMPAS数据集在构建过程中面临的主要挑战之一是如何确保数据的质量和代表性,特别是在涉及敏感信息如种族和性别时,避免引入潜在的偏见。此外,数据集的特征多样性也为模型训练带来了复杂性,如何在保持模型性能的同时减少不公平性是一个重要的研究方向。另一个挑战是数据集的隐私保护,如何在公开数据的同时保护个人隐私,确保数据的合法使用。
常用场景
经典使用场景
在法律与社会公平领域,COMPAS数据集常用于评估和预测被告的再犯风险。通过分析被告的个人信息、犯罪历史、年龄分类等特征,该数据集为法律决策提供了量化依据。其经典使用场景包括构建风险评估模型,以辅助法官在量刑和假释决策中做出更为客观和公正的判断。
解决学术问题
COMPAS数据集在学术研究中解决了关于算法公平性和偏见的重大问题。通过分析数据集中的种族、性别等因素,研究者能够探讨算法在风险评估中是否存在不公平的偏见,从而推动法律领域的算法透明性和公正性研究。这一研究对提升司法系统的公正性和信任度具有深远影响。
衍生相关工作
COMPAS数据集的发布激发了大量关于算法公平性和司法透明度的研究。相关工作包括探讨如何减少算法中的种族和性别偏见,以及如何设计更为公平的风险评估模型。此外,该数据集还促进了关于数据隐私和伦理问题的讨论,推动了法律与技术交叉领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录