COMPAS Dataset|法律预测数据集|伦理分析数据集

github2024-11-20 更新2024-11-22 收录

法律预测

伦理分析

下载链接：

https://github.com/alexabellakahn/COMPAS-Research

下载链接

链接失效反馈

资源简介：

COMPAS数据集用于分析和构建更公平的机器学习模型，探索技术设计决策中的伦理权衡。数据集包括被告的个人标识符、种族、性别、年龄类别等信息，用于预测被告在两年内是否会再次犯罪。

创建时间：

2024-11-20

AI搜集汇总

数据集介绍

构建方式

COMPAS数据集的构建始于对原始数据的下载与加载，通过pandas DataFrame进行数据清洗，剔除无关紧要的列如个人标识符和冗余信息。随后，对剩余列进行重命名以增强可读性。预处理阶段包括过滤罕见指控和独热编码分类变量，如种族、性别和年龄类别，确保数据适合机器学习模型的输入需求。

特点

COMPAS数据集的显著特点在于其对公平性的关注，通过分离测试数据集中的种族群体，分析模型的公平性。此外，数据集支持多种模型的构建与评估，包括逻辑回归、支持向量机、随机森林分类器和神经网络，每种模型都经过细致的特征重要性分析，以揭示种族相关特征对模型决策的影响。

使用方法

使用COMPAS数据集时，首先需进行数据预处理，包括数据清洗和编码转换。随后，可以构建并训练多种机器学习模型，如逻辑回归、SVM、随机森林和神经网络，以预测被告的再犯风险。通过调整分类阈值，可以实现不同种族群体间的公平性评估，确保模型在敏感应用中的公正性。

背景与挑战

背景概述

COMPAS数据集是由ProPublica在2016年发布的一个公开数据集，主要用于研究机器学习模型在刑事司法系统中的应用及其公平性。该数据集的核心研究问题是如何在预测被告是否会再次犯罪时，确保模型的公平性，避免因种族、性别等因素导致的偏见。主要研究人员和机构包括ProPublica的记者和数据科学家，他们的工作对推动机器学习在敏感领域的公平性研究具有重要影响。

当前挑战

COMPAS数据集在构建过程中面临的主要挑战包括数据清洗和预处理，特别是去除个人标识符和无关信息，以及处理罕见犯罪记录。此外，该数据集在模型训练和评估阶段面临的挑战是如何在不同种族群体间实现公平的预测结果，避免某一群体被不公平地高估或低估再犯风险。研究人员通过调整分类阈值和使用不同的机器学习算法来解决这些挑战，但如何在复杂性和可解释性之间找到平衡仍然是一个持续的难题。

常用场景

经典使用场景

COMPAS数据集的经典使用场景主要集中在构建更加公平的机器学习模型，特别是在刑事司法系统中。通过分析被告在两年内是否会再次犯罪，研究人员可以训练逻辑回归、支持向量机和随机森林等多种模型，以预测再犯率。这些模型不仅评估了整体准确性，还特别关注了不同种族群体间的公平性，通过调整分类阈值来平衡误判率，确保模型在不同群体中的表现更加公正。

解决学术问题

COMPAS数据集解决了机器学习领域中一个重要的学术问题，即如何在模型设计和应用中实现公平性。通过分析和调整模型，研究人员能够识别和减轻模型中的偏见，特别是在涉及种族和性别等敏感特征时。这不仅提升了模型的公平性，还为理解和解决机器学习中的伦理问题提供了实际案例，对推动公平机器学习的发展具有重要意义。

衍生相关工作

COMPAS数据集的发布和分析催生了一系列相关的经典工作，特别是在机器学习公平性和伦理研究领域。许多研究者基于此数据集开发了新的公平性评估指标和算法，如调整分类阈值以平衡不同群体的误判率。此外，该数据集还激发了对机器学习模型透明性和可解释性的研究，推动了公平机器学习理论和实践的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL（数量性状位点）分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究，支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录