five

CAIL2018|法律判决预测数据集|法律智能系统数据集

收藏
arXiv2018-07-04 更新2024-06-21 收录
法律判决预测
法律智能系统
下载链接:
http://cail.cipsc.org.cn/
下载链接
链接失效反馈
资源简介:
CAIL2018是由清华大学计算机科学与技术系等机构联合创建的大型中文法律数据集,专注于判决预测。该数据集包含超过260万件刑事案件,数据来源于中国最高人民法院的公开判决文书,规模远超现有同类数据集。数据集内容详尽,包括适用的法律条款、罪名及刑期,旨在通过案件事实描述推断判决结果。创建过程中,数据集经过精心筛选和预处理,确保了数据的质量和适用性。CAIL2018的应用领域主要集中在法律智能系统,旨在提高法律专业人士的工作效率,并推动法律判决预测技术的进步。
提供机构:
清华大学计算机科学与技术系
创建时间:
2018-07-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
CAIL2018数据集从中国裁判文书网收集了5,730,302份刑事文档,经过筛选和预处理,最终保留了2,676,075份具有判决结果的刑事案件文档。每个案件文档被结构化为事实描述和判决结果两部分,判决结果进一步细化为适用的法律条文、罪名和刑期。通过正则表达式从判决结果中提取相关信息,并过滤掉多被告案件和低频罪名及法律条文,确保数据集的高质量和实用性。
特点
CAIL2018数据集以其大规模和详细标注著称,包含超过260万份刑事案件,远超其他同类数据集。其标注不仅包括适用的法律条文和罪名,还涵盖了具体的刑期,为法律判决预测提供了丰富的信息。然而,数据集中的类别分布极不均衡,前10种罪名覆盖了79.0%的案件,而最低频的10种罪名仅覆盖0.12%的案件,这为模型训练带来了挑战。
使用方法
CAIL2018数据集适用于法律判决预测任务,可用于训练和评估文本分类模型。研究者可以利用该数据集进行法律条文、罪名和刑期的预测,通过实现如TFIDF+SVM、FastText和CNN等基线模型,评估其在不同子任务上的表现。数据集的发布旨在推动法律智能系统的研究,帮助提升法律判决预测的准确性和效率。
背景与挑战
背景概述
CAIL2018数据集由清华大学、北京大学、中国科学院软件研究所、中国司法大数据研究院和最高人民法院联合发布,旨在推动法律判决预测(Legal Judgment Prediction, LJP)领域的研究。该数据集于2018年首次发布,包含了超过260万份由中国最高人民法院发布的刑事案件文档,是迄今为止最大规模的公开法律判决预测数据集。CAIL2018不仅在规模上超越了以往的数据集,而且在判决结果的标注上更为详细和丰富,包括适用的法律条文、指控和刑期等信息。这些数据为研究人员提供了宝贵的资源,以开发和验证法律智能系统,从而提高司法工作的效率和准确性。
当前挑战
尽管CAIL2018数据集在规模和详细程度上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集中不同类别的分布极不均衡,前10种指控覆盖了79.0%的案件,而最底部的10种指控仅覆盖0.12%的案件,这使得预测低频指控和法律条文变得极为困难。其次,数据集中的多被告案件被过滤,增加了单一被告案件的处理难度。此外,实验结果表明,尽管现有模型在某些任务上表现良好,但在预测刑期等复杂任务上仍存在显著挑战,这表明法律判决预测任务仍需进一步的研究和改进。
常用场景
经典使用场景
CAIL2018数据集在法律判决预测领域中被广泛用于训练和评估模型,以预测刑事案件的判决结果。其经典使用场景包括通过案件的事实描述来推断适用的法律条文、指控类型以及刑期长度。这些预测任务不仅涵盖了文本分类的基本问题,还涉及复杂的法律推理和多标签分类问题。
解决学术问题
CAIL2018数据集解决了法律判决预测领域中长期存在的数据稀缺和标注不详的问题。通过提供超过260万条详细的刑事案件记录,该数据集为研究人员提供了一个大规模、高质量的资源,用于开发和验证法律智能系统。这不仅推动了法律判决预测技术的进步,还为法律领域的自动化和智能化提供了坚实的基础。
衍生相关工作
CAIL2018数据集的发布催生了一系列相关研究工作,特别是在法律判决预测和法律文本分类领域。例如,研究人员利用该数据集开发了基于深度学习的模型,如卷积神经网络(CNN)和快速文本分类(FastText),以提高判决预测的准确性。此外,该数据集还促进了法律文本的自然语言处理(NLP)技术的研究,推动了法律智能系统的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录