theatticusproject/cuad-qa|法律合同审查数据集|自然语言处理数据集

hugging_face2024-05-23 更新2024-05-25 收录

法律合同审查

自然语言处理

下载链接：

https://hf-mirror.com/datasets/theatticusproject/cuad-qa

下载链接

链接失效反馈

资源简介：

CUAD（Contract Understanding Atticus Dataset）是一个专门用于法律合同审查的自然语言处理数据集，包含510份商业法律合同中的超过13,000个标签，涵盖了41个重要条款类别。该数据集由专家生成，主要用于支持法律合同审查的NLP研究和开发。数据集的创建过程包括法律学生的培训、手动标签、关键词搜索、类别报告审查、律师审查等多个步骤，以确保注释的准确性。数据集仅包含英文样本，且已分为训练集和测试集。

提供机构：

theatticusproject

AI搜集汇总

数据集介绍

构建方式

Contract Understanding Atticus Dataset (CUAD) 是由The Atticus Project团队精心构建的，旨在支持法律合同审查领域的自然语言处理研究。该数据集包含了超过500份商业法律合同，并由数十名法律学生、律师和机器学习研究人员经过一年的努力进行手动标注，形成了超过13,000个专家注释，涵盖41个重要的合同条款类别。这些注释过程包括法律学生的培训、关键词搜索、类别报告审查、律师复核等多个步骤，确保了数据的高质量和准确性。

特点

CUAD数据集的显著特点在于其高度专业化和领域特定的标注，涵盖了法律合同审查中的41个关键条款类别。每个类别都需要模型识别合同中与之相关的部分，这使得任务具有挑战性。此外，数据集的构建过程中采用了多层次的标注和审查机制，确保了标注的一致性和准确性。数据集的规模适中，包含22,450个训练样本和4,182个测试样本，适合用于闭域问答和抽取式问答任务。

使用方法

CUAD数据集主要用于支持法律合同审查领域的自然语言处理任务，特别是闭域问答和抽取式问答。用户可以通过HuggingFace的datasets库加载该数据集，并使用提供的字段如'question'、'context'和'answers'进行模型训练和评估。数据集的结构清晰，包含'id'、'title'、'context'、'question'和'answers'等字段，便于模型直接处理。通过使用CUAD，研究者和开发者可以训练和评估模型在法律合同审查任务中的表现，推动该领域的技术进步。

背景与挑战

背景概述

Contract Understanding Atticus Dataset (CUAD) v1 是由 The Atticus Project 创建的一个专门用于法律合同审查的自然语言处理数据集。该数据集于2021年发布，包含了超过500份商业法律合同中的13,000多个标签，涵盖了41种律师在审查合同时关注的条款类别。CUAD 的创建旨在通过提供高质量的数据集和预训练模型，推动法律合同审查的自动化，从而减少人工审查的时间和成本。该数据集的创建得到了法律专家、法学生和机器学习研究人员的共同努力，通过一年的努力，最终形成了这一大规模、高质量的数据集，对法律科技领域具有重要影响。

当前挑战

CUAD 数据集面临的挑战主要集中在法律合同审查的复杂性和数据标注的精确性上。首先，法律合同文本通常冗长且结构复杂，涉及多个条款和子条款，模型需要从中提取出与特定标签相关的关键信息，这使得任务类似于在干草堆中寻找针。其次，数据标注过程涉及多步骤的审查和校对，包括法学生的初步标注、关键词搜索、律师的最终审查等，确保标注的准确性和一致性。此外，合同文本中的敏感信息和格式问题也给数据处理带来了额外的挑战。

常用场景

经典使用场景

CUAD数据集的经典使用场景主要集中在法律合同审查领域，特别是在识别和提取合同中关键条款的自动化任务中。该数据集通过提供超过13,000个专家标注的样本，涵盖了510份商业法律合同中的41个重要条款类别，为开发和评估合同审查的自然语言处理模型提供了丰富的资源。

解决学术问题

CUAD数据集解决了法律合同审查领域中缺乏大规模公开数据集的问题，填补了这一领域的研究空白。通过提供高质量的标注数据，CUAD促进了自然语言处理技术在法律领域的应用，推动了模型在特定领域任务中的泛化能力研究，具有重要的学术价值和实际意义。

衍生相关工作

CUAD数据集的发布催生了一系列相关研究工作，特别是在法律文本理解和合同条款提取方面。许多研究者利用CUAD数据集训练和评估模型，探索如何更有效地从合同文本中提取关键信息。此外，CUAD还激发了关于如何在特定领域应用自然语言处理技术的深入讨论，推动了法律科技领域的创新和发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录