five

MUSER|法律案例检索数据集|法律AI数据集

收藏
arXiv2023-10-24 更新2024-06-21 收录
法律案例检索
法律AI
下载链接:
https://github.com/THUlawtech/MUSER
下载链接
链接失效反馈
资源简介:
MUSER是由清华大学开发的多视角相似案例检索数据集,专注于中国民事法律案例。该数据集包含100个查询案例和4024个候选案例,通过法律事实、争议焦点和法律条文三个维度进行案例相似性评估。数据集创建过程中,专家团队设计了详细的法律元素标签体系,并进行了句子级别的标注。MUSER旨在通过综合法律知识提升案例检索的准确性,特别适用于法律AI研究和司法实践中的案例参考。
提供机构:
清华大学
创建时间:
2023-10-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
MUSER数据集的构建基于多视角相似性测量和全面的法律元素,涵盖了法律事实、争议焦点和法律条文三个维度。通过从中国民事案件中选取100个查询案例和4,024个候选案例,构建了一个综合且结构化的标签体系。每个维度都设计了详细的标签层次结构,包括一级、二级和三级标签,共计22个一级标签、190个二级标签和505个三级标签。这些标签在句子级别上进行了标注,以确保对案例相似性的准确评估。
使用方法
MUSER数据集适用于多种法律AI应用,特别是相似案例检索任务。用户可以通过加载数据集中的查询案例和候选案例,利用预定义的法律元素标签体系进行模型训练和评估。数据集提供了多种检索方法的实现,包括基于文本的检索模型和基于法律元素的检索模型。用户可以根据具体需求选择合适的模型进行相似案例的检索和评估,从而提升法律决策的准确性和公正性。
背景与挑战
背景概述
MUSER数据集由清华大学的一组研究人员于2023年创建,旨在解决类似案例检索(SCR)中的多视角相似性测量问题。该数据集的核心研究问题是如何在法律AI应用中,通过多视角的相似性测量来提升司法公正。MUSER不仅关注案件的事实描述部分,还整合了法院意见和法律条文等其他重要部分,以全面评估案件相似性。这一研究对法律AI领域具有重要影响,因为它提供了一个更为全面和结构化的数据集,有助于开发更精确的类似案例检索模型。
当前挑战
MUSER数据集在构建过程中面临多个挑战。首先,如何从多个视角(如法律事实、争议焦点和法律条文)综合评估案件相似性是一个复杂的问题。其次,数据集的构建需要进行句子级别的法律元素标注,这不仅耗时且需要专业知识。此外,数据集中的法律元素分布不均,某些标签的实例较少,这增加了法律元素预测的难度。最后,由于民事案件的复杂性和多样性,如何设计有效的检索模型以准确匹配类似案例也是一个重大挑战。
常用场景
经典使用场景
MUSER数据集在法律领域中被广泛用于相似案例检索任务。通过多视角的相似度测量,该数据集不仅考虑了案件的事实描述,还纳入了法院意见和法律条文等关键部分,从而提供了更为全面和准确的案例相似度评估。这种多视角的方法使得MUSER在法律AI应用中具有显著优势,特别是在确保司法公正和一致性方面。
解决学术问题
MUSER数据集解决了现有相似案例检索(SCR)数据集在单一视角和缺乏法律知识方面的局限性。通过引入多视角的相似度测量和句子级别的法律元素注释,MUSER能够更全面地捕捉法律案例的复杂性,从而提升了SCR模型的性能。这一创新不仅推动了法律AI领域的发展,也为司法实践提供了更为精确的工具。
实际应用
在实际应用中,MUSER数据集被广泛用于法律咨询、案件分析和司法决策支持系统。通过提供多视角的案例相似度评估,MUSER帮助律师和法官更快速、准确地找到相关案例,从而提高法律服务的效率和质量。此外,该数据集还被用于法律教育,帮助学生和研究人员更好地理解和应用法律知识。
数据集最近研究
最新研究方向
在法律人工智能领域,MUSER数据集的最新研究方向聚焦于多视角相似案例检索,通过整合法律事实、争议焦点和法律条文等多维度信息,提升案例相似性评估的准确性和全面性。该研究不仅关注案例文本的语义相似度,还深入挖掘法律元素的结构化知识,以应对法律案例的复杂性和多样性。此外,研究还探索了如何利用深度学习模型进行法律元素预测和案例检索,以期在司法实践中提供更为精准的辅助决策支持。
相关研究论文
  • 1
    MUSER: A Multi-View Similar Case Retrieval Dataset清华大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录