five

GuwenEE|古汉语数据集|事件抽取数据集

收藏
github2023-08-01 更新2024-05-31 收录
古汉语
事件抽取
下载链接:
https://github.com/Lyn4ever29/GuwenEE
下载链接
链接失效反馈
资源简介:
本语料库是一个古汉语领域事件抽取语料库,原始数据来自《二十四史》,从中随机抽取部分句子作为标注语料,通过大规模语言模型与人工相结合的方式构建。包含古汉语句子1000条,7个事件类别(一个分类),72个事件类型(二级分类),1928 个事件。

This corpus is an event extraction corpus in the field of ancient Chinese, with original data sourced from the 'Twenty-Four Histories'. A portion of sentences were randomly selected as annotated corpora, constructed through a combination of large-scale language models and manual efforts. It includes 1,000 ancient Chinese sentences, 7 event categories (primary classification), 72 event types (secondary classification), and 1,928 events.
创建时间:
2023-05-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
GuwenEE数据集的构建依托于《二十四史》中的古汉语文本,通过随机抽取部分句子作为基础语料。构建过程中,采用了大规模语言模型与人工标注相结合的方式,确保了数据的准确性和丰富性。语料库共包含1000条古汉语句子,涵盖了7个主要事件类别和72个具体事件类型,共计1928个事件,为古汉语事件抽取研究提供了坚实的基础。
特点
GuwenEE数据集的特点在于其专注于古汉语领域的事件抽取,提供了丰富的事件类别和类型,涵盖了从人生、战争到文化、地理等多个领域。数据集中的每个事件都详细标注了触发词、事件类型及相关的论元信息,如时间、地点、参与者等,这些细致的标注为研究者提供了深入分析古汉语事件结构的机会。此外,数据集还提供了事件Schema,便于用户理解和应用。
使用方法
使用GuwenEE数据集时,用户需首先下载并安装相应的Python环境和依赖库。数据集支持多种预训练模型,如Guwen-BERT、Siku-BERT等,用户可根据需求选择合适的模型进行事件抽取任务。通过运行提供的脚本,用户可以执行事件识别(ED)和事件元素提取(EAE)等任务。此外,数据集还提供了详细的配置文件和数据处理脚本,用户可根据实验需求进行调整和优化,以获得最佳的研究效果。
背景与挑战
背景概述
GuwenEE数据集是一个专注于古汉语事件抽取的语料库,由Lyn4ever29团队构建并发布于GitHub平台。该数据集的原始数据源自《二十四史》,通过随机抽取部分句子并进行标注,结合大规模语言模型与人工标注的方式,构建了一个包含1000条古汉语句子、7个事件类别和72个事件类型的语料库。该数据集的核心研究问题在于如何从古汉语文本中准确抽取事件信息,涵盖了人生、战争、政治、民事、日常、文化和地理等多个领域。GuwenEE的发布为古汉语自然语言处理领域提供了重要的数据支持,推动了古汉语事件抽取技术的发展。
当前挑战
GuwenEE数据集在构建和应用过程中面临多重挑战。首先,古汉语的语法结构与现代汉语存在显著差异,且缺乏标准化的分词工具,导致事件抽取任务在文本预处理阶段便面临困难。其次,古汉语文本中事件类型的多样性和复杂性增加了标注的难度,尤其是在事件触发词和事件论元的识别上,需要依赖大量的人工标注和领域知识。此外,现有的预训练模型在古汉语领域的表现仍不理想,尽管数据集采用了多个古汉语预训练模型进行实验,但其在事件识别(ED)和事件论元抽取(EAE)任务中的F1值普遍较低,表明模型在古汉语事件抽取任务上的泛化能力有待提升。这些挑战不仅影响了数据集的构建质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
GuwenEE数据集在古汉语事件抽取领域具有广泛的应用,尤其是在历史文献的自动化处理与分析中。通过该数据集,研究人员能够对《二十四史》等经典文献中的事件进行自动化识别与分类,从而为历史学研究提供数据支持。该数据集不仅涵盖了战争、政治、民事等多个事件类别,还通过细粒度的事件类型划分,为古汉语文本的语义理解提供了丰富的标注信息。
解决学术问题
GuwenEE数据集有效解决了古汉语文本事件抽取中的关键问题,如事件触发词识别、事件类型分类以及事件论元提取等。通过大规模语言模型与人工标注相结合的方式,该数据集为古汉语事件抽取任务提供了高质量的标注数据,显著提升了模型的性能。此外,该数据集还为古汉语自然语言处理领域的研究提供了新的基准,推动了相关技术的发展。
衍生相关工作
GuwenEE数据集的发布催生了一系列相关研究工作,尤其是在古汉语事件抽取模型的优化与改进方面。基于该数据集,研究人员提出了多种预训练模型,如Guwen-BERT、Siku-BERT等,并在事件识别与论元提取任务上取得了显著进展。此外,该数据集还推动了古汉语自然语言处理工具的开发,如古汉语分词器jiayan,为后续研究提供了重要的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录