five

DuIE|自然语言处理数据集|知识图谱数据集

收藏
OpenDataLab2025-03-08 更新2024-05-09 收录
自然语言处理
知识图谱
public
1,017B
下载链接:
https://opendatalab.org.cn/OpenDataLab/DuIE
下载链接
链接失效反馈
资源简介:
DuIE是一个大规模的人工注释数据集,可用于评估基于架构的知识提取算法。 数据集包含210,000多个现实世界的汉语句子,涉及450,000多个SPO三元组 (即: 主语-谓语-宾语三元组),由预先指定的模式和49个谓语组成。 该数据集中的所有句子均提取自百度百科和百度新闻搜索。此数据集中的文本涵盖了现实世界应用程序中的各个领域,例如新闻,娱乐,用户生成的内容。 数据集由以下数据组成: 214,590句子,其中: 172,983句子是训练集; 21,626句子是开发集; 19,981句子是测试集。457,866示例,其中: 363,960示例是训练集; 45,558示例是开发集; 48,348示例是测试集。
提供机构:
OpenDataLab
开放时间:
2023-04-20
创建时间:
2023-04-20