five

BaiJia|历史角色扮演数据集|大型语言模型数据集

收藏
arXiv2025-01-06 更新2025-01-01 收录
历史角色扮演
大型语言模型
下载链接:
https://github.com/BAI-LAB/BaiJia
下载链接
链接失效反馈
资源简介:
BaiJia是一个由中国北京邮电大学创建的大规模历史角色扮演数据集,旨在为大语言模型提供低资源的历史角色扮演数据。该数据集包含19281个中国历史人物的信息,涵盖了唐、宋、元、明、清五个朝代。数据集的内容包括人物的传记、文学作品、家庭关系、历史事件等,数据来源广泛,包括历史文献、古籍、艺术作品、民间传说和口述传统。数据集的创建过程包括从多个来源收集人物简历、生成对话以及构建评估问题。该数据集的应用领域主要是增强大语言模型在历史角色扮演任务中的表现,旨在解决历史文本碎片化和多模态数据整合的挑战。
提供机构:
北京邮电大学
创建时间:
2024-12-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
BaiJia数据集的构建过程分为三个主要步骤:首先,通过多源数据收集了19,281位中国历史人物的详细简历,涵盖唐、宋、元、明、清五个朝代。这些简历包括人物的生平、家庭关系、职业成就等信息。其次,基于这些简历,采用GPT-4o-mini模型生成与历史背景相符的对话场景,并通过LLaMA-Factory框架进行LoRA微调,使大语言模型具备角色扮演能力。最后,构建了用于评估角色扮演能力的问答数据集,确保模型能够准确理解并回应历史人物的背景与行为。
使用方法
BaiJia数据集的使用方法主要包括三个方面:首先,研究人员可以利用数据集中的历史人物简历信息,训练大语言模型以模拟历史人物的行为与对话。其次,通过生成的对话场景,模型可以进行角色扮演任务的微调,提升其在历史背景下的对话生成能力。最后,数据集提供的问答资源可用于评估模型在历史角色扮演任务中的表现,确保其生成的对话与历史背景一致。此外,BaiJia还提供了一个公开的评估基准,便于研究人员对比不同模型在历史角色扮演任务中的性能。
背景与挑战
背景概述
BaiJia数据集由北京邮电大学的Ting Bai、Jiazheng Kang和Jiayang Fan等研究人员于2024年推出,旨在为大规模语言模型(LLMs)提供低资源的历史角色扮演数据。该数据集涵盖了19,281位中国历史人物,跨越唐、宋、元、明、清五个朝代,整合了人物的传记、文学作品、家庭关系、历史事件等多维度信息。BaiJia的创建填补了历史角色扮演领域的数据空白,为LLMs在历史角色扮演任务中的能力提升提供了重要支持。该数据集不仅推动了LLMs在历史角色扮演中的发展,还为相关研究提供了评估基准。
当前挑战
BaiJia数据集在构建过程中面临多重挑战。首先,历史文本记录的碎片化和多样性使得数据整合变得复杂,尤其是不同形式的历史文献、古籍、艺术作品和口述传统的融合。其次,历史人物的信息分布不均,部分人物的详细资料稀缺,导致数据完整性和一致性的问题。此外,生成符合历史背景的对话场景也极具挑战,需要确保对话内容与历史人物的身份、时代背景和文化特征相符。这些挑战不仅影响了数据集的构建效率,也对LLMs在历史角色扮演任务中的表现提出了更高的要求。
常用场景
经典使用场景
BaiJia数据集在历史角色扮演领域具有广泛的应用,特别是在大语言模型(LLMs)的训练与评估中。通过整合大量中国历史人物的生平、文学作品、家族关系及历史事件等多维度信息,BaiJia为LLMs提供了丰富的背景知识,使其能够在模拟历史人物对话时表现出更高的准确性和一致性。该数据集在历史教育、文化传播及虚拟角色扮演等场景中展现了其独特的价值。
解决学术问题
BaiJia数据集解决了历史角色扮演研究中数据碎片化与低资源的问题。传统的历史角色扮演研究往往受限于数据收集的高成本与历史材料的稀缺性,而BaiJia通过整合多种来源的历史信息,填补了这一空白。它不仅为LLMs提供了高质量的训练数据,还推动了历史角色扮演任务中模型的开发与评估,为相关领域的学术研究提供了坚实的基础。
实际应用
在实际应用中,BaiJia数据集被广泛用于历史教育、文化传播及虚拟角色扮演等领域。通过基于该数据集训练的LLMs,用户可以与历史人物进行沉浸式对话,深入了解其思想、行为及历史背景。这种应用不仅增强了历史学习的趣味性,还为文化传承提供了新的途径。此外,BaiJia还为虚拟角色扮演游戏提供了丰富的历史素材,提升了游戏的沉浸感与真实性。
数据集最近研究
最新研究方向
在历史角色扮演领域,BaiJia数据集作为首个大规模中文历史人物角色扮演语料库,填补了低资源数据在大型语言模型(LLMs)中的应用空白。该数据集整合了来自不同形式和模态的历史文本记录,涵盖人物的生平、文学作品、家庭关系、历史事件等多维度信息,为LLMs在历史角色扮演任务中的能力提升提供了坚实基础。当前研究热点聚焦于如何通过BaiJia数据集优化LLMs的角色扮演能力,特别是在历史背景下的对话生成和情感表达方面。该数据集的发布不仅推动了历史角色扮演任务的研究进展,还为LLMs在文化传承和教育领域的应用开辟了新路径。
相关研究论文
  • 1
    BaiJia: A Large Scale Role-Playing Agent Corpus of Chinese Historical Charcaters北京邮电大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录