five

开源对话数据集汇总(中文)|中文对话数据集|指令微调数据集

收藏
github2023-02-10 更新2024-05-31 收录
中文对话
指令微调
下载链接:
https://github.com/YouTaoBaBa/Chinese-Dialogue-Dataset
下载链接
链接失效反馈
资源简介:
用于汇总目前的开源中文对话数据集

A summary of currently available open-source Chinese dialogue datasets.
创建时间:
2022-07-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
该开源对话数据集汇总(中文)通过整合多个领域的对话数据,构建了一个全面的中文对话资源库。数据集包括基于提示的大规模预训练数据集pCLUE,腾讯的NaturalConv,清华大学的CrossWOZ、KdConv和LCCC,以及豆瓣的对话语料库。此外,还涵盖了特定领域的对话数据,如阿里天池的医疗对话和淘宝客服对话。这些数据集通过引用相关论文和提供下载链接,确保了数据来源的可靠性和学术背景的支持。
特点
该数据集的特点在于其多样性和广泛性。它不仅包含了多任务学习和零样本学习的预训练数据,还涵盖了多领域、多回合的对话场景,如跨域任务对话和知识驱动会话。此外,特定领域的对话数据为医疗和客服等实际应用提供了丰富的资源。数据集的多样性使其适用于不同类型的对话系统研究和开发,从基础的对话生成到复杂的任务导向对话。
使用方法
使用该数据集时,用户可以通过提供的下载链接获取各个子数据集。对于pCLUE和NaturalConv等数据集,用户可以直接下载并用于预训练或微调模型。对于CrossWOZ和KdConv等数据集,用户可以利用其丰富的对话状态注释和多领域覆盖进行任务导向对话的研究。特定领域的对话数据,如医疗和客服对话,可以用于开发和评估专业领域的对话系统。此外,数据集的引用论文提供了详细的使用指南和研究背景,帮助用户更好地理解和应用数据。
背景与挑战
背景概述
随着自然语言处理技术的迅猛发展,对话系统在多个领域展现出巨大的应用潜力。开源对话数据集汇总(中文)应运而生,旨在为研究人员提供丰富且多样化的中文对话数据资源。该数据集涵盖了从多任务学习到特定领域对话的广泛应用场景,包括腾讯、清华大学、豆瓣等知名机构和平台的数据贡献。这些数据集不仅为多轮对话、零样本学习等前沿研究提供了坚实的基础,还推动了对话系统在实际应用中的性能提升。
当前挑战
尽管开源对话数据集汇总(中文)提供了丰富的资源,但在构建和应用过程中仍面临诸多挑战。首先,数据集的多样性和质量控制是一个重要问题,不同来源的数据在格式、领域和质量上存在差异,需要进行统一的标准化处理。其次,多轮对话中的上下文理解和话题切换机制仍需进一步优化,以提高对话系统的自然性和连贯性。此外,特定领域的对话数据集,如医疗和客服,对隐私和伦理提出了更高的要求,如何在保证数据安全的前提下进行有效利用,是一个亟待解决的问题。
常用场景
经典使用场景
在自然语言处理领域,开源对话数据集汇总(中文)被广泛应用于对话系统的开发与优化。例如,pCLUE数据集通过其多任务学习和零样本学习的特性,为构建能够适应多种场景的智能对话系统提供了丰富的训练资源。此外,NaturalConv数据集因其多领域、多轮次的对话特性,成为研究多轮对话管理和话题切换机制的重要工具。
解决学术问题
该数据集解决了对话系统研究中的多个关键问题,如多轮对话中的上下文理解、话题切换和领域适应性。通过提供丰富的对话样本和详细的注释,这些数据集帮助研究人员开发出更智能、更自然的对话系统,从而推动了人机交互技术的发展。
衍生相关工作
基于这些数据集,研究者们开发了多种对话系统模型和算法,如基于深度学习的对话生成模型、对话状态跟踪和策略学习方法。例如,LCCC数据集的开放领域对话特性激发了大量关于短文本对话生成和回复选择的研究,而豆瓣对话数据集则促进了多轮对话匹配网络的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

中国250米灌溉耕地分布数据集(2000-2020)

灌溉耕地分布是开展生态、水文和气候研究的关键数据,并在水土资源管理中具有特别重要的地位。通过半自动机器学习模型,融合多源遥感数据(包括耕地分布、植被指数、水稻田分布)、灌溉统计和调查数据,以及灌溉适宜性分析,生成了中国逐年、250米灌溉耕地分布图(CIrrMap250)。利用2万个参考样本和高分辨率灌溉取水数据,对灌溉耕地分布数据的精度进行评估。结果显示,CIrrMap250在2000年、2010年和2020年的总体精度为0.79-0.88,优于现有的同类产品。

国家青藏高原科学数据中心 收录