中文聊天语料库|自然语言处理数据集|对话系统数据集

github2020-10-14 更新2024-05-31 收录

自然语言处理

对话系统

下载链接：

https://github.com/xurenlu/chinese_chatbot_corpus

下载链接

链接失效反馈

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对这些语料进行了统一化规整和处理，以便直接使用。

本库汇聚了涵盖chatterbot、豆瓣多轮对话、PTT八卦、青云问答、电视剧台词、贴吧论坛回复、微博互动、小黄鸡闲聊等八种公开常用闲聊语料及短信数据，以及白鹭时代问答等资源。对这些数据进行了标准化整理与加工，以确保其可直接应用于各类应用场景。

创建时间：

2019-06-27

AI搜集汇总

数据集介绍

构建方式

中文聊天语料库的构建基于对市面上多种开源中文聊天语料的系统化搜集与整理。该数据集整合了来自不同来源的语料，包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料，共计八种。每种语料在提取后经过繁体字转换，并统一处理为一轮一轮的对话格式，确保数据的一致性和可用性。

使用方法

使用中文聊天语料库时，用户首先需从指定链接下载预处理好的语料文件，并将其解压至项目目录。随后，通过执行main.py脚本，系统将自动生成每个来源语料的独立tsv文件，存储在clean_chat_corpus文件夹中。每行数据以query和answer的形式呈现，便于直接导入和分析。

背景与挑战

背景概述

中文聊天语料库是由一群致力于自然语言处理研究的学者和开发者共同创建的，旨在为中文聊天机器人和对话系统提供高质量的训练数据。该数据集的创建时间可追溯至近年来，随着人工智能技术的迅猛发展，对话系统的需求日益增长。主要研究人员和机构包括北航、微软等，他们通过整合和处理多个开源项目和公开语料，形成了这一综合性的聊天语料库。核心研究问题是如何有效地收集、整理和标准化多来源的中文对话数据，以提升聊天机器人的性能和用户体验。该数据集对相关领域的影响力在于，它为研究人员和开发者提供了一个统一、便捷的数据资源，极大地促进了中文自然语言处理技术的发展。

当前挑战

中文聊天语料库在构建过程中面临多项挑战。首先，不同来源的语料在格式、内容和质量上存在显著差异，需要进行繁琐的统一化处理和标准化。其次，语料中包含大量噪音，如不规范的对话、不雅内容等，这些都需要通过精细的过滤和清洗来解决。此外，语料的多样性虽然丰富了数据集，但也增加了处理的复杂性，特别是在多轮对话的结构化和分析上。最后，如何确保语料的版权和合法性，避免侵权问题，也是该数据集构建过程中必须面对的挑战。

常用场景

经典使用场景

中文聊天语料库的经典使用场景主要集中在自然语言处理（NLP）领域，特别是对话系统与聊天机器人的开发。该数据集通过整合多种来源的对话数据，为研究人员和开发者提供了一个统一的、高质量的语料库，用于训练和评估对话模型。其多轮对话的特性使得它特别适用于开发能够进行复杂交互的聊天机器人，从而提升用户体验。

解决学术问题

该数据集解决了在NLP领域中，特别是对话系统研究中，缺乏统一、高质量的中文对话语料的问题。通过提供多样化的对话样本，它有助于研究人员开发和验证新的对话模型，提升模型的泛化能力和鲁棒性。此外，该数据集的多轮对话特性为研究多轮对话管理、上下文理解和生成提供了宝贵的资源，推动了相关领域的发展。

实际应用

在实际应用中，中文聊天语料库被广泛用于开发智能客服、虚拟助手和社交机器人等应用。通过使用该数据集训练的模型，这些应用能够更自然地与用户进行交互，提供更加个性化和智能化的服务。例如，在电商平台上，智能客服可以利用该数据集进行训练，从而更有效地解答用户的问题，提升用户满意度。

数据集最近研究

最新研究方向

近年来，中文聊天语料库在自然语言处理领域引起了广泛关注。该数据集整合了多种来源的聊天语料，包括社交媒体、论坛和电视剧对白等，为研究者提供了丰富的多轮对话数据。前沿研究方向主要集中在对话系统的智能化提升，如通过深度学习模型优化对话生成质量，增强对话的连贯性和上下文理解能力。此外，数据集的多样性也促进了跨领域对话模型的研究，如结合情感分析和知识图谱，提升聊天机器人的情感智能和知识推理能力。这些研究不仅推动了聊天机器人在实际应用中的表现，也为人机交互领域的技术进步提供了有力支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2023）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2023年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2023）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录