中文对话0.2B小模型 ChatLM-Chinese-0.2B|中文对话模型数据集|问答数据集数据集

github2024-04-20 更新2024-05-31 收录

中文对话模型

问答数据集

下载链接：

https://github.com/charent/ChatLM-mini-Chinese

下载链接

链接失效反馈

资源简介：

本项目包含多个来自互联网公开的单轮对话数据集，经过数据清洗和格式化处理，用于训练和优化中文对话小模型ChatLM-Chinese-0.2B。主要数据集包括社区问答、百科类问答、医药领域问答等，总数量超过1000万条。

This project encompasses a variety of publicly available single-turn dialogue datasets from the internet, which have been cleaned and formatted for training and optimizing the Chinese dialogue model, ChatLM-Chinese-0.2B. The primary datasets include community Q&A, encyclopedic Q&A, and medical domain Q&A, totaling over 10 million entries.

创建时间：

2023-08-27

AI搜集汇总

数据集介绍

构建方式

ChatLM-Chinese-0.2B数据集的构建过程始于对互联网上公开的单轮对话数据集的收集与清洗。这些数据集包括社区问答、百科类问答、医药领域问答以及知乎问答等，总计超过1000万条对话记录。数据清洗步骤包括规范化处理、基于mini_hash的文档去重等，确保数据集的质量和多样性。随后，数据集被整合为端到端的Text-to-Text格式，并使用Huggingface的NLP框架进行tokenizer训练和模型预训练。预训练过程中，采用了动态学习率调整和流式数据加载技术，以优化训练效率和资源利用。

特点

ChatLM-Chinese-0.2B数据集的主要特点在于其小巧而高效的模型设计，参数仅为0.2B，适合在资源有限的设备上进行训练和推理。数据集的构建过程公开透明，所有数据清洗和处理步骤均开源，确保了数据的可追溯性和可验证性。此外，该数据集支持多种训练和微调方式，包括SFT指令微调和RLHF偏好优化，能够灵活适应不同的应用场景。模型还支持下游任务的微调，如三元组信息抽取，展示了其在多任务处理上的潜力。

使用方法

使用ChatLM-Chinese-0.2B数据集进行模型训练和推理时，首先需要克隆项目并安装相关依赖。项目提供了详细的训练脚本和配置文件，支持单机单卡和单机多卡的训练模式，并允许在训练过程中任意位置断点续训。对于推理，用户可以通过Huggingface的transformers库加载预训练模型，进行文本生成任务。此外，项目还提供了API接口，方便用户通过网络调用模型服务。为了确保模型的最佳性能，建议用户根据具体任务需求进行适当的微调和优化。

背景与挑战

背景概述

近年来，随着自然语言处理技术的迅猛发展，大规模语言模型在多个领域展现出显著的应用潜力。然而，这些模型的庞大参数和高计算资源需求限制了其在消费级设备上的应用。为此，ChatLM-Chinese-0.2B数据集应运而生，旨在通过构建一个参数仅为0.2B的小型生成式语言模型，以满足在资源受限环境下的对话生成需求。该数据集由Charent Chen主导，于2023年首次发布，其核心研究问题聚焦于如何在有限的计算资源下实现高效的语言模型训练与优化。通过公开预训练、指令微调及偏好优化数据集，ChatLM-Chinese-0.2B不仅为研究者提供了一个轻量级的模型训练平台，还推动了对话系统在低资源环境下的实际应用。

当前挑战

尽管ChatLM-Chinese-0.2B数据集在小型化语言模型领域取得了一定进展，但其构建过程中仍面临诸多挑战。首先，数据集的规模相对较小，仅包含约1023万条对话数据，这在一定程度上限制了模型的泛化能力和对话生成的多样性。其次，数据清洗过程中采用了基于mini hash的文档去重方法，虽然有效减少了重复数据，但也可能遗漏某些潜在的有价值信息。此外，模型训练过程中依赖于Huggingface的NLP框架，尽管提供了灵活的训练支持，但在处理大规模数据时仍可能遇到内存和计算资源的瓶颈。最后，尽管模型在SFT和RLHF阶段进行了优化，但其对话生成效果仍可能出现答非所问或生成废话的情况，这需要在未来的研究中进一步改进。

常用场景

经典使用场景

ChatLM-Chinese-0.2B数据集的经典使用场景在于其适用于资源受限的环境中进行中文对话模型的训练与推理。由于其模型参数仅为0.2B，该数据集能够在低至4GB显存的消费级电脑上进行预训练，甚至在512MB显存的情况下进行推理。这使得它在教育、研究和轻量级应用开发中具有广泛的应用潜力。

解决学术问题

ChatLM-Chinese-0.2B数据集解决了在资源有限的环境下进行中文对话模型训练的学术难题。通过提供一个轻量级且高效的模型，它使得研究人员和教育工作者能够在不具备高端计算资源的条件下，探索和验证对话系统的理论与方法。此外，该数据集的公开性和易用性，促进了对话系统领域的研究多样化和创新。

衍生相关工作

基于ChatLM-Chinese-0.2B数据集，研究者们开发了多种衍生工作，包括但不限于检索增强生成（RAG）技术的应用、多轮对话系统的优化以及跨语言对话模型的研究。这些工作不仅提升了模型的性能和应用范围，还为对话系统领域的进一步研究提供了新的思路和方法。例如，Phi2-mini-Chinese项目展示了如何在资源有限的环境中实现高效的检索增强生成。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录