five

Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集

收藏
huggingface2024-10-06 更新2024-12-12 收录
中医
自然语言处理
下载链接:
https://huggingface.co/datasets/SylvanL/Traditional-Chinese-Medicine-Dataset-SFT
下载链接
链接失效反馈
资源简介:
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
创建时间:
2024-10-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程依托于大量非网络来源的高质量中医数据,涵盖了临床案例、名家典籍、医学百科等多个领域。数据源主要来自中国中医药信息查询平台、ICD-10术语、中医国标以及688本中医教材和著作。所有数据均经过人工校对和本地处理,通过提示词工程转化为问答对形式,确保了数据的准确性和信息密度。部分数据还进行了minHash处理以去除冗余,进一步提升了数据质量。
使用方法
该数据集的使用方法建议分为两个阶段:首先,使用配套的预训练数据集对模型进行继续预训练;其次,使用该数据集进行指令微调。由于数据集仅包含单轮对话,建议在训练时混入一定比例的中文常识和多轮对话数据,以避免灾难性遗忘。此外,针对中医领域的特殊性,可以酌情混入古文/文言文与现代文的翻译数据,以进一步提升模型的表现。数据集可直接通过LLamaFactory读取,并按照dataset_info.json中的信息进行加载。
背景与挑战
背景概述
Traditional-Chinese-Medicine-Dataset-SFT数据集是一个专注于中医领域的高质量数据集,旨在通过指令微调(SFT)提升大语言模型在中医知识问答任务中的表现。该数据集由SylvanL团队构建,主要数据来源于非网络渠道,包括中医临床案例、名家典籍、医学百科等,涵盖了广泛的中医知识领域。数据集的构建过程投入了大量人力和资源,确保了数据的高质量和信息密度。该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain数据集互为补充,建议在使用该数据集进行指令微调前,先使用预训练数据集进行模型继续预训练。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,中医领域的知识体系复杂且独特,涉及大量古文、术语和临床经验,如何将这些知识有效转化为机器可理解的问答对是一个难题。其次,数据集的构建依赖于大量人工校对和规则生成,确保数据的高质量和一致性需要耗费大量时间和资源。此外,中医知识的表达方式多样,如何避免模型在训练过程中出现灾难性遗忘,尤其是在面对多轮对话和常识性问题时,仍需进一步优化。最后,数据集的单轮对话特性限制了其在复杂医疗场景中的应用,如何扩展数据集以支持更复杂的医疗问答任务也是一个亟待解决的问题。
常用场景
经典使用场景
在中医领域的研究中,Traditional-Chinese-Medicine-Dataset-SFT数据集被广泛应用于中医知识的问答系统开发。该数据集通过提供高质量的中医临床案例、名家典籍和医学百科等内容,支持研究人员构建能够准确回答中医相关问题的智能系统。这些系统不仅能够帮助中医从业者快速获取专业知识,还能为患者提供初步的医疗咨询。
解决学术问题
该数据集解决了中医领域内知识获取和传播的难题。通过整合大量的中医临床数据和理论知识,研究人员能够利用这些数据进行深入的学术研究,如中医病症的自动诊断、中药方剂的推荐等。这不仅推动了中医现代化的发展,也为中医的国际化传播提供了数据支持。
实际应用
在实际应用中,Traditional-Chinese-Medicine-Dataset-SFT数据集被用于开发中医智能助手和在线咨询平台。这些应用能够根据用户输入的症状,提供初步的中医诊断建议和中药治疗方案,极大地提高了中医服务的可及性和效率。此外,该数据集还被用于教育领域,辅助中医学生和从业者进行学习和培训。
数据集最近研究
最新研究方向
近年来,随着人工智能在医疗领域的深入应用,中医数据集的研究方向逐渐聚焦于如何通过高质量的指令微调提升模型在中医诊断与治疗建议中的表现。Traditional-Chinese-Medicine-Dataset-SFT数据集凭借其丰富的中医临床案例、名家典籍及医学百科内容,为研究者提供了宝贵的资源。当前的研究热点包括如何通过多轮对话数据与古文翻译数据的结合,进一步提升模型对复杂中医术语的理解与生成能力。此外,该数据集在中医证型诊断与疾病诊断方面的广泛应用,也为中医智能化诊疗系统的开发提供了重要支持,推动了中医与现代科技的深度融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录