MedDialog|医疗对话数据集|患者交流数据集

github2024-04-30 更新2024-05-31 收录

医疗对话

患者交流

下载链接：

https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM

下载链接

链接失效反馈

资源简介：

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

The MedDialog dataset (Chinese) contains dialogues between doctors and patients in Chinese. It comprises 1.1 million dialogues and 4 million utterances. The dataset is continuously growing, with more dialogues being added. The original dialogues are sourced from Haodf.com.

创建时间：

2023-08-16

AI搜集汇总

数据集介绍

构建方式

MedDialog数据集的构建基于真实世界的医疗对话，原始数据来源于好大夫网。该数据集精心收集了医生与患者之间的对话，涵盖了广泛的医疗领域。通过系统的数据清洗和标注，确保了数据的高质量和一致性。目前，该数据集已包含110万个对话和400万个话语，并且仍在不断扩展中。

使用方法

MedDialog数据集适用于多种医疗自然语言处理任务，包括但不限于对话生成、问答系统、情感分析等。研究者和开发者可以通过提供的下载链接获取数据集，并根据具体需求进行预处理和模型训练。建议在使用前详细阅读数据集的文档，以确保正确理解和使用数据。

背景与挑战

背景概述

MedDialog数据集（中文）是由主要研究人员或机构创建的，旨在收集和分析医生与患者之间的对话数据。该数据集包含了超过110万个对话和400万个话语，原始数据来源于好大夫网。自创建以来，MedDialog数据集已成为医疗对话分析领域的重要资源，为研究人员提供了丰富的语料库，以探索和改进医疗对话系统。该数据集的不断增长和更新，进一步增强了其在相关研究中的影响力和实用性。

当前挑战

MedDialog数据集在构建过程中面临多个挑战。首先，收集和处理大量的医疗对话数据需要高度的专业性和技术能力，以确保数据的准确性和隐私保护。其次，医疗对话的复杂性和多样性使得数据标注和分类变得尤为困难。此外，如何有效地利用这些数据来训练和优化医疗对话系统，以提高其在实际应用中的表现，也是一个重要的研究挑战。这些挑战不仅涉及技术层面，还包括伦理和法律层面的考量。

常用场景

经典使用场景

MedDialog数据集在医疗领域中被广泛用于训练和评估对话系统，特别是那些旨在模拟医生与患者之间互动的系统。其丰富的对话内容和多样的医疗场景使得该数据集成为开发智能医疗助手和问诊机器人的理想选择。通过分析这些对话，研究人员可以提取出有效的医疗问答模式，从而提升系统的自然语言处理能力和医疗知识应用能力。

解决学术问题

MedDialog数据集解决了在医疗对话系统研究中常见的数据稀缺问题，为学术界提供了一个大规模、高质量的对话数据资源。这使得研究人员能够更深入地探索对话生成、对话理解和多轮对话管理等关键技术。此外，该数据集还有助于评估和比较不同对话系统在真实医疗场景中的表现，推动了医疗人工智能领域的技术进步。

实际应用

在实际应用中，MedDialog数据集被用于开发和优化各种医疗对话系统，如在线问诊平台、智能客服和医疗教育工具。这些系统能够帮助患者获取及时的医疗建议，减轻医生的工作负担，并提高医疗服务的效率和质量。通过模拟真实的医患对话，这些系统能够更好地理解和回应患者的疑问，提供个性化的医疗指导。

数据集最近研究

最新研究方向

在医疗对话领域，MedDialog数据集的最新研究方向主要集中在利用大规模语言模型（LLMs）进行医疗对话的生成与理解。研究者们通过微调预训练模型，如ChatGLM和LLaMA，以提升模型在医疗场景下的问答效果和对话质量。此外，结合医学知识图谱和GPT-3.5 API构建的中文医学指令数据集，进一步增强了模型在复杂医疗对话中的表现。这些研究不仅推动了医疗对话系统的智能化，也为未来实现更加精准和人性化的医患交互奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集，包含了来自多个国家和地区的疫情数据，涵盖了病例数、死亡数、康复数、测试数等信息。此外，数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录