Chinese Multimodal Depression Corpus (CMDC)|抑郁症研究数据集|多模态数据分析数据集
收藏github2022-08-17 更新2024-05-31 收录
下载链接:
https://github.com/CMDC-corpus/CMDC-Baseline
下载链接
链接失效反馈资源简介:
CMDC包含半结构化访谈,旨在支持中国主要抑郁症障碍的筛查和评估。这些访谈作为创建自动AI工具的一部分收集,用于采访人员并识别MDD的视觉、声学和文本指示器。
开放时间:
2022-03-30
创建时间:
2022-03-30
原始信息汇总
数据集概述
名称:Chinese Multimodal Depression Corpus (CMDC)
目的:支持中国主要抑郁症的筛查和评估,收集用于开发自动AI工具,以识别视觉、声学和文本的MDD指标。
数据集内容
- 数据类型:半结构化访谈数据,包含语音、文本和视频三种模态的特征。
- 标签:每个参与者的PHQ评分。
数据集访问
- 下载链接:Chinese Multimodal Depression Corpus
- 访问要求:数据受密码保护,需下载并发送签署的EULA至zoubochao@ustb.edu.cn以请求访问。
数据集使用
- 预处理:需对语音、文本和视频三种模态的特征进行标记,并保存为
mosei_senti_data.pkl
文件。 - 运行环境:
- Pytorch
- Numpy
- Scipy
- Sklearn
- Pickle
- 运行方式:通过运行
main.py
文件,支持两种模型(Bi-LSTM和MulT)。
AI搜集汇总
数据集介绍

构建方式
Chinese Multimodal Depression Corpus (CMDC) 数据集的构建基于半结构化的访谈设计,旨在支持中国地区抑郁症的筛查与评估。这些访谈作为更大规模项目的一部分,旨在开发能够自动采访并识别抑郁症视觉、声学和文本指标的人工智能工具。数据集通过收集多模态数据,包括文本、音频和视频,结合参与者的抑郁评分,形成了一个综合的多模态抑郁症评估语料库。
使用方法
使用 CMDC 数据集时,首先需对三种模态(文本、音频、视频)的特征进行标注,并按照指定格式组织数据。数据集分为训练、验证和测试三部分,每部分均包含相应的模态特征和标签。用户可通过运行 main.py 文件启动模型训练,该文件支持 Bi-LSTM 和 MulT 两种模型。预处理步骤包括安装必要的库和准备数据格式,确保数据集的正确加载和模型的高效训练。
背景与挑战
背景概述
近年来,随着心理健康问题的日益突出,自动化工具在抑郁症筛查和评估中的应用逐渐成为研究热点。中国多模态抑郁症语料库(Chinese Multimodal Depression Corpus, CMDC)正是在这一背景下应运而生,由北京科技大学的研究人员主导开发。该语料库包含了半结构化的访谈数据,旨在支持对中国抑郁症患者的主要抑郁障碍(MDD)进行筛查和评估。通过整合视觉、声学和文本三种模态的数据,CMDC为开发自动化的AI工具提供了宝贵的资源,这些工具能够通过访谈识别抑郁症的潜在指标。CMDC的创建不仅推动了抑郁症诊断技术的进步,还为多模态数据分析领域提供了新的研究方向。
当前挑战
CMDC的构建过程中面临了多重挑战。首先,多模态数据的整合与标注是一项复杂且耗时的任务,涉及文本、语音和视频三种模态的特征提取与标签化。其次,如何确保数据的质量和一致性,尤其是在跨模态分析中,是一个亟待解决的问题。此外,由于抑郁症的诊断涉及敏感信息,数据的安全性和隐私保护也成为构建过程中的重要挑战。最后,尽管CMDC为抑郁症的自动化筛查提供了新的工具,但其模型的泛化能力和在不同文化背景下的适用性仍需进一步验证。
常用场景
经典使用场景
Chinese Multimodal Depression Corpus (CMDC) 数据集的经典使用场景主要集中在多模态情感分析领域,特别是在抑郁症的筛查与评估中。该数据集通过整合半结构化访谈中的文本、语音和视频三种模态数据,为研究者提供了一个全面的抑郁症检测平台。研究者可以利用这些多模态数据,训练和验证基于深度学习的多模态情感分析模型,如Bi-LSTM和MulT,以识别和预测抑郁症的早期迹象。
解决学术问题
CMDC数据集解决了在抑郁症筛查与评估中,单一模态数据分析的局限性问题。通过整合文本、语音和视频三种模态的信息,该数据集为研究者提供了一个多维度的分析框架,显著提升了抑郁症检测的准确性和可靠性。此外,CMDC还为多模态学习领域的研究提供了宝贵的实验数据,推动了多模态情感分析技术的发展,具有重要的学术研究价值。
实际应用
在实际应用中,CMDC数据集为开发自动化的抑郁症筛查工具提供了基础。这些工具可以应用于心理健康服务、临床诊断以及社区健康管理等多个领域,帮助专业人员更早、更准确地识别抑郁症患者。通过结合AI技术,CMDC数据集支持的工具能够进行大规模的抑郁症筛查,提高筛查效率,降低医疗成本,从而在公共卫生领域发挥重要作用。
数据集最近研究
最新研究方向
在心理健康领域,尤其是抑郁症的自动筛查与评估方面,Chinese Multimodal Depression Corpus (CMDC) 数据集的研究正引领着前沿方向。该数据集通过整合语音、文本和视频等多模态数据,为构建精准的抑郁症识别模型提供了丰富的资源。当前的研究重点在于如何有效融合多模态信息,以提升模型的诊断准确性和鲁棒性。特别是,基于Bi-LSTM和MulT的模型评估方法,展示了多模态数据在抑郁症检测中的巨大潜力,推动了AI技术在心理健康领域的应用与发展。
以上内容由AI搜集并总结生成