five

IVLLab/MultiDialog|多模态对话数据集|情感分析数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
多模态对话
情感分析
下载链接:
https://hf-mirror.com/datasets/IVLLab/MultiDialog
下载链接
链接失效反馈
资源简介:
该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。
提供机构:
IVLLab
原始信息汇总

数据集描述

该数据集包含手动标注的元数据,将音频文件与转录、情感和其他属性关联起来。对于MultiDialog的视频文件访问,请在此处下载

数据集统计

train valid_freq valid_rare test_freq test_rare Total
# 对话数 7,011 448 443 450 381 8,733
# 话语数 151,645 8,516 9,556 9,811 8,331 187,859
平均每对话话语数 21.63 19.01 21.57 21.80 21.87 21.51
平均每话语长度(秒) 6.50 6.23 6.40 6.99 6.49 6.51
平均每对话长度(分钟) 2.34 1.97 2.28 2.54 2.36 2.33
总长度(小时) 273.93 14.74 17.00 19.04 15.01 339.71

示例用法

数据集包含train, test_freq, test_rare, valid_freq, 和 valid_rare 几个部分。以下是一个示例用法:

python from datasets import load_dataset

MultiD = load_dataset("IVLLab/MultiDialog", "valid_freq", use_auth_token=True)

查看结构

print(MultiD)

动态加载音频样本

audio_input = MultiD["valid_freq"][0]["audio"] # 第一个解码的音频样本 transcription = MultiD["valid_freq"][0]["value"] # 第一个转录

支持的任务

  • 多模态对话生成:该数据集可用于训练端到端的多模态对话生成模型。
  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。
  • 文本到语音:该数据集也可用于训练文本到语音(TTS)模型。

语言

Multidialog包含英语的音频和转录数据。

黄金情感对话子集

我们提供了一个黄金情感对话子集,这是一个更可靠的资源,用于研究对话中的情感动态。我们将情感准确率高于40%的演员的对话分类为黄金情感对话。请使用以下id的演员的对话:a, b, c, e, f, g, i, j, 和 k。

数据集结构

数据实例

python { file_name: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav conv_id: t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b, utterance_id: 0, from: gpt, audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/cache_id/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5/t_152ee99a-fec0-4d37-87a8-b1510a9dc7e5_0i.wav, array: array([0.0005188 , 0.00085449, 0.00012207, ..., 0.00125122, 0.00076294, 0.00036621], dtype=float32), sampling_rate: 16000 }, value: Are you a football fan?, emotion: Neutral, original_full_path: valid_freq/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b/t_ffa55df6-114d-4b36-87a1-7af6b8b63d9b_0k.wav }

数据字段

  • file_name (字符串) - 特定分割目录中音频样本的相对文件路径。
  • conv_id (字符串) - 每个对话的唯一标识符。
  • utterance_id (浮点数) - 话语索引。
  • from (字符串) - 消息的来源(人类,gpt)。
  • audio (音频特征) - 包含音频路径、解码的音频数组和采样率的字典。
    • 在非流模式(默认)中,路径指向本地提取的音频。在流模式中,路径是存档内音频段的相对路径(文件未下载并本地提取)。
  • value (字符串) - 话语的转录。
  • emotion (字符串) - 话语的情感。
  • original_full_path (字符串) - 原始数据目录中原始完整音频样本的相对路径。

情感标签包括:"Neutral", "Happy", "Fear", "Angry", "Disgusting", "Surprising", "Sad"

AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiDialog数据集通过精心设计,包含了大量手动注释的元数据,这些元数据将音频文件与转录、情感和其他属性紧密关联。数据集的构建过程中,研究人员对音频文件进行了详细的标注,确保每个对话片段都能与相应的情感标签和转录文本精确匹配。此外,数据集还提供了视频文件的链接,进一步丰富了多模态对话的资源。
使用方法
使用MultiDialog数据集时,研究者可以通过HuggingFace的datasets库加载数据,并根据需要选择不同的数据分割(如train、test_freq、test_rare等)。数据集提供了详细的API接口,支持动态加载音频样本和转录文本。此外,数据集还支持多模态对话生成、自动语音识别和文本到语音转换等任务,为多领域的研究提供了广泛的应用场景。
背景与挑战
背景概述
在自然语言处理和多模态对话系统领域,IVLLab/MultiDialog数据集的引入标志着对面对面对话模型研究的重要进展。该数据集由韩国KAIST大学的研究人员主导,于2024年创建,旨在解决多模态对话生成、自动语音识别和文本到语音转换等核心问题。通过包含手动注释的元数据,该数据集不仅提供了音频文件与转录、情感和其他属性的关联,还为研究情感动态在对话中的作用提供了宝贵资源。其影响力在于推动了多模态对话系统的实际应用,并为相关领域的研究提供了新的基准。
当前挑战
尽管IVLLab/MultiDialog数据集在多模态对话生成和情感分析方面展现了显著潜力,但其构建过程中仍面临若干挑战。首先,多模态数据的整合与同步要求高精度的技术处理,以确保音频、视频和文本数据的一致性。其次,情感标注的准确性依赖于高质量的注释,这需要大量的人力和时间投入。此外,数据集的规模和多样性虽然较大,但仍需进一步扩展以覆盖更广泛的对话场景和情感表达。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的表现提出了更高的要求。
常用场景
经典使用场景
在多模态对话生成领域,IVLLab/MultiDialog数据集被广泛应用于训练端到端的对话系统。该数据集不仅包含丰富的音频和文本数据,还提供了详细的情感标注,使得研究者能够构建更加智能和情感丰富的对话模型。通过结合音频和文本信息,该数据集支持多模态对话生成任务,为研究者提供了丰富的资源来探索和优化对话系统的性能。
解决学术问题
IVLLab/MultiDialog数据集解决了多模态对话生成中的关键学术问题,如情感识别和情感对话生成。通过提供详细的情感标注,该数据集帮助研究者开发能够理解和生成情感丰富对话的模型,从而提升了对话系统的自然性和用户体验。此外,该数据集还为自动语音识别(ASR)和文本到语音(TTS)任务提供了宝贵的资源,推动了相关领域的研究进展。
实际应用
在实际应用中,IVLLab/MultiDialog数据集被用于开发智能客服系统、情感支持机器人和虚拟助手等。这些应用场景需要系统能够理解和生成情感丰富的对话,以提供更加人性化和有效的交互体验。通过利用该数据集,开发者能够训练出更加智能和情感敏感的对话系统,从而在实际应用中取得更好的效果。
数据集最近研究
最新研究方向
在多模态对话生成领域,IVLLab/MultiDialog数据集的最新研究方向主要集中在提升对话系统的情感理解和生成能力。该数据集通过丰富的音频和文本标注,为研究者提供了深入探索情感对话生成的机会。前沿研究不仅关注于提高自动语音识别(ASR)和文本到语音(TTS)的准确性,还致力于开发能够理解和生成情感丰富的对话内容的模型。这些研究对于提升人机交互的自然性和情感共鸣具有重要意义,尤其是在虚拟助手和情感支持系统等应用中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录