CommonsenseQA|常识推理数据集|自然语言处理数据集
收藏
- CommonsenseQA数据集首次发表于ACL 2019会议,由Alon Talmor等人提出,旨在评估模型对常识知识的理解能力。
- CommonsenseQA数据集被广泛应用于多个自然语言处理任务中,包括问答系统和常识推理模型的评估。
- 研究者们开始利用CommonsenseQA数据集进行多模态常识推理的研究,探索图像与文本结合的常识理解能力。
- CommonsenseQA数据集的扩展版本发布,增加了更多的常识问题和答案选项,以进一步提升模型的推理能力。
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
CHFS中国家庭金融调查数据
中国家庭金融调查(China Household Finance Survey, CHFS)是中国家庭金融调查与研究中心(以下简称“中心”)在全国范围内开展的抽样调查项目,旨在收集有关家庭金融微观层次的相关信息,主要内容包括:人口特征与就业、资产与负债、收入与消费、社会保障与保险以及主观态度等相关信息,对家庭经济、金融行为进行了全面细致刻画。 CHFS基线调查始于2011年,目前已分别在2011、2013、2015、2017和2019年成功实施五轮全国范围内的抽样调查项目,2021年第六轮调查还在进行中。CHFS最新公开的2019年第五轮调查数据,样本覆盖全国29个省(自治区、直辖市),343个区县,1360个村(居)委会,样本规模达34643户,数据具有全国及省级代表性。
CnOpenData 收录