Conversation Genome Project|对话AI数据集|自然语言处理数据集
收藏Conversation Genome Project 数据集概述
数据集描述
Conversation Genome Project (CGP) 是一个开源项目,旨在通过提供一个包含索引和标记的对话的全面数据集,来实现个性化对话AI。该项目利用了Bittensor基础设施来注释与对话相关的数据。
关键特性
- 对来自不同来源(如YouTube、播客等)的数十亿对话进行索引和标记
- 利用分形数据挖掘和对话窗口进行高效且保护隐私的处理
- 从对话元数据生成的合成参与者配置文件
- 评估对话质量的算法(相关性、参与度、新颖性、连贯性和流畅性)
- 用于训练和微调对话AI模型的开源数据集
- 激励数据贡献和完整性的挖矿和验证系统
系统设计
- 数据存储:主要数据源、对话窗口、参与者配置文件和向量数据库
- 验证者角色:拉取数据、为基础对话生成概览元数据、创建窗口并评分提交
- 矿工角色:处理对话窗口、提供元数据和标签
- 数据流程:从CGP API获取对话,通过LLM处理生成标签和元数据,最终存储在数据库中
安装与计算要求
- 需要Python 3.8或更高版本
- 矿工和验证者使用OpenAI API密钥时,需要至少8GB RAM和20GB磁盘空间
配置
- 需要配置
.env
文件,包括API密钥和LLM类型选择 - 支持的LLM类型包括OpenAI、Anthropic和groq
测试运行
- 通过运行测试验证器套件来检查配置和环境设置
- 测试包括启动验证器和矿工,处理对话并返回元数据
注册
- 在测试网或主网上注册UID,用于挖矿或验证
子网角色
- 挖矿:使用特定命令启动矿工
- 验证:使用特定命令启动验证器
自定义对话服务器
- 验证器可以运行自己的数据源,处理自定义或专有对话数据
- 提供了一个示例实现,需要根据需求修改
使用Runpod
- 使用Runpod启动和管理云GPU和CPU实例
- 需要特定的配置设置,包括端口映射和实例选择
进程管理
- 推荐使用pm2或Screen管理进程
- pm2的安装和基本使用命令
许可证
- 该项目使用MIT许可证

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
RDD2022
RDD2022是一个多国图像数据集,用于自动道路损伤检测,由印度理工学院罗凯里分校交通系统中心等机构创建。该数据集包含来自六个国家的47,420张道路图像,标注了超过55,000个道路损伤实例。数据集通过智能手机和高分辨率相机等设备采集,旨在通过深度学习方法自动检测和分类道路损伤。RDD2022数据集的应用领域包括道路状况的自动监测和计算机视觉算法的性能基准测试,特别关注于解决多国道路损伤检测的问题。
arXiv 收录
威廉王岛—全球变化数据大百科辞条
威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69°54′22″N - 68°27′12″N,99°32′48″W - 95°09′25″W。威廉王岛总面积13259.59 km²,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。
国家对地观测科学数据中心 收录