Conversation Genome Project|对话AI数据集|自然语言处理数据集
收藏Conversation Genome Project 数据集概述
数据集描述
Conversation Genome Project (CGP) 是一个开源项目,旨在通过提供一个包含索引和标记的对话的全面数据集,来实现个性化对话AI。该项目利用了Bittensor基础设施来注释与对话相关的数据。
关键特性
- 对来自不同来源(如YouTube、播客等)的数十亿对话进行索引和标记
- 利用分形数据挖掘和对话窗口进行高效且保护隐私的处理
- 从对话元数据生成的合成参与者配置文件
- 评估对话质量的算法(相关性、参与度、新颖性、连贯性和流畅性)
- 用于训练和微调对话AI模型的开源数据集
- 激励数据贡献和完整性的挖矿和验证系统
系统设计
- 数据存储:主要数据源、对话窗口、参与者配置文件和向量数据库
- 验证者角色:拉取数据、为基础对话生成概览元数据、创建窗口并评分提交
- 矿工角色:处理对话窗口、提供元数据和标签
- 数据流程:从CGP API获取对话,通过LLM处理生成标签和元数据,最终存储在数据库中
安装与计算要求
- 需要Python 3.8或更高版本
- 矿工和验证者使用OpenAI API密钥时,需要至少8GB RAM和20GB磁盘空间
配置
- 需要配置
.env
文件,包括API密钥和LLM类型选择 - 支持的LLM类型包括OpenAI、Anthropic和groq
测试运行
- 通过运行测试验证器套件来检查配置和环境设置
- 测试包括启动验证器和矿工,处理对话并返回元数据
注册
- 在测试网或主网上注册UID,用于挖矿或验证
子网角色
- 挖矿:使用特定命令启动矿工
- 验证:使用特定命令启动验证器
自定义对话服务器
- 验证器可以运行自己的数据源,处理自定义或专有对话数据
- 提供了一个示例实现,需要根据需求修改
使用Runpod
- 使用Runpod启动和管理云GPU和CPU实例
- 需要特定的配置设置,包括端口映射和实例选择
进程管理
- 推荐使用pm2或Screen管理进程
- pm2的安装和基本使用命令
许可证
- 该项目使用MIT许可证

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录