five

Conversation Genome Project|对话AI数据集|自然语言处理数据集

收藏
github2024-05-23 更新2024-05-31 收录
对话AI
自然语言处理
下载链接:
https://github.com/afterpartyai/bittensor-conversation-genome-project
下载链接
链接失效反馈
资源简介:
对话基因组项目(CGP)是一个开源倡议,旨在通过提供一个全面的索引和标记对话数据集来实现个性化对话AI。该数据集涵盖了来自各种来源(如YouTube、播客等)的数十亿对话,利用分形数据挖掘和对话窗口进行高效且保护隐私的处理。此外,还生成了合成参与者配置文件,并开发了一种算法来评估对话质量(相关性、参与度、新颖性、连贯性和流畅性)。该数据集对训练和微调对话AI模型开放。

The Conversation Genome Project (CGP) is an open-source initiative aimed at realizing personalized conversational AI by providing a comprehensive index and annotated dataset of dialogues. This dataset encompasses billions of conversations from various sources such as YouTube, podcasts, and more, utilizing fractal data mining and conversation windows for efficient and privacy-preserving processing. Additionally, synthetic participant profiles have been generated, and an algorithm has been developed to assess the quality of conversations (relevance, engagement, novelty, coherence, and fluency). The dataset is open for training and fine-tuning conversational AI models.
创建时间:
2024-05-07
原始信息汇总

Conversation Genome Project 数据集概述

数据集描述

Conversation Genome Project (CGP) 是一个开源项目,旨在通过提供一个包含索引和标记的对话的全面数据集,来实现个性化对话AI。该项目利用了Bittensor基础设施来注释与对话相关的数据。

关键特性

  • 对来自不同来源(如YouTube、播客等)的数十亿对话进行索引和标记
  • 利用分形数据挖掘和对话窗口进行高效且保护隐私的处理
  • 从对话元数据生成的合成参与者配置文件
  • 评估对话质量的算法(相关性、参与度、新颖性、连贯性和流畅性)
  • 用于训练和微调对话AI模型的开源数据集
  • 激励数据贡献和完整性的挖矿和验证系统

系统设计

  • 数据存储:主要数据源、对话窗口、参与者配置文件和向量数据库
  • 验证者角色:拉取数据、为基础对话生成概览元数据、创建窗口并评分提交
  • 矿工角色:处理对话窗口、提供元数据和标签
  • 数据流程:从CGP API获取对话,通过LLM处理生成标签和元数据,最终存储在数据库中

安装与计算要求

  • 需要Python 3.8或更高版本
  • 矿工和验证者使用OpenAI API密钥时,需要至少8GB RAM和20GB磁盘空间

配置

  • 需要配置.env文件,包括API密钥和LLM类型选择
  • 支持的LLM类型包括OpenAI、Anthropic和groq

测试运行

  • 通过运行测试验证器套件来检查配置和环境设置
  • 测试包括启动验证器和矿工,处理对话并返回元数据

注册

  • 在测试网或主网上注册UID,用于挖矿或验证

子网角色

  • 挖矿:使用特定命令启动矿工
  • 验证:使用特定命令启动验证器

自定义对话服务器

  • 验证器可以运行自己的数据源,处理自定义或专有对话数据
  • 提供了一个示例实现,需要根据需求修改

使用Runpod

  • 使用Runpod启动和管理云GPU和CPU实例
  • 需要特定的配置设置,包括端口映射和实例选择

进程管理

  • 推荐使用pm2或Screen管理进程
  • pm2的安装和基本使用命令

许可证

  • 该项目使用MIT许可证
AI搜集汇总
数据集介绍
main_image_url
构建方式
Conversation Genome Project 数据集的构建基于一个开放源代码的倡议,旨在为个人或企业提供低成本、资源最小化的数据结构化和语义标记管道。该数据集通过分布式计算和验证系统,利用大型语言模型(LLMs)对原始数据进行处理,生成结构化的AI就绪数据。具体而言,验证者通过标记数据建立基础真理,创建数据窗口供矿工进行分形挖掘,并对矿工的提交进行评分。评分基于矿工窗口标记输出与验证者基础真理标记输出之间的余弦距离计算。
特点
该数据集的主要特点包括:1) 从原始数据到结构化AI就绪数据的转换;2) 分形数据挖掘,允许矿工处理各种数据源并创建符合用户特定需求的标记结构化数据;3) 验证者通过标记数据建立基础真理,创建数据窗口并评分矿工提交;4) 基于余弦距离的评分机制;5) 低成本的结构化数据管道,利用LLMs的准确性和成本优势,以及分布式计算的可扩展性;6) 激励性的挖掘和验证系统,确保数据贡献和完整性。
使用方法
使用该数据集首先需要安装Python 3.8或更高版本,并通过克隆GitHub仓库和安装依赖项来设置环境。用户需要配置.env文件,输入必要的API密钥和配置信息,特别是OpenAI API密钥。随后,用户可以运行单元测试以验证设置是否正确。测试流程包括启动验证者和矿工,验证者获取对话数据并生成基础真理标签,矿工处理数据并通过LLM生成标签和向量嵌入,最后验证者对矿工的输出进行评分并将数据推送到本地存储或ReadyAI API。完成配置后,用户可以注册并启动矿工或验证者,参与数据集的构建和验证过程。
背景与挑战
背景概述
对话基因组项目(Conversation Genome Project)是由ReadyAI发起的一项开源倡议,旨在为个人或企业提供低成本、资源消耗最小的数据结构化和语义标注管道。该项目利用先进的大型语言模型(LLMs),通过分布式计算,将原始数据转化为结构化数据,为向量数据库和AI应用提供支持。ReadyAI的核心创新在于利用LLMs的高精度和低成本优势,替代传统的人工标注,从而实现数据处理的无缝扩展。该项目的推出,标志着在自然语言处理领域,数据结构化和语义标注技术迈向了一个新的高度,为AI应用的广泛普及奠定了坚实基础。
当前挑战
对话基因组项目在构建过程中面临多项挑战。首先,如何确保从多种数据源中提取的数据能够被高效地结构化和语义标注,是一个复杂的技术问题。其次,分布式计算的实施需要解决数据一致性和同步性的难题,以确保数据处理的准确性和效率。此外,激励机制的设计也是一大挑战,如何公平地评估和奖励数据贡献者的努力,同时保持数据的整体质量,是项目成功的关键。最后,随着数据量的增加,如何有效地管理和存储生成的结构化数据,也是一个不容忽视的问题。
常用场景
经典使用场景
在自然语言处理和人工智能领域,Conversation Genome Project数据集的经典使用场景主要集中在对话系统的语义分析和结构化数据生成。该数据集通过提供丰富的对话样本,帮助研究人员和开发者构建和优化对话模型,从而实现更精准的语义理解和信息提取。通过将原始对话数据转化为结构化的语义标签和向量表示,该数据集为对话系统的开发提供了坚实的基础。
解决学术问题
Conversation Genome Project数据集解决了自然语言处理领域中对话数据结构化和语义标注的常见学术问题。传统的对话数据处理依赖于人工标注,成本高且效率低。该数据集通过引入分布式计算和低成本的LLM(大语言模型),显著提升了数据处理的效率和准确性。这不仅降低了研究成本,还为大规模对话数据的处理提供了新的解决方案,推动了对话系统研究的进展。
衍生相关工作
基于Conversation Genome Project数据集,衍生了一系列相关的经典工作。例如,研究者们利用该数据集开发了多种对话生成模型,显著提升了对话系统的自然度和流畅性。同时,该数据集还被用于训练情感分析模型,帮助对话系统更好地理解和回应用户的情感状态。此外,基于该数据集的研究还推动了对话数据隐私保护和安全性的探讨,为对话系统的实际应用提供了更多保障。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

RDD2022

RDD2022是一个多国图像数据集,用于自动道路损伤检测,由印度理工学院罗凯里分校交通系统中心等机构创建。该数据集包含来自六个国家的47,420张道路图像,标注了超过55,000个道路损伤实例。数据集通过智能手机和高分辨率相机等设备采集,旨在通过深度学习方法自动检测和分类道路损伤。RDD2022数据集的应用领域包括道路状况的自动监测和计算机视觉算法的性能基准测试,特别关注于解决多国道路损伤检测的问题。

arXiv 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录