five

ChickenLanguageDataset|家禽声音分析数据集|机器学习数据集

收藏
github2023-07-19 更新2024-05-31 收录
家禽声音分析
机器学习
下载链接:
https://github.com/zebular13/ChickenLanguageDataset
下载链接
链接失效反馈
资源简介:
一个包含鸡叫声的数据集,旨在通过机器学习模型实现鸡到人类语言的翻译,并更好地理解家禽的需求。数据集包含单个鸡的叫声和可能包含多只鸡的长音频片段,用于分析鸡的福祉状态。

A dataset containing chicken vocalizations, designed to facilitate the translation of chicken sounds into human language through machine learning models, thereby enhancing our understanding of poultry needs. The dataset includes both individual chicken calls and longer audio clips that may feature multiple chickens, aimed at analyzing the welfare status of the chickens.
创建时间:
2020-08-22
原始信息汇总

数据集概述

数据集名称

ChickenLanguageDataset

数据集目的

用于创建机器学习模型,实现鸡到人类语言的翻译,并更好地理解家禽的需求。

数据类型

  1. 单只鸡的单一发声,用于“翻译”成人类语言。
  2. 包含多只鸡的长音频片段,用于评估鸡的整体健康状况。

当前研究的发声类型

  1. 问候
  2. “我需要下蛋,但有人在我的巢箱里!”
  3. “请给我一些隐私 - 我在下蛋。”
  4. “我下了蛋!”
  5. “大家在哪里?”
  6. 地面捕食者警告
  7. 空中捕食者警告
  8. 大声不满的叫声
  9. 母鸡让小鸡跟随她的声音
  10. 母鸡对小鸡的tidbitting声
  11. 公鸡对母鸡的tidbitting声
  12. “哎哟”或“停下”
  13. 吃食时的快乐声音
  14. 洗澡时的快乐声音
  15. 未知 - 未曾听过的独特发声

贡献指南

  • 提交数据为wav文件,根据发声类型放入相应文件夹。
  • 文件命名应精确反映鸡的发声意图。
  • 如有同名文件,添加唯一数字标识符。
  • 鼓励包含时间、天气、鸡的品种等元数据。

文件命名示例

  • Greeting: primarycaretaker-.wav, stranger.wav
  • nest_box_needed.wav
  • privacy_please.wav
  • egg_song1.wav
  • where_is_everybody.wav
  • golden_retreiver.wav, eagle.wav
  • hungry.wav, thirsty.wav, 90Fheat.wav
  • hen_telling_chicks_to_follow_her.wav
  • tidbitting_hen.wav, tidbitting_rooster.wav
  • ouch.wav
  • eating.wav
  • dust_bath.wav
  • "chicken_looking_for_me_through_window.wav"
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChickenLanguageDataset的构建基于对鸡类鸣叫的详细观察和记录,旨在通过机器学习模型实现鸡类语言到人类语言的翻译,并深入理解家禽的需求。数据集收录了由单个鸡发出的单一鸣叫以及包含多只鸡的较长音频片段,这些数据通过精确的命名和元数据标注进行分类和存储。贡献者可以通过提交wav文件并附上详细的元数据来丰富数据集。
特点
该数据集涵盖了多种鸡类鸣叫类型,包括问候、产蛋警告、捕食者警告等,每种鸣叫类型均通过详细的命名和元数据标注进行分类。数据集不仅包含单一鸡的鸣叫,还收录了多只鸡的互动音频,为研究鸡类社交行为和情感状态提供了丰富的素材。此外,数据集允许贡献者提交未知类型的鸣叫,进一步扩展了其多样性和研究潜力。
使用方法
使用ChickenLanguageDataset时,研究人员可以通过分析不同鸣叫类型的音频文件,结合元数据中的时间、天气、鸡的品种等信息,深入研究鸡类语言的含义及其与环境的关系。数据集适用于机器学习模型的训练,特别是自然语言处理和情感分析领域。贡献者可以通过提交新的音频文件并按照命名规范进行分类,进一步丰富数据集的内容。
背景与挑战
背景概述
ChickenLanguageDataset是一个专注于鸡类鸣声的数据集,旨在通过机器学习模型实现鸡类语言到人类语言的翻译,并深入理解家禽的需求。该数据集的灵感来源于Con Slobodchikoff在草原犬鼠语言研究中的杰出工作。加利福尼亚大学洛杉矶分校的Nicholas和Elsie Collias通过对鸡类鸣声的细致观察,记录了超过24种不同的鸡类鸣声及其可能的含义。该数据集包含两种类型的数据:单一鸡类的鸣声录音和包含多只鸡的较长音频片段,这些数据不仅有助于语言翻译研究,还能为家禽福利评估提供支持。
当前挑战
ChickenLanguageDataset面临的挑战主要集中在两个方面。首先,鸡类鸣声的复杂性使得准确翻译和理解其含义变得极为困难,尤其是不同情境下的鸣声可能存在细微差异,这需要高精度的模型来捕捉。其次,数据集的构建过程中,如何确保录音的质量和标注的准确性是一个重要挑战。由于鸡类鸣声可能受到环境噪音、天气条件等多种因素的影响,如何有效去除这些干扰并提取出纯净的鸣声特征,是数据集构建中的一大难题。此外,如何扩展数据集以涵盖更多种类的鸡类鸣声及其情境,也是未来研究中的重要挑战。
常用场景
经典使用场景
ChickenLanguageDataset数据集在动物行为学和机器学习领域具有重要应用,尤其是在鸡类声音的识别与翻译方面。通过对鸡类不同叫声的细致分类和标注,研究者可以构建机器学习模型,用于自动识别和翻译鸡类的叫声,从而帮助人类更好地理解鸡类的需求和情感状态。这一数据集的使用场景主要集中在农业智能化、动物福利研究以及人机交互领域。
衍生相关工作
基于ChickenLanguageDataset,研究者已经开展了一系列相关研究,包括鸡类叫声的自动识别系统、跨物种语言翻译模型以及动物情感分析工具的开发。这些工作不仅扩展了数据集的应用范围,还为其他动物声音研究提供了参考。例如,借鉴该数据集的研究方法,研究者开始探索其他家禽和野生动物的声音模式,推动了动物行为学和人工智能的交叉领域发展。
数据集最近研究
最新研究方向
在动物行为学和人工智能交叉领域,ChickenLanguageDataset为研究者提供了一个独特的平台,旨在通过机器学习模型解析鸡的叫声,进而实现鸡与人类语言的翻译。这一研究方向不仅深化了我们对家禽需求的理解,还为动物福利的评估提供了新的视角。当前的研究热点集中在鸡叫声的细微差别上,例如不同情境下的叫声变化,如捕食者警告、产蛋叫声等。这些研究不仅有助于提升家禽养殖的效率,还可能为其他动物的声音识别和翻译技术提供借鉴。此外,该数据集的开源特性鼓励了全球研究者的参与,进一步推动了这一领域的前沿发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Large and Multi-modality Satellite Datasets

随着遥感数据的不断丰富和大模型技术的快速发展,大量用于预训练和图像生成等任务的大规模遥感数据集相继发布。为了便于更好地理解和利用这些数据集,我们整理并总结了目前可用的资源,特别关注全球分布和多模态数据集。

github 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录