five

Penguin HS Image Dataset|高光谱图像数据集|动物个体识别数据集

收藏
arXiv2024-05-23 更新2024-06-21 收录
高光谱图像
动物个体识别
下载链接:
https://huggingface.co/datasets/dekkaiinu/hyper_penguin
下载链接
链接失效反馈
资源简介:
Penguin HS Image Dataset是由东京电机大学和东京工业大学合作创建的,专门用于个体企鹅识别的遥感数据集。该数据集包含990张高光谱图像,涉及27只非洲企鹅,每张图像的大小为2048×1080像素,通过高光谱相机在350至1100纳米波长范围内拍摄。数据集的创建过程包括在Ueno动物园户外拍摄,确保每张图像中包含1至6只企鹅,并通过像素级和边界框标注进行个体识别。该数据集主要应用于非侵入式动物个体识别,旨在通过高光谱图像分析解决个体企鹅识别的问题,为动物行为研究和保护提供支持。
提供机构:
东京电机大学系统设计与技术学院
创建时间:
2024-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Penguin HS Image Dataset的构建基于高光谱(HS)成像技术,旨在通过分析企鹅个体之间的光谱差异实现非侵入式个体识别。该数据集包含990张高光谱图像,涵盖27只非洲企鹅。图像采集于东京上野动物园,使用的高光谱相机能够捕捉350至1100纳米的波长范围,具有151个波段和5纳米的波段分辨率。图像尺寸为2048×1080像素,拍摄距离为3至6米,确保了目标企鹅在图像中的清晰呈现。每张图像包含1至6只企鹅,并通过两种方式进行标注:像素级个体ID标注和企鹅的边界框标注,以支持多种分析任务。
特点
该数据集的显著特点在于其创新性地利用高光谱图像进行企鹅个体识别,克服了传统RGB图像在像素尺寸较小情况下的局限性。通过分析单个像素的光谱信息,数据集展示了高光谱数据在个体识别中的潜力。此外,数据集的标注方式灵活多样,既支持像素级的个体识别,也支持图像中企鹅的检测任务。实验结果表明,高光谱数据在个体识别任务中的平均准确率达到82.06%,显著优于RGB图像和通过主成分分析(PCA)压缩的高光谱数据。
使用方法
Penguin HS Image Dataset可用于多种机器学习任务,特别是基于高光谱数据的企鹅个体识别。用户可以通过像素级标注进行个体识别模型的训练,或利用边界框标注进行企鹅检测任务。数据集提供了完整的高光谱数据,用户可以直接使用这些数据进行模型训练,也可以选择通过主成分分析(PCA)进行降维处理。实验中使用的模型为简单的5层多层感知器(MLP),用户可以根据需求选择不同的模型架构。数据集的灵活性和高光谱数据的丰富信息使其适用于多种研究场景,尤其是在非侵入式动物行为研究和保护领域。
背景与挑战
背景概述
在动物行为研究和保护领域,远程个体动物识别技术具有重要意义,尤其在食品安全、体育竞技和动物保护等方面。传统的动物识别方法多依赖于侵入性手段,如物理标记,这不仅成本高昂,还可能对动物造成压力。因此,非侵入性方法如基于图像的视觉评估和生物特征识别备受关注。Penguin HS Image Dataset由东京电机大学和东京理工大学的研究人员于2024年创建,旨在通过高光谱(HS)图像进行个体企鹅识别。该数据集包含990张高光谱图像,涵盖27只非洲企鹅,首次利用高光谱技术分析企鹅个体间的光谱差异,为动物个体识别领域提供了新的研究方向。
当前挑战
Penguin HS Image Dataset的构建面临多项挑战。首先,高光谱图像的采集需要在特定的光照条件下进行,以确保光谱信息的准确性,这增加了数据采集的复杂性。其次,由于企鹅个体在图像中的像素尺寸较小,传统的基于空间信息的识别方法难以适用,因此需要开发基于单像素光谱信息的识别模型。此外,数据集的标注工作也具有挑战性,需在像素级别进行个体ID的标注,以支持像素级的个体识别任务。这些挑战不仅推动了高光谱图像处理技术的发展,也为未来的动物个体识别研究提供了宝贵的数据资源。
常用场景
经典使用场景
Penguin HS Image Dataset 的经典使用场景主要集中在基于高光谱图像的个体企鹅识别任务中。该数据集通过捕捉企鹅的高光谱图像,利用像素级的光谱信息进行个体识别。具体而言,研究人员通过选择单个像素的高光谱数据,使用简单的多层感知器(MLP)模型进行分类,从而实现对企鹅个体的精确识别。这一方法特别适用于远距离、非侵入式的动物个体识别,尤其是在目标像素尺寸较小的情况下,高光谱图像的光谱信息能够有效弥补空间信息的不足。
实际应用
Penguin HS Image Dataset 在实际应用中具有广泛的潜力,特别是在动物保护、生态监测和野生动物管理等领域。例如,在企鹅种群监测中,该数据集可以用于实时识别和追踪个体企鹅,帮助研究人员了解企鹅的行为模式、迁徙路径和种群动态。此外,该数据集还可应用于食品安全和体育领域,如通过非侵入式方法识别和追踪赛马或家禽的个体身份,从而提高管理效率和安全性。高光谱图像的引入为这些应用场景提供了更为精确和可靠的技术支持。
衍生相关工作
Penguin HS Image Dataset 的发布催生了一系列相关研究工作,特别是在高光谱图像处理和动物个体识别领域。例如,后续研究可以探索如何利用该数据集进行更复杂的数据增强和模型优化,以进一步提高个体识别的准确性。此外,该数据集还为跨物种个体识别研究提供了新的思路,研究人员可以借鉴这一方法,扩展到其他动物种类的个体识别任务中。未来,基于高光谱图像的个体识别技术有望在更广泛的生态和环境监测领域得到应用,推动相关领域的技术进步和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Carbon Dioxide Information Analysis Center (CDIAC) Data

该数据集包含全球碳排放、大气二氧化碳浓度、海洋二氧化碳吸收等相关数据。数据涵盖了从工业革命至今的时间段,提供了详细的国别和全球层面的碳排放统计。

cdiac.ess-dive.lbl.gov 收录