five

Digital Typhoon|气象数据数据集|机器学习数据集

收藏
arXiv2023-11-05 更新2024-06-21 收录
气象数据
机器学习
下载链接:
http://agora.ex.nii.ac.jp/digital-typhoon/dataset/
下载链接
链接失效反馈
资源简介:
Digital Typhoon数据集是由日本国立情报学研究所创建的,包含自1978年至2022年共44个台风季节的189,364张卫星图像。该数据集旨在为机器学习模型提供长期时空数据基准,特别适用于深度学习模型的分类和回归任务。数据集通过Lambert等面积投影技术处理,确保图像质量,并解决了传感器噪声、数据缺失和长期传感器校准等数据质量问题。该数据集的应用领域包括气象分析、社会影响评估和气候变化研究,旨在通过机器学习技术提升对台风活动的理解和预测,从而减少灾害风险和应对气候变化。
提供机构:
日本国立情报学研究所
创建时间:
2023-11-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
Digital Typhoon Dataset V2的构建方式主要通过扩展时间和空间维度来实现。在时间维度上,该数据集每年进行常规更新,基于日本气象厅(JMA)发布的最佳路径数据,增加了2023年台风季节的数据。在空间维度上,新增了南半球的数据,这些数据基于澳大利亚气象局(BoM)的最佳路径数据。通过Himawari卫星的观测数据,应用相同的数据处理管道,将北半球和南半球的数据整合在一起,形成了WP(西太平洋)和AU(澳大利亚周边)两个数据集。此外,数据处理管道中的地图投影方法从兰伯特等面积投影改为等距投影,以适应气象研究的需求。
特点
Digital Typhoon Dataset V2的主要特点在于其跨半球和跨区域的数据覆盖,这使得研究者能够探索不同区域和半球之间的热带气旋特征差异。数据集包含了从1978年到2023年的卫星图像和最佳路径数据,总计超过19万张图像和1116个热带气旋。此外,数据集还采用了自监督学习框架进行表示学习,结合LSTM模型进行强度预测和热带风暴向温带风暴的过渡预测,提供了多种机器学习任务的可能性。
使用方法
使用Digital Typhoon Dataset V2时,研究者可以利用Python库pyphoon2进行数据加载和构建机器学习管道。该数据集适用于多种任务,包括台风中心估计、强度预测和热带风暴向温带风暴的过渡预测。研究者可以通过对比不同半球和区域的数据,探索热带气旋的区域特性,并通过训练模型在不同区域和半球之间的迁移能力,评估模型的泛化性能。数据集的公开访问地址为http://agora.ex.nii.ac.jp/digital-typhoon/dataset/,代码和相关工具可在https://github.com/kitamoto-lab/digital-typhoon/获取。
背景与挑战
背景概述
热带气旋,亦称为台风或飓风,因其对社会产生的重大影响而成为关键研究对象。传统上,研究热带气旋主要依赖于大气模拟模型等数值方法,然而,随着数据驱动方法如机器学习的兴起,这些新方法在分析和预测热带气旋方面展现出巨大潜力。为促进机器学习在热带气旋研究中的应用,日本国家信息学研究所与横滨国立大学台风科学与技术研究中心等机构于2023年11月发布了首个数字台风数据集(Digital Typhoon Dataset V1)。该数据集跨越40多年,包含由气象卫星Himawari系列创建的台风图像和日本气象厅的最佳路径数据,为气象学与机器学习领域的结合提供了标准数据集。随着研究的深入,2024年发布的第二版数据集(Digital Typhoon Dataset V2)不仅进行了常规的年度更新,还首次引入了南半球的热带气旋数据,这使得研究者能够探索不同区域和半球之间的差异,进一步推动了热带气旋研究的边界。
当前挑战
数字台风数据集V2的构建面临多重挑战。首先,数据集的扩展不仅涉及时间维度的更新,还包括空间维度上南半球数据的引入,这要求在数据处理和质量控制方面进行新的调整。其次,由于热带气旋图像的特殊性,数据增强技术的应用受到限制,因为简单的图像翻转或旋转可能会破坏图像的物理意义。此外,不同半球和区域的数据在风速单位、强度等级定义等方面的差异,增加了模型跨区域泛化的难度。最后,尽管数据集的公开为研究提供了便利,但如何确保数据的一致性和准确性,以及如何处理不同机构间最佳路径数据的不一致性,仍是亟待解决的问题。这些挑战不仅影响了数据集的构建,也对其在实际应用中的效果提出了考验。
常用场景
经典使用场景
数字台风数据集V2(Digital Typhoon Dataset V2)在热带气旋研究领域中被广泛应用于机器学习模型的基准测试。其经典使用场景包括热带气旋强度预测和热带气旋中心估计。通过结合自监督学习框架和长短期记忆网络(LSTM),该数据集能够有效支持热带气旋的时空数据分析,特别是在强度预测和热带气旋向温带风暴过渡的预测任务中表现出色。此外,数据集还支持热带气旋中心估计任务,通过对象检测模型从卫星图像中准确识别台风中心。
解决学术问题
数字台风数据集V2解决了热带气旋研究中的多个关键学术问题。首先,它通过提供南北半球的热带气旋数据,促进了跨区域和跨半球模型的泛化能力研究。其次,数据集支持新的研究问题,如模型在不同区域间的迁移学习能力。此外,数据集还推动了自监督学习在热带气旋表示学习中的应用,解决了高维度和时间依赖性数据的表示学习难题。这些研究不仅提升了热带气旋预测的准确性,还为气象学和机器学习领域的交叉研究提供了新的视角。
衍生相关工作
数字台风数据集V2的发布催生了多项相关经典工作。首先,基于数据集的自监督学习框架在热带气旋表示学习中的应用,推动了表示学习技术在气象数据分析中的发展。其次,数据集支持的热带气旋中心估计任务,启发了新的对象检测方法在气象图像处理中的应用。此外,数据集还促进了跨区域和跨半球模型的泛化能力研究,为机器学习模型在不同气象条件下的适应性提供了新的研究方向。这些衍生工作不仅丰富了热带气旋研究的理论基础,还为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录