five

WEATHER-5K|气象数据数据集|时间序列预测数据集

收藏
arXiv2024-06-20 更新2024-06-24 收录
气象数据
时间序列预测
下载链接:
https://github.com/taohan10200/WEATHER-5K
下载链接
链接失效反馈
资源简介:
WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
提供机构:
香港科技大学上海人工智能实验室
创建时间:
2024-06-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
WEATHER-5K数据集的构建基于全球5,672个气象站的数据,这些数据来源于国家环境信息中心(NCEI)的综合表面数据库(ISD)。数据集涵盖了从2014年到2023年的每小时气象观测,包括温度、露点温度、风速和风向、海平面压力等多个关键气象要素。为了确保数据质量,研究人员对原始数据进行了严格的筛选和后处理,包括缺失数据的插值和质量控制,最终形成了这个全面且可靠的气象数据集。
特点
WEATHER-5K数据集的显著特点在于其全球覆盖范围和时间跨度。该数据集包含了来自全球各地的气象站数据,提供了多样化的气象条件,有助于模型捕捉不同地区的气象模式。此外,数据集的时间覆盖长达十年,每小时记录一次,使得研究人员能够分析长期气象趋势和季节性变化。这些特点使得WEATHER-5K成为评估和优化气象预测模型的理想资源。
使用方法
WEATHER-5K数据集可用于多种气象预测任务,包括但不限于短期和长期气象预报、极端天气事件预测以及气候变化研究。研究人员可以通过该数据集训练和验证各种时间序列预测模型,如深度学习模型、统计模型和混合模型。数据集的公开可用性(https://github.com/taohan10200/WEATHER-5K)使得全球的研究人员和气象机构能够访问和利用这一资源,推动气象预测技术的发展。
背景与挑战
背景概述
全球气象站天气预报(GSWF)在航空、农业、能源和灾害预防等多个领域具有至关重要的作用。近年来,深度学习的进步显著提高了基于公共气象数据的模型优化后的天气预测准确性。然而,现有的GSWF优化和基准测试的公共数据集仍存在显著局限,如规模小、时间覆盖有限以及缺乏全面的变量。这些不足阻碍了它们有效反映当前预测方法的基准,并无法满足实际天气预报的需求。为应对这些挑战,我们推出了WEATHER-5K数据集。该数据集包含来自全球5,672个气象站的全面数据,时间跨度为10年,每小时记录一次,涵盖多个关键气象要素,为预报提供了更可靠和可解释的资源。此外,WEATHER-5K数据集可作为全面评估现有知名预报模型的基准,超越GSWF方法,支持未来时间序列研究中的挑战和机遇。
当前挑战
WEATHER-5K数据集在构建过程中面临多个挑战。首先,现有公共数据集的规模小、时间覆盖有限和变量不全面,导致预报方法在实际应用中的适用性受限。其次,数据收集和处理过程中,需要确保数据的完整性和准确性,特别是在处理缺失数据和选择合适的气象站时。此外,如何有效地利用全球气象站的空间和时间关系,开发出能够捕捉不同地区天气模式的空间感知预报方法,也是一个重要的研究方向。最后,尽管WEATHER-5K数据集提供了丰富的数据资源,但其大规模和高计算需求可能对研究人员的资源构成挑战。
常用场景
经典使用场景
WEATHER-5K数据集的经典使用场景主要集中在全球站点气象预报的优化与基准测试。该数据集包含了来自5,672个全球气象站的10年每小时气象数据,涵盖多种关键气象要素。这使得WEATHER-5K成为评估现有知名预报模型性能的理想基准,不仅限于全球站点气象预报方法,还能支持未来时间序列研究中的挑战与机遇。
实际应用
在实际应用中,WEATHER-5K数据集支持公共气象服务的运营,这对于气象预报研究具有重要意义。此外,气象站数据作为数值天气预报(NWP)模型的重要观测数据来源,有效填补了数值模型与站点预测之间的差距,不仅提高了数值预报的准确性,还在验证和评估NWP模型的预测性能方面发挥了关键作用。
衍生相关工作
WEATHER-5K数据集的发布催生了一系列相关研究工作,特别是在时间序列预测和数值天气预报领域。例如,Corrformer等模型通过直接学习全球气象站观测数据,将全球站点气象预报视为一个端到端的任务,展示了其在捕捉气象数据时空关系方面的潜力。此外,Mamba等新型模型也在时间序列预测中展现了其处理复杂序列依赖的能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录