five

WeatherReal|天气预报数据集|数据集评估数据集

收藏
arXiv2024-09-14 更新2024-09-18 收录
天气预报
数据集评估
下载链接:
https://github.com/official-project-page
下载链接
链接失效反馈
资源简介:
WeatherReal是由微软公司创建的一个用于天气预报评估的新型基准数据集,基于全球近地表的实地观测数据。该数据集包括三个版本的子数据集,分别来自ISD、Synoptic Data PBC和MSN天气用户报告,涵盖了广泛的气象变量。数据集经过严格的质量控制和后处理,确保了数据的高质量和可靠性。WeatherReal的创建旨在解决现有再分析数据在某些关键气象变量上的偏差问题,特别是在极端天气和局部天气的捕捉上。该数据集的应用领域主要集中在天气预报模型的评估和改进,旨在提高天气预报的准确性和实用性。
提供机构:
微软公司
创建时间:
2024-09-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
WeatherReal 数据集的构建基于全球近地表的实地观测数据,旨在为天气预报模型提供一个新颖的基准。该数据集整合了来自多个来源的实地观测数据,包括来自 Integrated Surface Database (ISD) 和 Synoptic Data PBC 的高质量观测网络数据,以及来自 MSN 天气用户的天气报告数据。数据集的构建过程中,采用了严格的数据处理和质量控制算法,确保数据的高质量和可靠性。这些算法包括数据提取、站点合并和全面的质量控制,以检测和消除错误数据点,从而提高数据的整体准确性。
使用方法
WeatherReal 数据集的使用方法主要包括模型评估和验证。研究人员和气象学家可以使用该数据集来评估和比较不同天气预报模型的性能,特别是在短期到中期(0-10天)预报问题上。通过将模型预测结果与 WeatherReal 中的实地观测数据进行对比,可以更准确地评估模型的预测能力和误差范围。此外,数据集还可以用于训练新的数据驱动模型,以提高天气预报的准确性和效率。
背景与挑战
背景概述
WeatherReal数据集由Microsoft Corporation的研究团队于近年创建,旨在通过全球近地表实地观测数据,为天气预报模型提供一个新颖的基准。该数据集的核心研究问题在于解决基于再分析数据(如ERA5)训练和评估的AI天气预报模型在某些关键变量(如近地表温度、风、降水和云)上与实际观测存在显著偏差的问题。WeatherReal的引入不仅填补了这一空白,还通过公开可访问的质量控制和评估框架,推动了AI天气预报研究向更具应用导向和操作准备的方向发展。该数据集的创建对天气预报领域具有重要影响力,因为它强调了实地观测在模型训练和评估中的关键作用,从而提高了天气预报的准确性和实用性。
当前挑战
WeatherReal数据集在构建过程中面临多个挑战。首先,收集和处理全球实地观测数据是一项极其繁重的任务,现有研究中使用的数据集往往集中在特定区域或依赖单一数据源,限制了结果的广泛适用性。其次,实地观测数据由于传感器和模块故障,常常存在大量错误,因此需要一个精心设计的质量控制系统来确保数据的高质量。最后,缺乏像ERA5这样的广泛认可和易于获取的实地观测数据集,导致不同研究基于不同的数据集和标准进行模型训练和评估,难以比较模型的能力。WeatherReal通过整合多个实地观测数据集、设计严格的质量控制系统和提供统一的评估标准,旨在解决这些挑战。
常用场景
经典使用场景
WeatherReal数据集的经典使用场景在于评估和改进基于人工智能的天气预报模型。通过提供全球近地表的实地观测数据,该数据集能够帮助研究人员和气象学家更准确地评估现有模型的性能,特别是在捕捉超本地和极端天气条件方面的能力。这种评估不仅限于温度、风速和降水等传统变量,还包括云量等对公众兴趣较大的参数。
解决学术问题
WeatherReal数据集解决了当前基于再分析数据训练和评估的AI天气预报模型在实际观测数据上的偏差问题。再分析数据由于其数值模型的固有特性,往往在近地表温度、风、降水和云等关键变量上与实际观测存在显著差异。WeatherReal通过引入实地观测数据,为学术界提供了一个更为真实和可靠的基准,推动了AI天气预报研究向更具应用导向和操作准备的方向发展。
实际应用
在实际应用中,WeatherReal数据集被广泛用于优化和验证天气预报模型,特别是在极端天气事件的预测和应急管理中。例如,通过对比模型预测与实地观测数据,气象部门可以更准确地发布预警信息,从而有效减少恶劣天气对生命和财产的威胁。此外,该数据集还支持基于用户报告的天气数据进行模型校准,使得预报结果更贴近公众的实际体验。
数据集最近研究
最新研究方向
在气象预报领域,基于人工智能的天气预报模型近年来取得了显著进展,甚至在某些方面超越了传统的数值天气预报系统。然而,这些模型大多依赖于再分析数据集如ERA5进行训练和评估,这些数据集在某些关键变量如近地表温度、风、降水和云的表示上与实际观测存在显著差异。为了解决这一问题,WeatherReal数据集应运而生,它基于全球近地表的实地观测数据,旨在为天气预报模型提供一个新颖的基准。WeatherReal不仅提供了高质量的实地观测数据,还包含了一个公开可访问的质量控制和评估框架。通过使用WeatherReal,研究人员可以更准确地评估数据驱动模型的性能,并推动AI天气预报研究向更具应用导向和操作准备的方向发展。
相关研究论文
  • 1
    WeatherReal: A Benchmark Based on In-Situ Observations for Evaluating Weather Models微软公司 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录