ETDataset/ett|电力变压器数据集|时间序列预测数据集
收藏hugging_face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ETDataset/ett
下载链接
链接失效反馈资源简介:
电力变压器温度数据集是一个用于时间序列预测的数据集,包含来自两个电力变压器的两年数据,数据频率为每小时或每15分钟。目标时间序列是油温,并包含6个协变量。数据集分为训练集、验证集和测试集,分别对应12个月、4个月和4个月的数据。该数据集旨在开发能够基于超长期真实世界数据进行高精度长期预测的时间序列方法。
提供机构:
ETDataset
原始信息汇总
数据集概述
数据集基本信息
- 名称: Electricity Transformer Temperature
- 许可证: CC BY 4.0
- 语言多样性: 单语种
- 大小分类: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 时间序列预测
- 任务ID:
- 单变量时间序列预测
- 多变量时间序列预测
数据集结构
配置信息
-
h1
- 特征:
start: 时间戳[s]target: 序列, float32feat_static_cat: 序列, uint64feat_dynamic_real: 序列, 序列, float32item_id: 字符串
- 分割:
train: 241978字节, 1个样本test: 77508960字节, 240个样本validation: 33916080字节, 120个样本
- 下载大小: 2589657字节
- 数据集大小: 111667018字节
- 特征:
-
h2
- 特征:
start: 时间戳[s]target: 序列, float32feat_static_cat: 序列, uint64feat_dynamic_real: 序列, 序列, float32item_id: 字符串
- 分割:
train: 241978字节, 1个样本test: 77508960字节, 240个样本validation: 33916080字节, 120个样本
- 下载大小: 2417960字节
- 数据集大小: 111667018字节
- 特征:
-
m1
- 特征:
start: 时间戳[s]target: 序列, float32feat_static_cat: 序列, uint64feat_dynamic_real: 序列, 序列, float32item_id: 字符串
- 分割:
train: 967738字节, 1个样本test: 1239008640字节, 960个样本validation: 542089920字节, 480个样本
- 下载大小: 10360719字节
- 数据集大小: 1782066298字节
- 特征:
-
m2
- 特征:
start: 时间戳[s]target: 序列, float32feat_static_cat: 序列, uint64feat_dynamic_real: 序列, 序列, float32item_id: 字符串
- 分割:
train: 967738字节, 1个样本test: 1239008640字节, 960个样本validation: 542089920字节, 480个样本
- 下载大小: 9677236字节
- 数据集大小: 1782066298字节
- 特征:
数据集描述
数据集摘要
该数据集包含两年的电力变压器温度数据,数据频率为每小时或每15分钟一次。目标时间序列是油温,数据集包含以下六个协变量:
- 高有效负载
- 高无效负载
- 中有效负载
- 中无效负载
- 低有效负载
- 低无效负载
数据集使用
加载特定变体的数据集示例: python load_dataset("ett", "m1", multivariate=False) # 单变量15分钟频率数据集,来自第一个变压器
或指定预测长度: python load_dataset("ett", "h2", prediction_length=48) # 多变量数据集,来自第二个变压器,预测长度为48小时
支持的任务和排行榜
时间序列数据被分为训练/验证/测试集,分别为12/4/4个月。给定预测长度(默认:1天,24小时或24*4 15分钟),我们为验证/测试集创建滚动窗口。
时间序列预测
- 单变量时间序列预测: 学习数据集中时间序列的未来一维
target值,预测未来prediction_length时间步的值。 - 多变量时间序列预测: 学习数据集中时间序列的未来向量
target值,预测未来prediction_length时间步的值。
AI搜集汇总
数据集介绍

构建方式
ETDataset/ett数据集的构建基于北京国网富达科技发展公司的实际数据,涵盖了两个变电站的电力变压器在两年内的运行数据。数据以每小时(1H)或每15分钟(15T)的频率记录,包含17,520(或70,080)个数据点。数据集的构建旨在捕捉电力变压器油温的短期和长期周期性模式、趋势以及不规则变化,以支持时间序列预测任务。
特点
该数据集的主要特点在于其高频率和长时间跨度的数据记录,能够提供丰富的时序信息。此外,数据集包含了多种协变量,如高、中、低有用负载和无用负载,这些协变量有助于模型捕捉电力变压器油温变化的多重影响因素。数据集还提供了多变量和单变量两种设置,以适应不同预测任务的需求。
使用方法
使用ETDataset/ett数据集时,用户可以通过指定数据集的变体(如h1、h2、m1、m2)和预测长度来加载特定的数据子集。例如,使用`load_dataset('ett', 'm1', multivariate=False)`可以加载单变量15分钟频率的数据集。数据集的训练、验证和测试集分别包含12个月、4个月和4个月的数据,用户可以根据需要调整预测长度,以评估模型的性能。
背景与挑战
背景概述
电力变压器温度数据集(ETDataset/ett)由周浩一及其团队与北京国网富达科技发展有限责任公司合作创建,旨在解决电力分配中的长期预测问题。该数据集包含了两年内两个变电站的电力变压器油温数据,频率为每小时或每15分钟一次,共计17,520至70,080个数据点。核心研究问题是如何在高精度下进行长期时间序列预测,以避免电力变压器的损坏和资源浪费。该数据集的发布对时间序列预测领域具有重要影响,特别是对于电力管理和设备维护领域。
当前挑战
该数据集面临的挑战主要包括:1) 长期时间序列预测的复杂性,涉及短期和长期周期性模式、趋势以及不规则模式的处理;2) 数据集构建过程中,如何确保数据的高质量和一致性,特别是在多变量时间序列分析中,特征的选择和处理尤为关键;3) 社会影响方面,准确预测电力需求和变压器状态对于电力系统的稳定运行至关重要,任何预测误差都可能导致严重的经济和环境后果。
常用场景
经典使用场景
在电力系统管理领域,ETDataset/ett数据集以其独特的电力变压器油温时间序列数据,成为时间序列预测任务的经典范例。该数据集通过整合短期周期模式、长期周期模式、长期趋势及多种不规则模式,为研究人员提供了一个全面且复杂的时间序列分析平台。其经典使用场景包括但不限于:利用多变量时间序列预测技术,对电力变压器的油温进行精确预测,从而优化电力分配策略,减少不必要的能源浪费和设备损耗。
解决学术问题
ETDataset/ett数据集在学术研究中解决了电力系统管理中的一个关键问题:即如何基于超长期的真实世界数据进行高精度的时间序列预测。传统的预测方法往往依赖于经验数据,导致预测结果偏高,造成能源和设备的浪费。该数据集通过提供详尽的电力变压器油温数据,使得研究人员能够开发和验证更为精确的时间序列预测模型,从而在学术界推动了时间序列分析技术的发展,并为电力系统的优化管理提供了科学依据。
衍生相关工作
ETDataset/ett数据集的发布催生了一系列相关研究工作,特别是在时间序列预测和电力系统优化领域。例如,基于该数据集的研究论文《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》提出了一种新型的时间序列预测模型,显著提升了长期预测的准确性。此外,该数据集还激发了多变量时间序列分析方法的研究,推动了深度学习技术在电力系统管理中的应用。这些衍生工作不仅丰富了时间序列分析的理论体系,也为实际应用提供了新的技术手段。
以上内容由AI搜集并总结生成



