深入递归神经网络在家庭面短期负载预测上的应用策略

深入递归神经网络在家庭面短期负载预测上的应用策略

李翰

需求侧反应(DSR)在欧洲国家能源部门设定的目标方面发挥着关键作用。这项指标提倡提前预测各个用户的负载情况以更好的分配能源。智能电表的普及将使DSR变得简单。因为他能够准确的预测家用负荷,已经有多种方案被提出了。

对于某个具体设施的负载预测方案已经被广泛而全面的研究了,然而关于个人家庭的负载预测的研究则很有限。人们认为由于具有极高的不确定性,这类短期负载预测极具挑战性。目前对于这种短期负载预测有两种研究方向 序列分析(ARIMA,指数平滑) 机器学习(神经网络,支持向量机),但是这两个都没有办法在单个家庭层面上实现持续性预测。
在家庭环境中负载可以被分为3部分:规律部分,从历史数据中继承的周期性负载;不确定性,由天气,事件和用户行为这些外部因素所带来的非周期性负载;噪音,无法解释的冗余负载。大多数预测模型都关注规律部分,因为他更好预测而且在具体设施的负载预测中占主导地位,但是家庭负载的预测却更多由不确定性组成,因为他更多的受到客户行为的影响。

解决方法大致有三种:
1. 使用聚类/分类技术将相似的客户分成同一个组以减少组内的不确定性,但是性能取决于数据。
2. 使用区域性全体的数据来消除用户行动造成的不确定性,但是这类预测只在区域性层面。
3. 将数据靠小波分析、傅里叶变换或者经验模式分解预处理,将规律部分和其他两个部分分开。这种模式也不适用于家庭预测,因为其中规律部分的占比太小。

这些都是间接方案,然而深度学习可以以直接学习的方式来攻克不确定性。深度学习依赖深度架构的机器学习的分支,在传统浅层架构无法达到的高度非线性,复杂关系和相关性上取得了很多突破,已有的典型应用为药物开发,google goggles和alpha go。

然而直接在家庭面的短期负载预测上应用深度学习的效果并不理想,其最重要的原因为过度拟合。深度学习可以理解为在传统的在基础的学习算法上分层,每增加一层就会指数级的增加这个算法对于训练数据的准确度。简单来说,过度拟合指的是深度神经元网络对于学习样本的过度解读。举个例子,如果这种算法正在学习判断照片内容是否为猫,第一层的网络只会判断照片中的东西有没有猫的轮廓,而5层网络则会从猫的颜色,花纹,五官,肢体,大小等因素来进行判断。在训练素材不足的情况下,过度拟合就非常容易发生。比如前文提到的5层神经网络用的1000张训练照片中并没有包含无毛猫,所以他很有可能在识别到包含着无毛猫的照片的时候判断它不是一张包含猫的照片,而一层的神经网络只对猫的轮廓进行判断,所以说他更有可能认为无毛猫也是猫。但是一层的神经网络因为他只进行轮廓的判断,所以他的精度很低,他同样也会将老虎甚至是狗识别成猫。

为了克服以上问题,最新的研究引入了深入递归神经网络(DRNN)来对家庭单位执行短期负载预测,DRNN可以被认为是专为时间序列预测而设计的最先进的深度学习架构。DRNN的架构是讲多个RNN叠加在一起形成的一个深度架构。他已经在语音识别领域被证明有效,和短期负载预测一样,语音识别同事也具有高度不确定性的时间序列数据。同时,这个研究还引进了启用长短期记忆来优化的RNN,这也是最先进的RNN的一种。
这项研究提出的方法包含了两个阶段:1)创建负载特征库,2)用具有DRNN的深度学习算法来进行短期负载预测。
创建负载特征库的策略旨在解决家庭层面短期负载预测的两大挑战:过度拟合问题以及负载曲线固有的高不确定性。由于深度学习网络中固有的大量神经层,研究者需要足够庞大的数据来防止过度拟合的发生。由于家庭层面的历史负载数据通常不足,极端场合甚至于层数很少的算法都会产生严重的过度拟合。将这些数据整理成特征库可以有效的增加预测所需的数据量,延迟过度拟合的出现。由于这些数据中包含的偶然性(噪音),使得这些数据很难被学习或者建模。然而,其中的一部分不确定性是由一些常见的外部因素引起的,比如天气、当地的活动等。这类影响通常会在一部分群体间共享。将这部分群体的数据汇集成特征库等同于增加了数据的多样性,从而进一步增加了数据中常见共享不确定性信号的辨识度。因此,这个策略也使得DRNN能够通过辨识这些共享的不确定性来进行更准确的负载预测。
在第二阶段,从负载特征库中随机提取样本进行当前批次的训练,使DRNN在学习个人负载模式的同时,也从这个库中学习用户共享的负载特征和不确定性。随后,再将库中的数据用于测试训练过的DRNN网络。这个策略被称为库化深入递归神经网络(PDRNN)。

这项研究进一步研究了未引进特征库策略条件下的DRNN的层深对训练结果的影响。根据结果,在同样都经过LSTM单元进行增强,接受相同的输入大小、输出大小及网络配置相同的前提下,能增加的层数仍然有限。DRNN的预测精度会在2-3层的时候达到顶峰,随后开始下降,并且在到达第五层时,预测准确度会和只用了一层的DRNN持平,这反映了过度拟合所造成的精度损失。
引入了特征库策略后,具有相同配置的PDRNN在深度到达第五层的时候仍然能够继续提高性能。数据显示,与普通的DRNN相比,PRDNN的均方根误差(RMSE)和正规划方根均(NRMSE)差降低了6.45%,平均绝对误差(MAE)降低了6.96。和ARIMA相比,PDRNN所得到RMSE和MAE的提升更为显著,分别为19.46%和16.28%。

这项研究为解决高度不确定、波动的家庭面短期负载预测提供了潜在的研究方向。它提出的PDRNN能够通过学习具有同种特征客户之间的共享数据的方式,有效的优化普通DRNN带来的过度拟合的问题,使得更深的神经网络学习成为可能。相信在未来,这项技术可以i)通过进一步扩展网络的规模以从算法内部优化过度拟合,ii)通过将拥有相似地理位置、相似收入却有不同特征的客户纳入特征库中以最大程度的增加特征库的多样等措施,进一步完善乃至解决家庭面短期负载预测所遭遇的问题。

Related posts