您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于生成对抗网络的深度q学习能耗预测算法

基于生成对抗网络的深度q学习能耗预测算法

来源:保捱科技网
ISSN1009-3044ComputerKnowledgeandTechnology第15卷第32期(2019年11月)电脑知识与技术Vol.15,No.32,November.2019E-mail:jslt@dnzs.net.cnComputerKnowledgeandTechnology电脑知识与技术http://www.dnzs.net.cnTel:+86-551-65690963656909基于生成对抗网络的深度Q学习能耗预测算法松1,2,3,戴大东1,章挺飞1,2,3,张大龙1(1.苏州科技大学电子与信息工程学院,江苏苏州215009;2.苏州科技大学江苏省建筑智慧节能重点实验室,江苏苏州215009;3.苏州科技大学苏州市移动网络技术与应用重点实验室,江苏苏州215009)摘要:针对基于生成对抗网络的Q学习能耗预测算法中,将传统Q学习算法,应用于大状态空间存在收敛速度慢以及非线性条件下能耗预测性能较差的问题,提出一种基于生成对抗网络的深度Q学习能耗预测算法(DeepQ-LearningEnergyCon⁃sumptionPredictionAlgorithmBasedonGenerativeAdversarialNetworks,DGQL)。该算法引入深度神经网络,通过构建深度Q网络作为非线性函数逼近器去近似表示动作值函数,并利用深度Q网络值函数近似的方法解决传统Q学习算法在大状态空间中算法收敛速度慢的问题。实验结果表明,在引入深度Q网络值函数近似方法后,能耗预测的精度显著提高。关键词:深度Q学习;生成对抗网络;建筑能耗;函数逼近器中图分类号:TP391文献标识码:A开放科学(资源服务)标识码(OSID):文章编号:1009-3044(2019)32-0069-03DeepQ-learningEnergyConsumptionPredictionAlgorithmBasedonGeneratingAdversarialNetwork

2,32,3

LIUQing-song1,,DAIDa-dong1,ZHANGTing-fei1,,ZHANGDa-long1

(1.InstituteofElectronicandInformationEngineering,SuzhouUniversityofScienceandTechnology,Suzhou215009,China;2.JiangsuProv⁃inceKeyLaboratoryofIntelligentBuildingEneryEfficiency,SuzhouUniversityofScienceandTechnology,Suzhou,215009,China;3.SuzhouKeyLaboratoryofMobileNetworkingandAppliedTechnologies,SuzhouUniversityofScienceandTechnology,Suzhou215009,China)

Abstract:AimingattheproblemofQ-learningenergypredictionalgorithmBasedongeneratinganti-network,thetraditionalQ-learn⁃ingalgorithmisappliedtotheproblemofslowconvergenceinlargestatespaceandpoorperformanceinenergypredictionundernonlin⁃earconditions.DeepQ-LearningEnergyconsumptionPredictionAlgorithmBasedonGenerativeAdversarialNetworks(DGQL).Theal⁃gorithmintroducesdeepneuralnetwork,constructsdepthQnetworkasnonlinearfunctionapproximatortoapproximateactionvaluefunction,andusesdepthQnetworkvaluefunctionapproximationtosolvetheslowconvergenceoftraditionalQlearningalgorithminlargestatespace.problem.TheexperimentalresultsshowthattheaccuracyofenergyconsumptionpredictionissignificantlyimprovedaftertheintroductionofthedepthQnetworkvaluefunctionapproximationmethod.Keywords:DeepQ-Learning;generativeadversarialnetworks;buildingenergycomsumption;functionapproximator1概述近年来,由于我国经济的飞速发展,随之建筑业也快速发展,由此建筑高能耗带来的问题日益凸显,因此,进行以节能减耗为目标的能耗预测研究显得尤为重要。通过分析能耗预测的结果,能够有效地提高能耗管理效率,解决建筑高能耗带来的问题。中国是能源消耗最大的发展中国家,大型公共建筑单位能耗相对于居住建筑能耗要高出十多倍,所以在不断发展经济的同时,应该通过低碳转型以及节能减排等方式,寻求可持续发展道路。目前,我国建筑领域所造成的能源消耗已经占到了社会总能好的三分之一,是节能减排三大领域能耗占比做高的领域。因此,建筑领域的节能是实现节能减排的关键,而建筑能耗预测是实现建筑节能的重要前提[1]。

大型公共建筑不断增加,由此带来的建筑能耗也快速增

加,相比较工业领域和交通,建筑领域由于具有占地面积大、内

部结构复杂等特点,所以其能源消耗总量更大。2017年方涛涛等人针对传统神经网络预测精度存在低的问题,提出了一种基于BP-Adaboost的能耗预测算法,该算法由多个训练神经网络所得的弱预测器组成,然后集合为强预测器,实验结果表明该

[2]

算法预测速度快、预测精度高。YUZ等人将传统Q学习应用与预测建筑物内部极为重要的能源系统,通过预测能源系统的能耗分布,然后在线控制各个子系统的能耗,从而使得整个能源系统处于高效、低能耗状态[3]。但是,生成对抗网络的Q学习在解决能耗预测方面还有很多不足之处。

本文针对基于生成对抗网络的Q学习能耗预测中,传统Q学习应用与大状态空间收敛速度慢,且在非线性条件下能耗预测性能较差的问题,提出一种基于生成对抗网络的深度Q学习

收稿日期:2019-07-15作者简介:松(1995—),男,硕士,主要研究方向为深度学习、建筑节能;戴大东(1993—),男,硕士,主要研究方向为机器学习、建筑节能;章挺飞(1994—),男,硕士,主要研究方向为机器学习、建筑节能;张大龙(1994—),男,硕士,主要研究机器学习、建筑节能。本栏目责任编辑:代

网络通讯及安全

69

ComputerKnowledgeandTechnology电脑知识与技术能耗预测算法。该算法引入深度神经网络,构建深度Q网络作为非线性函数逼近器去近似表示动作值函数,用值函数近似的方法解决Q学习算法在大状态空间中算法性能较差的问题。实验结果表明,引入深度Q网络以及值函数近似方法后,能耗预测的精度显著提高。

2理论部分2.1值函数近似值函数近似是最常用、最重要的近似形式之一。由于其函

数构造方式简单,计算量小,近年来,值函数近似在深度Q学习中得到广泛的应用。本文采用值函数近似来构造动作值函数(Q值函数)。如式(1)所示:

Q(s,a)≈Q(s,a,θ)(1)其中,θ为神经网络的参数,输入为状态s,输出为每个动作

对应的动作值函数Q。

通过值函数近似的方法,可以表示出每个时刻的动作值函

数,且不需要记录。通过神经网络来预测动作值函数即可,并通过反向梯度下降的方法来更新参数,从而实现逼近真实动作值函数,并且值函数近似方法针对未知的状态也有比较强的泛化能力。2.2深度Q网络神经网络最早在20世纪四十年代被提出,可以实现一些简单逻辑运算,直到2015年,Mnih等人将卷积神经网络和传统强化学习中的DQN)Q学习结合,提出了深度Q网络(DeepQ-Network,大小,DQN模型然后经过全连接层的非线性变换,模型为全连接层的神经网络,[4]。

输入为若干时刻的能耗在输出层输出的值作为动作的动作值。通过训练神经网络的参数,将动作值函数用值函数近似方法表示,避免传统Q学习算法在大状态空间存在收敛速度慢,性能差的问题。2.3生成对抗网络生成对抗网络(GenerativeAdversarialNetworks,GAN)是一种生成式模型,目前已经成为人工智能学界一个热门的研究方向[5]

。GAN灵感自于博弈论中的二人零和博弈,在GAN模型中,博弈双方为生成器模型G和判别器模型D。其中生成器G用于学习真实样本数据的分布,生成器G为接收随机噪声z,然后以此生成样本,目的是生成与真实样本分布相同的样本。

用可微分函数表示,GAN的模型图如图图1各自的输入分别为随机噪声1示:生成对抗网络生成器模型G与判别器模型z和真实数据D利x。G(z)表示由生成器模型G生成的尽量服从真实数据分布的

样本。判别器模型D分别对数据来源进行判别,如果判别出输入的数据来源于真实数据,则给予标签1,如果输入数据来源于生成器G,给予标签0。通过学习,使得生成器与判别器相互对抗且迭代优化,最终可以认为生成器模型G已经学习到真实数

70

网络通讯及安全

第15卷第32期(2019年11月)

据分布。

3基于生成对抗网络的深度Q学习能耗预测算法构建训练样本集:X={(t包含k个能耗样本,其中,每个能耗样本包含1,t2,...,ti),...,(tk,tk+1i个前后时刻的,...,tk+i)},总共

能耗。

构建动作空间集:A={am划分,间隔1,am2,...,大小可变。

ak},动作大小范围为[xmin,xmax],然后按照间隔

构建奖赏集:R={r1,r2,...,rk},rk=-|ak-tk+i|,奖赏值为每

个状态采取的动作值与下一时刻能耗的真实值差的绝对值的负数,样本集包含k个奖赏值,与训练样本集中的每个训练样本一一对应。

该算法具体流程如算法1所示,真实能耗数据储存于真实能耗样本池D1,真实能耗样本用于训练GAN,然后GAN生成的能耗样本储存于虚拟样本池agentD2,两个样本池共同提供样本给本,然后采用小批量梯度下降的方法训练深度神经网络,用于训练,每次从两个样本池抽取mini-match个样以此逼近真实动作值函数,寻找最优策略,最优策略是agent在每个状态采取的最优动作集合,即能耗预测值集合。

算法1基于生成对抗网络的深度Q学习能耗预测算法12:初始化GAN、R-RUθ,D1,D2的长度N,K值3:4:令k=θ-的权值,0=θ5:6:收集经验样本Foreachepisode

D1(s,a7:8:If利用k%KD=,s',r)

1(0

s,a,s',9:利用R-RU改进rGAN

)训练GAN和R-RU

10:11:从中GAND生成新的样本并加入D2均匀随机抽mini-matchD2中1,取个样本12::Fory=eachr+γsample

maxa'

Q(s',a';θ-1314:Δθ=Δθ+α[y-Q(s,a)

;θ)]∇Q(15:θ=θ+s,a;θ)16:

:θ-k==θΔθ

k4实验结果分析17:Endfor+1为了验证基于生成对抗网络深度Q学习能耗预测算法,建

筑能耗的实验数据来自美国巴尔的摩天燃气与电力公司,源数据的值域空间为[15,60],因此,在此能耗预测模型中,输入值与输出值的值域设为batch=32xiangto哪个的[15,60],图2。

学习率为0.95,mini-为GQL算法与DGQL算法累积奖赏对比图。横坐标表示时间,纵坐标表示不同情节下的累积奖赏值。在实验过程中,每个算法都被执行20次,图中的数据即20次实验的平均值。从图2中可以看出,两个算法最终都能处于收敛状态,因此,两种算法稳定性都较好。同时,GQL算法在65个情节处于收敛,75与-47而,这主要是由于DGQL算法在DGQL90个情节处于收敛,算法需要训练深度神经网络,收敛奖赏分别为构

-本栏目责任编辑:代影

第15卷第32期(2019年11月)

ComputerKnowledgeandTechnology电脑知识与技术

0-50-100-150Rewards-200-250-300-350-400020406080100120140160180200GQL算法DGQL算法测方法,该算法在传统Q学习的基础上引入深度Q学习,用值函数近似的方法构建非线性函数逼近器来近似表示动作值函数,解决Q学习在大状态空间中算法性能较差、甚至无法收敛的问题,实验结果表明,将DGQL算法应用于能耗预测是有效的,相比较于GQL算法,DGQL算法的能耗预测准确率更高。

参考文献:[1]杨文人.基于能耗预测模型的能源管理系统研究与实现[D].广州:华南理工大学,2013.[2]方涛涛,马小军,陈冲.基于BP-Adaboost算法的建筑能耗预测研究[J].科技通报,2017,33(7):170-174.[3]YuZ,DexterA.Onlinetuningofasupervisoryfuzzycontrol⁃lerforlow-energybuildingsystemusingreinforcementlearn⁃ing[J].ControlEngineeringPractice,2010,18(5):532-539.[4]MnihV,KavukcuogluK,SilverD,etal.Human-levelcon⁃trolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.[5]GoodfellowI,Pouget-AbadieJ,MirzaM.Generativeadversari⁃alnetworks[C]//ProceedingsoftheConferenceonAdvancesinNeuralInformationProcessingSystems,Montreal,Canada,2014.[通联编辑:唐一东]

Episodes图2GQL算法与DGQL算法累积奖赏对比图造非线性函数逼近器去近似表示动作值函数,训练过程需要更

多的训练时间,所以收敛更慢,但是DGQL算法通过训练神经网络来逼近动作值函数,可以避免迭代式求解带来的计算代价。同时,由于GAN生成经验样本,保证DGQL算法有充足的样本用于训练深度神经网络。所以,DGQL算法最终的收敛值比GQL算法更小,真实能耗值与预测能耗值两者之间的差距更小。综上所述,DGQL算法的整体性能更好,预测准确率更高。

5总结本文提出的一种基于生成对抗网络的深度Q学习能耗预

(上接第58页)

3结束语据以上分析可以得出,DDoS高防IP系统还存在木桶短板缺陷,任何一个关键组成的防御效果都会影响到整体的防御效果。未来的DDoS高防IP系统应该具备弹性带宽、高冗余、高可用、访问质量优、业务接入简单的特点。

参考文献:[1]杨玉兰.DDOS攻击行为特征分析及防御方法探究[J].网络安全技术与应用,2016(11):46-47.[2]宋强.应用层DDoS攻击检测技术简析[J].中国电信业,2017(08):73-77.[3]陈飞,毕小红.DDoS攻击防御技术发展综述[J].网络与信息安全学报,2017(10):16-24.[4]https://help.aliyun.com/document_detail/284.html?spm=5176.7946143.1090656.1.55916d63BFQgTZ&aly_as=78d8OM⁃hX[通联编辑:代影]

本栏目责任编辑:代影网络通讯及安全

71

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务