2024.09.09-2024.09.15
每周文章分享
标题: Hybrid Multiagent Reinforcement Learning for Electric Vehicle Resilience Control Towards a Low-Carbon Transition
期刊: IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, VOL. 18, NO. 11, NOVEMBER 2022.
作者: Dawei Qiu, Yi Wang, Tingqi Zhang, Mingyang Sun, and Goran Strbac
分享人: 河海大学——朱胜超
01
研究背景
为响应低碳要求,电力系统中部署了大量可再生能源(RESs)。然而,RESs的间歇性增加了系统的脆弱性,在极端事件下甚至会造成严重的破坏。电动汽车由于其机动性和灵活性的特点,可以在提供各种辅助服务的同时增强系统的弹性。在这种情况下,电动汽车在电网中的分布式控制成为一个具有巨大动态性和不确定性的复杂决策问题。为此,提出了一种多智能体强化学习方法来同时计算离散和连续动作,这符合电动汽车路由和调度问题的性质。
此外,在多智能体环境下,该方法可以提高学习的稳定性和可扩展性,并保持隐私性。基于IEEE 6总线和33总线电网与交通系统集成的仿真结果验证了该方法在提供系统弹性和碳强度服务方面的有效性。
02
关键技术
电动汽车控制问题面临以下挑战:
1)假设系统操作员可以知道所有的数学模型和技术参数,从而破坏了电动汽车的隐私。
2)难以准确获取系统的不确定性分布来模拟系统的随机和动态特性。
3)求解各响应时间的优化是非常耗时的,特别是在复杂的电力运输系统中,当需要快速响应时间来增强弹性和考虑大量的随机和整数变量时。
针对以上挑战,本文提出了一种新的MARL方法H-PSPPO,以解决电动汽车控制存在的一系列复杂问题。
03
算法介绍T
本文所提出的框架如图1所示,共包含三个主要部分:
图1. 本文架构
(1)MAS模块
本文研究的MAS建模了聚合器、一组电动汽车和耦合电力运输网络之间的相互作用。其中,电动汽车作为RL agent与电力-交通网络(环境)进行交互,在交通网络中进行路由动作ki:
a)进行调度动作xi;
b)在电网中,则得到局部观测oi和奖励ri;
c)MAS中的聚合器作为可信任的第三方,可以提供系统弹性动态(即负载减少量Pls;
d)并增强学习性能。
(2)Dec-POMDP模块
与传统的MAS不同,Dec-POMDP将MAS建模为具有潜在隐藏系统状态的顺序决策过程。本文更多地解释这个Dec-POMDP是如何与检验的MAS和提议的H-PSPPO集成的。Dec-POMDP中的EV代理独立行动,不知道其他代理的局部观察和行动。因此,在该MAS中,假设agent之间不存在隐式通信或信息共享。然而,为了保证合作方式,聚合器可以获取减载量Pls d,并抽象一个同时输入局部观测值oi和弹性贡献ei的新批评网络,该网络可以在某种程度上捕捉系统动态并指导智能体的行为以提高系统的弹性增强。
(3)H-PSPPO模块
H-PSPPO导出了以下四个具体的实现细节,这些细节对本文提出的电动汽车路由和调度问题具有深刻的见解和特别的关键,具体如下:
a)构造一个混合动作空间来计算离散和连续动作。
b)利用近端策略优化(PPO)算法在采样效率、学习稳定性、超参数鲁棒性等方面的优势对策略进行优化。
c)近似抽象状态值函数,增强电动汽车的可扩展性和隐私性。
d)采用参数共享(PS)技术,达到不共享局部信息的分布式控制方式。
原始PPO包含一个actor网络,用于估计计算连续动作的高斯分布的均值和方差,以及一个评论家网络,用于评估执行动作的q值。而Hybrid PPO具有两个行动者分支(网络),分别用于同时生成离散和连续动作。
具体来说,我们重新考虑具有混合动作空间的Dec-POMDP。一方面,训练一个φi参数化的离散参与者网络,生成一个softmax(f)分布,输出所有可能的离散动作[K]的相应概率,然后从这个分类策略ki中采样离散动作
另一方面,训练一个以ψi为参数的连续行动者网络,生成一个输出相应均值和方差的高斯分布,然后从这个随机策略中对连续行动者进行抽样。
然后分别对离散型政策和连续型政策进行更新,通过最小化它们各自的截断代理目标来约束政策更新。然后,离散策略和连续策略的目标可以表示为:
其中第一项是正常的策略梯度,第二项是通过剪切[1−η,1 + η]之间的概率比来修整策略梯度,其中η是一个小的超参数,它鼓励新策略在每个梯度上从旧版本更新更少。这里,概率比(ζ d1,t)只考虑离散策略而(ζ ci,t)只考虑连续策略。也就是说,尽管这两种政策相互作用决定了整个行动,但它们的目标并不明确地以彼此为条件。也就是说,在政策评价中,以上被看作是两个独立的分布,而不是一个联合分布。具体定义如下:
另外,{Ai,t}是广义优势函数
(4)抽象状态-值函数
IRL只获取局部观测值而不获取其他信息,可能存在不稳定问题。为此,在多智能体PPO的激励下,本文通过合并所有智能体的局部观测值来形成全局状态,重新表述了状态值函数Vi(oi) = Vi(s)≈Vi(o1:I)。然而,由于隐私的挑战,其他代理直接获取局部观测值是不切实际的。此外,集中式批评的输入维度随着智能体大小和观察空间成比例地增加,很快使问题难以大规模设置。最后,连接所有局部观察也可能不包含足够的全局信息来将POMDP减少到MDP,因为可能存在任何代理都没有观察到的关键信息。因此,本文假设EV聚合器是一个可信的第三方,它可以为所使用的EV提供反映集中训练过程中所有代理集体行为的系统关键信号。为此,我们将每个智能体i的多智能体联合状态值函数近似为:
其中ei表示智能体i对系统总体减载量的贡献。可以观察到ei是一个内嵌函数,它不仅抽象了所有其他智能体的局部观测值,而且还反映了智能体I提供系统弹性的状态(ei的值越低,表示有助于增强弹性的性能越好,反之亦然)。因此,该函数提供了代理的局部观测值以及系统整体动态的良好近似值。将ei引入到状态值函数估计中,每个智能体在不知道自己和所有其他智能体的电力运输局部信息和控制活动的情况下,可以根据自己和所有其他智能体的观察和行为的影响做出熟悉的决策,从而保护了电动汽车的隐私性,提高了可扩展性。
(6)PS技术
由于本文考虑了具有相同观察、行动和奖励函数的I个智能体的DECO-MDP,因此使用PS技术可以以更高的效率训练它们的策略。PS允许所有代理共享单个策略的参数。这使得共享策略可以使用所有智能体收集的样本经验进行训练,以增强学习性能,同时仍然允许不同智能体之间的不同行为,因为每个智能体接收不同的局部观察值。为了实现这一技术,本文假设所有局部EV代理从环境中获得的经验被传输到一个中央聚合器,用于更新由φ和ψ参数化的共享策略。然后,该策略被广播到所有局部EV代理,以计算对环境执行的动作。在传统的分布式MARL方法中,中央聚合器必须访问所有本地EV代理的数据进行交换,这可能会引起EV的数据隐私问题。然而,在我们提出的PS技术中,中央聚合器不需要本地数据共享,从而保持了本地数据的隐私性。在这种情况下,用来估计状态值函数的批判网络也可以用PS技术来训练Vs。
(7)训练过程
在每次训练迭代中,HPSPPO按照共享策略πs对所有智能体运行T步,并通过与环境的交互作用,用收集到的轨迹i:I更新它们。一旦收集到一批轨迹,聚合器就利用它们来计算每个智能体i和时间步长t的贴现奖励。
然后,本文可以通过最大化它们各自的目标来训练两个共享actor网络:
其中N为批大小。通过最小化均方误差损失函数来训练共享评论家网络:
04
实验结果分析T
(1)实验设置
在不同的测试系统上对所提出的方法进行评估,两种低压网络:1)IEEE 6总线;和2)IEEE 33总线。图2展示了带有电力运输网络的6总线系统。值得注意的是,电网有一个必要负载(L1),两个非必要负载(L2和L3),一个DG,两个pv,两个CSs和三个电动汽车(特斯拉Model-S)最初停在CSs上。每条线路都有一定的停机概率,最大停机次数为2次。对于交通网络,假设每辆电动汽车可以自由移动到任意特定的道路节点,两个相邻的道路节点之间的运输时间为1小时。本文假设电动汽车在交通网络中的行程消耗一定的能量,这更现实。
图2用于实验的6总线电力输送网络
实验是在Ausgrid记录的真实开源数据集上进行的。本文收集了每年300个住宅负荷和光伏发电数据,能够在大规模场景中评估所提出方法的性能。为了区分不同规模系统的不同负荷和光伏发电水平,本文收集了6总线系统的100户数据集和33总线系统的300户数据集,其平均值和std如图3所示。
图3. 6母线(左侧)和33母线(右侧)系统中的负载和光伏发电
(2)仿真结果
本文比较一种基于规则的方法和三种MARL方法在6总线系统的策略质量和收敛速度方面的训练和测试性能,结果如图4所示。
图4. 奖励测试图
具体而言,图4(a)给出了三种MARL方法(不包括基于规则的)的三种电动汽车情景奖励的学习曲线,其中实线和阴影区域分别描绘了50集的移动平均值和原始奖励的振荡,线上的点表示1000个训练集内的收敛情况;图4(b)显示了四种检测方法(包括基于规则的方法)31天内三辆电动汽车的累计奖励情况。
表1. 算法性能分析
我们从图4(a)中首先观察到,IPPO(蓝色)表现出最高的振荡和不稳定的学习行为,最终未能达到所有三种电动汽车的最优策略(即最低奖励)。更具体地说,这种现象对于EV1在1000集内未能达到收敛的情况尤为严重。总体而言,IPPO中的三个ev平均需要在31分钟内训练830集才能达到收敛(见表4)。如第I-B节所述,这是因为IPPO只关注局部信息,而忽略了与其他ev的相互作用,使得环境是非平稳的。因此,集中式训练的MAPPO(绿色)可以有效地缓解这种非平稳性问题,并且在稳定性和 (训练奖励12.96£)方面都表现出优越的性能。然而,MAPPO存在隐私问题,需要所有其他人的本地观察来集中批评。此外,批评网络的输入维度随着智能体的大小成比例地增加,使得大规模设置变得不切实际。为此,本文提出的H-PSPPO(红色)通过每个智能体对系统总体减载量ei的贡献来抽象所有智能体的局部观测,从而直接学习系统动力学。因此,抽象的评论网络可以保护代理的隐私,使大规模问题成为可能。
可以进一步观察到,在所有三种电动汽车的三种MARL方法中,H-PSPPO表现出最快的学习速度(在14分钟内收敛310集),这是由于PS架构,所有智能体的经验都用于在每次训练迭代中更新一个策略。最重要的是,给定所提出的混合动作空间,H-PSPPO对所有三种电动汽车学习到最高的奖励(16.06英镑)而IPPO和mappo天真地将连续空间离散为小段,不能准确地模拟EV的路径行为。
相对而言,H-PSPPO的计算时间比IPPO/MAPPO低0.55/0.63倍,训练奖励均值比IPPO/MAPPO高1.41/0.24倍,训练奖励标准差比IPPO/MAPPO低0.68/0.24倍(见表四)。需要注意的是,训练性能的比较不包括基于规则的方法,因为它遵循的是典型的逻辑规则,可以直接部署到测试过程中。
图4和表1的数值结果显示,三种电动汽车的测试奖励在H-PSPPO中最高(491英镑),其次是MAPPO(377英镑)和IPPO(193英镑),基于规则的测试奖励最低(68英镑),在训练性能上呈现相同的趋势。最后,本文也给出了在31个测试天内,不同控制方法的公制RI平均值。
接着,本文进一步测试了所提出算法的路由调度性能,具体如图5所示。
图5. 路由调度性能分析
05
总结T
本文提出了一种名为H PSPPO的新型MARL方法来解决多个电动汽车车队的路由和调度问题,以提高电动汽车的辅助服务能力和可靠性控制能力。所提出的MARL方法能够捕捉到涉及离散和连续动作的混合动作空间,而电动汽车相关的弹性驱动操作问题被表述为Dec-POMDP,保护了电动汽车的隐私,并捕捉了耦合电力运输网络的动态。本文在现实世界的开源数据集中测试了MARL算法,包含两个低压网络的实验结果:1)IEEE 6-bus;2)IEEE 33总线,证明了电动汽车在正常模式下提供碳强度服务和在紧急模式下减少甩负荷的有效性,同时证明了所提出的H-PSPPO方法在最优性、稳定性和可扩展性方面优于其他两种最先进的MARL方法。
- END -
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...