每周文章分享
2023.07.31-2023.08.06
标题: Deep Reinforcement Learning-Based Multichannel Access for Industrial Wireless Networks With Dynamic Multiuser Priority
期刊: IEEE Transactions on Industrial Informatics, vol. 18, no. 10, pp. 7048-7058, Oct. 2022.
作者: Xiaoyu Liu, Chi Xu, Haibin Yu, and Peng Zeng.
分享人: 河海大学——董奕伶
01
研究背景
随着工业4.0的快速发展,海量的分布式智能工业设备通过工业无线网络互联在一起,在智能制造过程中产生了大量不同服务质量要求的异质数据,如控制命令、音视频流量、配置消息等,并通过工业无线网络(IWN)进行通信。然而,IWN有限的时频资源不能很好地支持具有严格实时可靠通信要求的海量工业设备的高并发访问,将导致状态空间爆炸,状态之间耦合复杂,访问冲突严重。针对这一问题,本文提出了一种基于深度强化学习的动态优先级多信道接入(DRL-DPMCA)算法。DRL-DPMCA的目标包括:1)根据工业设备的时变数据为工业设备分配动态优先级;2)为工业设备分配信道,尽量减少访问冲突;3)保证时间敏感数据的实时可靠通信。
02
关键技术
本文首先建立了IWN的多用户动态优先级MCA系统模型,并利用马尔可夫决策过程(MDP)来制定优化目标。特别是为 MCA 和动态优先级设计了联合访问奖励和优先级奖励的复合奖励。然后,本文提出了DRL-DPMCA算法,详细解释了算法结构、执行过程和计算复杂度。最后,通过大量实验与时隙ALOHA和深度 Q 网络( DQN )进行比较,验证了 DRL-DPMCA 在访问冲突、信道利用率、优先级权重访问和排队延迟方面的性能。
该方法的创新和贡献如下:
1)将智能制造过程中的工业设备映射到不同的优先级。工业设备的优先级是动态的,具体取决于其随时间变化的数据。工业设备的信道访问概率也是动态的,具体取决于其优先级。
2)设计了联合访问奖励和优先级奖励的复合奖励,以保证高优先级工业设备在最小访问冲突的情况下获得最高的信道访问概率和最小的排队延迟。
3)为了打破训练数据的时间相关性,同时加速DRL-DPMCA的收敛,设计了一种新颖的经验回放,具有经验权重来分类存储和采样经验。
4)为了避免DRL-DPMCA陷入局部最优,提出了一种分步ε-贪婪算法来平衡利用和探索。
5)对于局部可观测性,采用门控循环单元(GRU)和决斗架构来利用过去的经验和观测来估计综合状态。
03
算法介绍
1. 系统模型
A.网络模型
如图1所示,本文考虑一个具有工业基站(IBS)、多路访问边缘计算(MEC)服务器和大量工业设备的IWN。分布式工业设备在制造过程中不断产生异构工业数据。同时,工业设备观察本地系统信息,并将其上报给IBS。
图1 网络模型
IBS从所有工业设备收集本地观测数据,并生成状态。MEC服务器离线训练以下提出的DRL-DPMCA,并实时处理工业数据。利用训练好的DRL-DPMCA,分布式工业设备无需工业设备之间的协调即可在线访问信道。当制造任务发生显著变化时,IBS再次收集本地观测数据,并更新DRL-DPMCA。
B. 延迟模型
对于实时可靠的通信,本文关注的是端到端的时延,包括传播时延、传输时延、排队时延和处理时延,传播时延指的是电磁波从发射机传播到接收机的时长。传输延迟是指发送器将数据从第一位传输到最后一位的持续时间。处理延迟是指数据在工业设备中处理的时长。一般来说,传播时延和处理时延都很小。传输延迟取决于信道容量和数据大小。只要信道接入成功,传播时延、传输时延和处理时延的总和就远远小于一个时隙的长度。相反,排队延迟是取决于访问冲突的波动值。当接入冲突严重时,排队时延是影响端到端时延的关键因素。因此,本文忽略了传播延迟、传输延迟和处理延迟。
由于制造过程始终在进行,因此本文假设所有工业设备始终进行通信。同时,在预定时间内传送数据是有效的。因此,每个工业设备维护有限长度的缓冲器B,该缓冲器为数据提供有限的寿命T。在时隙t,如果D_n无法接入信道,则将其数据缓存在等待下一个时隙的B_n中。对于D_n,排队延迟d_n表示为
2. 用于动态优先级 MCA 的 MDP
为了实现动态优先级MCA,工业设备与环境进行交互,并执行不同的动作来改变自己的状态。在任何状态下,工业设备都会通过执行不同的操作来获得不同的回报。通过最大化长期累积奖励,可以得到一个有效的策略。本文使用MDP对交互过程进行建模,用状态、动作、奖励和状态转移函数来描述交互过程。
A. 状态
在时隙t,状态表示为x(t),所有可能的状态构成状态空间 X,其中x(t)∈X。状态由工业设备尝试接入的信道c(t),工业设备的优先级p(t)和所有信道的占用频率cf(t) 组成,表示为一个有2N+C个元素的一维集合。
B. 动作
在时隙t,动作记为a(t),所有可能的动作构成动作空间A,其中a(t)∈A。工业设备在时隙t的实际访问信道为动作a(t)。
C. 复合奖励
在时隙t,奖励表示为r(t),它是通过在状态x(t)执行动作a(t)获得的。策略将随着奖励的增加而迭代更新。结合MCA和动态优先级,本文设计了关于访问奖励和优先级奖励的复合奖励r(t)。
1)接入奖励:本文以MCA为目标,从全球网络和个人设备的角度设计全球接入奖励和个人接入奖励。
全局访问奖励取决于访问冲突 G。G 是工业设备总数(即 N)与工业设备实时访问数(表示为 N→)之间的差值。因此,G表示为
考虑到 IWN 中信道资源有限,当所有信道都被占用时,给予正向奖励。当任何一个信道空闲时,都会给予惩罚。更具体地说,本文将最小访问冲突定义为 G_min = N − C。当 G = G_min 时,全局访问奖励是正奖励 r*。当 G>G_min 时,全局访问奖励为零。因此,全局访问奖励表示为
除了全局访问奖励外,个人访问奖励用于奖励单个工业设备的成功访问。当 D_n 在时隙t成功访问信道时,它会收到正奖励。相反,当 D_n 在时隙t访问信道失败时,它收到零奖励。因此,个人访问奖励表示为
2)优先奖励:优先奖励与工业设备的优先级正相关。成功接入工业设备的优先级越高,优先级奖励越大。因此,优先奖励表示为
复合奖励 r(t) 的计算公式为
最大化长期累积奖励 R(t),如下所示:
更具体地说,当 G = G_min 时,rgb(t) 和 r_id(t) 达到最大值。当所有竞争接入信道的工业设备中成功接入工业设备的优先级最高时,r_pr(t)达到最大值。因此,最大化R(t)可以在最小访问冲突的情况下实现高优先级工业设备的高信道访问概率。
D. 状态转移函数
在时隙t,状态转移函数表示为f(t),f(t)是工业设备在状态x(t)执行动作a(t)并移动到下一个状态x(t + 1),即 f(x(t + 1)|x(t), a(t))。随着交互次数的增加,f(t) 通过最大化长期累积奖励逐渐收敛到 f(t)∗
3. 拟议的 DRL-DPMCA
为了获得解决具有动态优先级的大规模工业设备 MCA 的有效策略,本文进一步提出了基于上述 MDP 的 DRL-DPMCA 算法。DRL-DPMCA 的架构包括具有经验权重的经验重放、DL和RL,如图 2 所示。
图2 DRL-DPMCA架构
A. 具有经验权重的经验重放
状态、动作、奖励和下一个状态作为经验E存储在经验池H中。经验用作训练数据。在时隙t,经验E(t)表示为
经验池H(t)存储历史经验,为了确保训练数据独立同分布,本文使用经验回放来随机采样经验,以打破它们的时间相关性。与经典的经验重放不同,任何经验的采样概率都是相同的,本文认为不同的经验对收敛有不同的贡献,并以下降梯度ε作为经验的权重。然后设计A池和B池分别存储高权重和低权重的体验。
B. 深度神经网络
为了保证海量工业设备的高并发访问,本文进一步采用深度神经网络来管理爆炸性状态空间。从状态到动作的映射遵循策略π,即a(t) ∼ π(x(t))。状态-动作值函数Q_π(x(t), a(t)) 用于评估π,表示在状态x(t)遵循策略π执行动作a(t)的长期累积奖励。此外,深度神经网络用于通过Q_π(x, a|θ) 来逼近状态-动作值函数,而不是将真实的Q_π(x, a) 存储在Q表中,即Q_π(x, a|θ) ) ≈ Q_π(x, a)。θ是深度神经网络的超参数集。估计网络和目标网络是两个结构相同但超参数不同的深度神经网络。深度神经网络的结构如图 3 所示。
图3 深度神经网络的结构
C. DRL-DPMCA训练
利用经验权重、DL和Q学习进行经验回放,给出了DRL-DPMCA的训练过程。首先,将存储在不同体验池中的历史经验随机抽样作为训练数据,进行经验权重回放。在这些训练数据中,x(t)被馈送到估计网络以产生估计状态-动作值函数eval_Q,并且x(t+1)被馈送到目标网络以产生目标状态-动作值函数target_Q。接下来,Q-学习利用eval_Q和target_Q来训练估计网络并更新策略π。同时,实时更新估计网络的经验和超参数,同时通过复制旧的θ来更新目标网络的超参数。
04
实验结果分析
1. 实验设置
在DRL-DPMCA中,本文将从状态到动作的一个周期视为离线训练和在线执行阶段的一个时隙。表1汇总了关键参数及其值。在动态MCA问题中,访问冲突、信道利用率、优先级权重访问和排队延迟是最受关注的性能。围绕这些性能指标,本文将DRL-DPMCA算法与时隙ALOHA、DQN基准算法进行了比较。
表1 基本仿真参数
2. 访问冲突和信道利用率
为了评估访问冲突,本文定义平均冲突G,即多个训练时间内所有访问冲突的平均值为
如图4(a)所示,当少数具有小范围优先级的工业设备执行并发访问时,DRL-DPMCA和DQN在平均冲突中的性能相似,并且它们具有比时隙ALOHA更低的平均冲突。随着IWN规模的增加,DRL-DPMCA在平均冲突中的性能明显好于DQN和时隙ALOHA,如图4(b)和(c)所示。特别是,DRL-DPMCA收敛速度最快,其平均冲突最接近最小访问冲突G_min。
图4 访问冲突和信道利用率
相应地,本文定义了最小冲突比K,记录了在多个训练时间内达到最小访问冲突的训练次数,为
如图4(d)所示,当少数具有小范围优先级的工业设备进行并发接入时,DRL-DPMCA和DQN的信道利用率都接近100%,而时隙ALOHA的信道利用率仅为75%左右;随着IWN规模的增大,如图4(e)和(f)所示,DRL-DPMCA的信道利用率仍在100%左右,而DQN的信道利用率下降到95%左右。特别是对于大规模的IWN(如N=50、C=20和P=15),DRL-DPMCA的优势更加明显,其信道利用率分别比DQN和时隙ALOHA高7.31%和55.72%。
3. 优先级权重访问
为了描述具有不同优先级的工业设备的信道访问概率,本文定义了一个权重分布函数来评估优先级权重访问。权重分布函数的计算过程如下。在时隙t,将IWN中所有工业设备的优先级按降序排列,生成序列Y1。然后,将IWN中接入成功的工业设备的优先级降序排列,生成长度为L的序列Y2。接下来依次从Y2中提取元素,找到该元素第一次出现在Y1中时的索引。本文将索引存储在列表I中,并将Y1中索引位置的元素设置为-1。最后计算I中元素与Y1中前L个指标的平方差,求和归一化。这样,权重分布函数的归一化值接近于0,成功接入的工业设备的优先级高。反之,权重分布函数的归一化值接近于1,成功接入工业设备的优先级较低。
不同工业设备数量的归一化值如图5所示,其中信道数和优先级数分别固定为10和7。随着工业设备数量的增加,DRL-DPMCA、DQN 和时隙ALOHA的归一化值增加。但是,DRL-DPMCA 的归一化值是在相同数量的工业设备上所有算法的所有归一化值中最小的。换句话说,DRL-DPMCA 保证了高优先级工业设备的最高信道访问概率。当少数工业设备并发访问时,使用DRL-DPMCA的高优先级工业设备的信道访问概率约为80%∼90%。即使在最坏的情况下,DRL-DPMCA 仍然为高优先级的工业设备提供大约 73% 的信道访问概率。此外,无论 IWN 的规模如何,使用 DRL-DPMCA 的高优先级工业设备的信道接入概率分别比 DQN 和时隙ALOHA高约 30% 和 60%。
图5 优先级权重访问
4. 排队延迟
图6 排队延迟
在图6中,本文重点研究了平均排队延迟与工业设备优先级之间的关系。信道数量固定在10个,工业设备数量从15个到50个不等。一般来说,在图6(a)和(b)中,随着工业设备数量的增加,不同优先级工业设备的平均排队延迟也增加。在图6(a)中,对于不同数量的工业设备,所有算法中低优先级工业设备(即p=0)的平均排队时延都在一个时隙以上,并且DRL-DPMCA中低优先级工业设备的平均排队时延高于时隙ALOHA和DQN。相反,在图6(b)中,对于不同数量的工业设备,时隙ALOHA中高优先级工业设备的平均排队时延高于DQN和DRL-DPMCA,而DRL-DPMCA保证高优先级工业设备的最低平均排队时延。
图6(c)和(d)显示了排队延迟的标准差与工业设备优先级之间的关系。在图6(c)中,对于不同数量的工业设备,时隙ALOHA中低优先级工业设备的标准排队时延远高于DQN和DRL-DPMCA,而DRL-DPMCA中低优先级工业设备的标准排队时延最低。随着工业设备数量的增加,所有算法中低优先级工业设备的平均排队时延都接近寿命,而时隙ALOHA算法中低优先级工业设备的标准排队时延减小。相反,由于DQN和DRL-DPMCA强制低优先级工业设备缓存以保证高优先级工业设备的实时性能,所以DQN和DRL-DPMCA中低优先级工业设备的标准排队延迟稳定在低值。在图6(d)中,由于时隙ALOHA的随机接入特性,时隙ALOHA中高优先级工业设备的标准排队时延也远高于DQN和DRL-DPMCA,而高优先级工业设备在时隙ALOHA中的标准排队时延随着工业设备数量的增加而减小。相反,当信道数近似等于工业设备数时,DQN和DRL-DPMCA中高优先级工业设备的标准排队时延是相等的。但是,随着工业设备数量的增加,由于信道变得稀缺,DQN和DRL-DPMCA中高优先级工业设备的标准排队时延缓慢增加,而STD。高优先级工业设备在DRL-DPMCA中的排队延迟最低。综上所述,DRL-DPMCA通过牺牲低优先级工业设备的访问机会来保证高优先级工业设备的最小排队延迟和最稳定的访问机会。
05
总结
本文提出一种DRL-DPMCA算法来解决具有不同QoS需求的海量工业设备的高并发访问。实验表明DRL-DPMCA收敛速度快,能很好地适应网络规模的动态变化。使用DRL-DPMCA,平均冲突总是满足最小访问冲突约束,信道利用率接近100%,高优先级工业设备的信道访问概率总是最高的。此外,DRL-DPMCA通过牺牲低优先级工业设备的信道接入机会来保证高优先级工业设备的最小且稳定的排队延迟。
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...