每周文章分享
2023.07.24-2023.07.30
标题: Large-Scale Computation Offloading Using a Multi-Agent Reinforcement Learning in Heterogeneous Multi-access Edge Computing
期刊: IEEE Transactions on Mobile Computing, vol. 22, no. 6, pp. 3425-3443, 1 June 2023.
作者: Zhen Gao, Lei Yang and Yu Dai
分享人: 河海大学——张锋冉
01
研究背景
目前,在多址边缘计算(MEC)中,现有的计算卸载方法为移动用户(Mu)提供了极低的服务延迟。然而,在大规模混合合作-竞争MU异构MEC环境中,这仍然是一个挑战。此外,现有方法更多地关注静态资源分配MEC服务器在一个时间间隔内处理的所有卸载任务,忽略了异构任务的按需需求,导致许多任务被丢弃或浪费资源,特别是对延迟敏感的任务。为了解决这些问题,本文提出了一种基于注意力加权循环多智能体演员评论家(ARMAAC)的分散计算卸载解决方案。首先,本文设计了一个循环演员评论家框架,以帮助MU智能体记住ES的历史资源分配信息,从而更好地理解ES的未来状态,特别是在动态资源分配中。其次,本文引入注意机制,压缩所有智能体的联合观测空间维度,以适应大规模智能体。最后,本文考虑到演员网络和评论家网络之间的敏感关系所带来的不稳定性和收敛困难,重新设计了双中心化评论家和Dueling网络的演员-评论家框架。
02
关键技术
本文提出了一种基于注意力的循环多智能体演员评论家分散计算卸载算法(ARMAAC),该算法考虑了大规模异构计算卸载中ES跨多个时间间隔动态资源分配处理的卸载任务,特别是对延迟敏感的任务。本文采用ARMAAC模型,每个MU智能体可以根据其在本地观察到的信息(包括任务和队列信息等)独立地做出卸载决策。
本文的主要贡献总结如下:
1)本文将计算卸载问题表示为多智能体动作协调任务,对于每个MU智能体,其目标是在大规模混合合作-竞争MEC系统环境中为延迟敏感任务选择最合适的ES。该问题主要关注ES/MEC系统中动态未知的资源分配(即带宽和CPU)、大规模混合合作-竞争MU-MEC环境以及延迟敏感任务,以降低系统成本和提高任务完成率为目标。
2)本文在传统的MADDPG算法的基础上,针对实际的计算卸载环境,对ARMAAC模型进行了三种改进。首先,本文引入一个循环演员评论家框架,帮助智能体记忆ES的历史资源分配信息,从而更好地理解ES的未来状态。其次,本文将多头关注纳入集中式批评网络,以适应大规模混合的合作-竞争MU - MEC环境。最后,考虑到演员网络和评论家网络之间的敏感关系所带来的不稳定性和收敛困难,本文重新设计了双中心化评论家和Dueling网络的演员-评论家框架。
3)设计了集中训练和分布式执行机制。具体来说,云计算中心最初集中训练演员评论网络(ARMAAC)。然后,每个MU应用训练好的ARMAAC演员网络对计算卸载做出独立的分布式决策。
03
算法介绍
1. 网络模型
本文考虑了具有大规模MU、ES以及单个云计算中心的MEC 系统。如图1所示,网络架构分为三个层次:云计算中心层、数据层和边缘设备层。
图1 MEC中多MU多ES计算卸载描述
云计算中心层:考虑到资源受限的MU无法承担模型的集中式训练,假设云计算中心层可以辅助MU训练ARMAAC模型。然后,训练好的actor网络将以分布式方式部署在每个MU上,以帮助其做出计算卸载决策。
数据层:包括交换机、无线连接点和网关。考虑了M个ES和N个无线传输信道。MU通过无线信道将其任务传输给ES进行处理。
边缘设备层:边缘设备层包含多种基础设备类别,如智能汽车、掌上电脑、机器人、摄像头等。每个MU被认为是一个智能体,数量为U。
2. 成本模型
本地执行成本:
任务在MU u上的本地处理延迟为:
任务的本地处理能耗为:
卸载传输成本:
任务传输延迟定义为任务完成的时间间隔减去任务开始传输的时间间隔,表示为:
传输的能量消耗为:
边缘计算成本:
本文只考虑在ES上计算MU的卸载任务所产生的计算延迟,因此,计算延迟主要取决于卸载任务的数据大小和由ES分配给MU的计算资源大小。
MU u在ES m上的任务计算延迟可以表示为:
3. 问题描述
MU之间是一种混合的合作-竞争关系,每个MU的行为对其他MU有很大的影响。首先,当大量MU执行计算卸载时,由于需要竞争传输资源,MU之间存在大量干扰。然后,当这些任务到达ES计算队列时,ES中的计算队列之间对计算资源的激烈竞争会导致资源的快速消耗、更长的排队时间和任务失败。协调每个MU的动作以最小化所有MU的任务执行延迟和能耗是至关重要的。因此,将多ES多MU计算卸载问题描述为一个分散的多智能体行为协调问题,将系统成本定义为所有MU成本的总和,即:
本文旨在寻找一种最优的计算卸载和资源分配策略,在满足最大任务允许延迟和资源约束下最小化系统成本,即:
约束C1表示,对于MU中的任何任务,只能做出二进制卸载决策,即卸载或不卸载;C2和C3表示,每个任务仅能卸载到一个ES上执行;C4和C5表示,对于每个任务,本地执行延迟、传输延迟和ES执行延迟以及两者的总和应小于任务的最大容许延迟;C6表明,对于所有MU,分配给有效无线信道传输队列的总带宽应当小于或等于MEC系统的总带宽;C7表明,对于每个ES上的有效ES计算队列,分配的计算资源的总和应该小于或等于该ES的总计算资源;C8表示,对于每个任务,MEC系统需要为任务恰到好处地分配传输和计算资源。
4. 多智能体模型
本文将每个MU都视为一个智能体,优化目标是最大化每个智能体的长期折扣奖励。观察空间包括MU u的观察、任务参数、MU的位置、每个ES的位置、信道增益、噪声功率、本地处理的排队延迟、上个时间间隔的有效无线信道传输队列长度、上个时间间隔的有效ES计算队列长度。动作空间包括任务卸载决策和ES选择决策。
为了应对MADDPG的缺点,本文在ARMAAC中采用了一种集中式训练和分布式执行方法。具体来说,首先对ARMAAC模型进行集中训练,然后将训练好的actor网络部署在每个MU上,帮助其独立做出卸载决策。其次,重新设计了actor和critic模块、多头注意机制、双中心化评论家critic和dueling网络来应对这些挑战。
如图2所示,首先,将每个MU视为一个智能体,每个MU智能体包括:actor网络和critic网络。在训练过程中,使用集中式训练机制来训练当前的actor网络和当前的critic网络。每个智能体可以利用一些附加信息(例如,其他MU智能体的观察信息)进行学习。然后,每个MU可以采用训练好的actor网络进行卸载决策。其次,每个智能体将局部观察值作为当前actor网络的输入,以获得动作和奖励。同时,智能体将转换为下一个状态。然后,将所有智能体的联合观察、联合动作和联合奖励存入重放缓冲器中。通过与MEC系统环境的互动,每个MU努力在很长一段时间内优化自己的预期折扣回报。
图2 ARMAAC框架
04
实验结果分析
1.环境设置
本文使用Pytorch 1.3框架来比较几种算法的性能。在不丧失一般性的前提下,本文设置了80个MU和8个ES,包括一个的100m×100m的场地,其中ES位于区域的中心。80个MU随机分布在ES周围。
本文的对比算法为:1)基于启发式算法的UTO-EXP3;2)基于ADMM的CampEdge;3)基于Actor-Critic框架的方法;4)基于MADDPG的方法;5)基于DQN的方法。
2.实验仿真
图3展示了在不同任务生成概率下六种算法的平均系统成本。
图3 不同任务生成概率下六种算法的平均系统成本
从图3可以看出,系统平均成本随着任务生成概率的增加而增加,而系统平均成本随着MU向ES发送更多的任务而逐渐增加。当任务生成概率达到0.5时,ARMAAC优于MADDPG,平均系统成本降低5.13%。同时,ARMAAC优于DQN,平均系统成本降低了6.05%。此外,在平均系统成本方面,ARMAAC算法明显优于其他算法。
图4展示了在不同任务最大容许延迟下六种算法的平均系统成本。
图4 不同任务最大容许延迟下六种算法的平均系统成本
在图4中,随着任务最大容差延迟的增加,各算法的平均系统成本也在增加,并逐渐趋于稳定。当任务最大容忍延迟延长时,可能会处理需要更长的计算(或传输)时间的任务,这对平均系统成本至关重要。如果任务最大容忍延迟足够长,大多数任务不会被丢弃。
图5展示了在不同MU数量下六种算法的平均奖励。
图5 不同MU数量下六种算法的平均奖励
在图5中,本文特别比较了ARMAAC、DQN和MADDPG算法上的平均episode奖励。可以看到,随着MU数量的增加,ARMAAC获得的平均episode奖励永远高于其他算法。
图6展示了在不同MU数量下六种算法的平均系统成本。
图6 不同MU数量下六种算法的平均系统成本
从图6中可以看出,随着MU数量的增加,各算法的平均系统成本也随之增加,因为更多的MU在ES上竞争传输和计算资源。由于ARMAAC考虑了ES的未知资源分配(即计算资源和传输资源)级别的动态,有效地协调了各个MU 的行动;当MU增加到130时,本文提出的方法的平均系统成本比其他算法低10.11% ~ 15.12%。
图7展示了在不同任务数量和任务数据大小下六种算法的平均系统成本。
图7 不同任务数量和任务数据大小下六种算法的平均系统成本
从图7可以看出,随着任务数量和数据量的增加,所有算法的平均系统成本都在增加。然而,ARMAAC模型仍然保持较低的平均系统成本。这是因为ARMAAC能够更好地协调各个MU智能体的动作,有效地管理资源。
05
总结
本文研究了大规模混合协同-竞争MU异构MEC环境下的分布式计算卸载方法,提出了基于MADDPG算法的ARMAAC模型,解决了MEC系统中大规模MU计算的动态资源分配(即带宽和CPU)卸载问题,特别是对于延迟敏感任务。本文通过大量实验证明,在任务完成率和系统成本方面,ARMAAC都优于其他对比算法。
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...