2024.03.04-2024.03.10
每周文章分享
标题: Computation Offloading Method Using Stochastic Games for Software-Defined-Network-Based Multiagent Mobile Edge Computing
期刊: IEEE Internet of Things Journal, VOL. 10, NO. 20, 15 OCTOBER 2023.
作者: Guowen Wu, Hui Wang, Hong Zhang, Yuhan Zhao, Shui Yu and Shigen Shen.
分享人: 河海大学——邹昕莹
01
研究背景
在工业4.0中,工厂引入智能设备(SD)来实现对生产线的监管控制。SD与各种传感器相结合,负责收集、存储和处理生产过程中产生的数据。然而,在实际生产环境中,传感器网络将产生大量的生产数据。SDs的数据处理能力太弱,无法处理所有这些数据处理任务,这将带来巨大的能耗和高处理延迟,如何有效降低能耗和延迟是亟待解决的问题。为此,本文首先提出了一种基于软件定义网络(SDN)的移动边缘计算(MEC)系统,设计了一种基于随机博弈的资源分配算法,该算法具有优先经验重放(SGRA-PER),并通过多智能体强化学习最大限度地减少能耗和处理延迟。
02
关键技术
在本文中,首先提出了一种基于软件定义网络(SDN)的移动边缘计算(MEC)系统。其次,基于随机博弈,研究了MEC系统中的计算卸载和资源分配问题,建立了基于随机博弈的计算卸载模型;此外,证明了该系统中的多用户随机博弈可以实现纳什均衡。最后,进一步将每个SD视为一个独立的智能体,并设计了一种基于随机博弈的资源分配算法。
该方法的创新和贡献如下:
1)本文将SDN框架与MEC系统集成,以减轻集中式服务器的压力,并减少MEC系统中的不确定性。在这个系统中,SDN控制器负责集中控制和管理计算卸载策略。
2)建立基于SDN的随机博弈MEC系统模型,证明多个SD之间的资源竞争可以达到纳什均衡(NE),以解决边缘服务器同时为多个SD提供服务时的计算卸载策略和资源分配问题。
3)提出一种基于随机博弈的优先经验重放资源分配算法(SGRA-PER),以最小化系统延迟和能耗,优化多SD环境下的计算卸载问题。
03
算法介绍T
(1)基于SDN的MEC系统模型
图1 提出的基于SDN的MEC系统架构
在本文中,考虑了一个工业4.0场景,该系统基于SDN,该系统由SD(用N={1,2,..., n}表示)、边缘服务器和SDN控制器组成。如图1所示,将基于SDN的MEC系统分为基础设施层、边缘层和控制层。基础设施层中的SD通过无线接入点与边缘层通信。在边缘层设置一个 MEC 服务器,用于处理边缘卸载请求。在控制层,部署了集中式SDN控制器,通过嵌入式程序对整个网络系统进行管理。在本文中,假设SD的数量是固定的,并且SD随机分布在MEC服务器周围。
A.软件定义网络
图2 MEC网络中的SDN
本文将SDN分为数据平面、控制平面和应用平面,如图2所示。
数据平面将计算和网络资源整合在基础设施层,并通过Open Flow协议统一起来。此外,数据平面与控制平面隔离,仅根据所选目标网络的指定路径转发数据流,该路径由控制平面决定。根据Open Flow协议,数据面可以通过南向接口与控制面进行通信。
在控制平面中,有多个逻辑SDN控制器,它们具有全局网络信息,负责在数据平面中转发规则。由于全局视野,它们可以提高网络的安全性和效率。此外,基于网络流量可视化,SDN控制器可以快速识别数据模式和差异,发现数据流中的异常值和错误。
应用平面独立于其他两个平面,通过北向接口与控制平面通信。用户可以在不知道底层网络详细信息的情况下部署应用程序。各种应用程序使SDN框架更加灵活和直接。
B.MEC系统
i)网络模型
为简化系统模型,假设该场景由多个SD和单个MEC服务器组成。每SD将持续生成等待处理的计算任务。在每个时隙k中,所有SD都会生成一个计算任务m。计算任务集为M={m^k_1,m^k_2,m^k_3,...,m^k_n},其中m^k_n表示SDn在时隙k中生成的计算任务。SDn生成的计算任务与其他任务不同,可以描述为m^k_n={C^k_n,τ^max},其中C^k_n表示数据量,τ^max表示单个任务的最大处理延迟。每个任务的处理延迟都应小于τ^max。在此模型中,SD能够将任务切成更小的子任务,并将其中一些或整个任务卸载到边缘服务器进行处理。届时,边缘服务器将在通过无线网络处理后将结果返回给SD。
ii)任务计算模型
在MEC系统中,由SD生成的计算任务可以进一步分离成更小的子任务,这些子任务与其他子任务没有关系。在SDN框架方面,SDN控制器会根据其全局视角,决定SDN在时隙k中的卸载速率a^k_n∈[0, 1]作为卸载策略。在这种情况下,如果a^k_n=0,则SD将在本地设备上处理任务m^k_n,相反,如果a^k_n=1,则SD会将总任务m^k_n卸载到边缘节点。因此,SDN控制器有两种计算模式可供选择:1)本地计算模型或2)边缘计算模式。对此,SDN控制器会选择本地设备或边缘节点,在每个时隙处理子任务。在本地计算模式下,SD将在其本地设备上处理整个任务。在边缘计算模式下,SD可以将整个任务或一些子任务卸载到MEC服务器。在这种情况下,MEC服务器将在处理后将结果返回给SD。
iii)任务传输模型
计算卸载的实质是SD将任务上传到MEC服务器,MEC服务器返回此任务的结果。换句话说,在本文模型中,专注于在SD和MEC服务器之间交付任务数据及其结果。在这里,假设已经提前知道信道状态信息(CSI)。在工业4.0的场景下,工厂中的每个SD都是稳定的,SD之间没有干扰,因此,将无线信道H^k_n的信道增益视为一个常数。此外,信道资源(即信道带宽)是有限的。因此,还需要合理分配带宽资源。这里,用b^k_n来表示分配给SDn的带宽资源比例。
(2)基于SDN的多SDs MEC的计算卸载模型
A.计算卸载策略模型
在多SD的MEC系统中,MEC服务器的资源不是无限的,正确分配MEC服务器的资源以确保系统具有最佳性能至关重要。因此,任务m^k_n的计算卸载策略A^k_n由任务卸载率a^k_n、计算资源分配比x^k_n和带宽资源分配比b^k_n组成。可以按如下方式衡量SDn的计算卸载策略的性能:
其中,E_n_k表示时隙k中SDn的总能耗,T_n_k表示整体处理延迟。α和β是权重参数,分别代表能耗和延迟的重要性程度。此外,它们满足α+β=1。因此,通过性能指标得到一个奖励函数来评估此策略:
其中w^-表示对超过容许最大处理延迟的惩罚。
为了提高MEC系统的整体性能,每个SD都会选择卸载策略,以最大限度地提高每个时间段的长期奖励。SDn的总折扣奖励为
其中γ∈[0,1]表示折扣因子。v_n表示累积折扣奖励值,以评估SDn选择的策略A^k_n。在当前状态下SDn的奖励值是所有可能的未来奖励的总和。
时隙k中SDn的策略空间包括卸载率a^k_n、带宽资源分配率b^k_n和计算资源分配率x^k_n。在每个时隙k中,SDn将采用最优策略A^*_(n,k)来优化长期奖励v_n。为了最大化长期奖励,可以将最终的计算卸载策略优化问题格式化如下:
B.基于随机博弈的计算卸载模型
采用博弈论来解决N个SD的联合最优卸载问题,博弈论通过将该问题建模为SD之间的竞争来简化联合最优问题。博弈论中最关心的问题是找到竞争的纳什均衡(NE)。
根据博弈论,游戏中的每个参与者都有不同的奖励值和决策集。参与者做出的每一个决定都是为了最大化自己的利益,同时考虑到其余参与者将做出的决定。在非合作博弈的环境中,无论其他参与者选择哪种决策,参与者n总能找到一个特定的决策,称为主导决策。当所有参与者的决策都占主导地位时,可以认为游戏已经达到了NE的状态。当游戏处于NE时,无论哪个参与者改变它们的决定,都将无法获得更高的奖励。
在MEC系统方面,将每个SD视为游戏的参与者。计算卸载策略是它们的决定,基于随机博弈的计算卸载模型表示为5元组Φ=〈S,N,A,P,R〉,其中:
1)S表示所有SD观察到的一组环境状态。游戏是不完整的,因为SD的观察只定义了每个SD的状态。在时隙k中,SDn的观测状态可以表示为:
其中a^(k-1)_(-n)表示除SDn之外的所有SD的卸载率,b^(k-1)_n、x^(k-1)_n和C^(k-1)_n分别表示SDn在时隙k−1时的带宽资源比、计算资源比和卸载数据量。
2)N表示所有参与者的集合,N≥2。
3)A代表一组所有参与者的行动策略。在时隙k中,SDn的动作策略由对应的任务卸载率、带宽资源分配率和计算资源分配率组成。
4)P∈[0,1]表示概率传递函数。
5)R表示一组参与者的奖励函数。
本地处理模型中的能耗和延迟为常数r0,描述如下:
本文只考虑处理延迟不超过最大处理延迟的情况。在这种情况下,总能耗为
根据上式,当确定其他SD的卸载策略时,对于SDn,最佳策略是
在这种随机博弈模型中,一旦SD选择了卸载策略,它将立即获得该策略的奖励。对于一组策略A^*,没有SD能通过改变其卸载策略来进一步增加自身收益;也就是说,对于SDn,策略A^*_n是剩余SD制定的策略的最佳卸载策略。此时,MEC系统在随机博弈下达到NE状态。在这种情况下,每个SD都会获得一个相对最优的策略,该最优策略集中的奖励最高。也就是说,对于任何SD的政策,都有
根据上面的分析,MEC系统中SD之间的资源竞争可以达到NE状态,这意味着所有SD都存在最优策略,使总奖励最大化。
(3)基于随机博弈的具有优先经验重放的资源分配算法
图3 基于随机博弈的MEC计算卸载算法框架
本文设计了一种基于随机博弈的资源分配算法,该算法具有优先经验重放,称为SGRA-PER,用于计算卸载优化问题。在SGRA-PER中,每个SD都作为独立的智能体运行,每个智能体制定的最优策略由Q函数决定:
然而,概率传递函数在实际场景中很难观察到,因此利用多重抽样的平均奖励,根据蒙特卡洛(MC)方法近似期望累积奖励。MC方法是无模式的,这意味着它们不需要知道环境的转移概率或奖励。它们可以利用来自环境的采样轨迹来估计值函数V和值动作函数Q。当样本数量足够大时,样本的平均奖励近似于奖励的预期。然而,传统的均匀采样可能会丢失一些重要的样本。在这种情况下,本文使用优先经验重放(PER)而不是均匀抽样。
在均匀采样方面,经验i=(s^k_n, A^k_n, r^k_n, s^(k+1)_n)存储在重放缓冲区M中。在每个episode中,通过随机均匀抽样选择M中的小批量,以最小化损失函数。由于连续样本的相关性,它能够避免参数更新中的过度方差。然而,一些未来可能使用的基本和罕见的经验将很快被遗忘,从而降低算法的效率。
为了解决这个问题,将PER引入到原始重放缓冲区中。在这种情况下,会对每个样本进行优先级排序,并为那些具有更高学习效率的经验赋予更高的采样权重。
PER的核心是衡量每个经验的学习效率。从表面上看,理想的标准应该是智能体可以从经验中学到多少东西,但这很难直接获得。因此,使用经验的时序差分(TD)误差δn来表示学习效率,其定义如下:
对于经验i,TD误差δ_n表示从当前Q函数到目标Q函数的距离。更大的TD误差意味着该样本的预测精度仍有很大的增长空间;也就是说,经验具有更高的优先级。为了更新网络,从经验重放缓冲区中抽取一个小批次。在经验的优先级下,被采样的小批量中第i个经验的可能性P(i)为
其中p_i=|δ_i| +ε表示经验的优先级i,ε为防止跃迁的小正数,当TD-error为0时不会采样。K是小批量的大小。sa代表要采样的优先级,如果sa=0,则PER等于均匀采样。使用概率P(i),能够从经验重放缓冲区中抽取一小批经验来训练网络。
对于每个经验,将最后一个TD error存储在重放缓冲区中。但是,新经验没有TD error。因此,会优先处理这些经验,以确保它们至少重放一次。在本文的算法中,重放缓冲区使用一种称为Sum Tree,一种特定的二叉树的数据结构,而不是FIFO队列。在Sum Tree中,每个节点的数据是其子节点的总和。此外,每个经验的优先级表示为叶节点。在这种情况下,如果想在Sum Tree中搜索优先级更高的经验,则复杂度为O(logN)。当数据量很大时,Sum Tree中的采样速度比传统的线性结构快,其复杂度为O(NlogN)。
然而,与均匀采样相比,PER中的样本分布发生了变化,导致模型收敛为不同的值。原始损失函数为
为了克服这个问题,引入了重要性采样(IS)权重ω_n,以确保每个通道被采样的可能性是不同的。同时,每个经验对于梯度下降的影响是相同的,以确保模型将收敛到相同的结果。IS权重表示如下:
其中R是重放缓冲区中的样本数。β是一个超参数,表示抵消PER对收敛结果的影响的程度。现在IS权重的损失函数为:
综上所述,Q函数的更新写法如下:
此外,为了保证MARL能够典型地收敛,SGRA-PER会随着训练过程逐渐降低学习率:
04
实验结果分析T
(1)仿真设置
本文将所提出方案与基于MADDPG、Q-Mix、MAPPO算法的计算卸载策略进行了比较。本文所提算法相关参数设置如表1所示。
表1仿真参数设置
(2)消融实验
图4 OCL、OCO、SGRA、不带 PER 的 SGRA-PER 和 SGRA-PER 之间的比较。
(a)处理延迟。(b)能源消耗。
为了验证提出的SGRA-PER方法的有效性,进行了一项消融研究,其中将SGRA-PER与OCO、OCL、SGRA without PER和SGRA-PER进行了比较,后者使用普通阵列来节省处理延迟和能源。如图4(a)所示,SGRA-PER在处理延迟方面优于其他三种方法。OCO的处理延迟最高,因为它的计算能力有限,而OCO的表现也很差,因为它的静态资源分配策略阻止了MEC服务器处理各种任务,导致系统性能下降。与上述两种方法相比,SGRA效果良好。然而,如果没有优先级体验回放机制,一些重要但不频繁的经验很容易被忽略,导致SGRA的性能低于SGRA-PER。此外,如图4(b)所示,在所有方法中,SGRA-PER的能耗最低。为了证明使用Sum Tree数据结构相对于普通数组的优势,比较了SGRA-PER在有和没有Sum Tree的情况下的性能。如图所示,就SGRA-PER而言,两种方法的效果相同。然而,使用SumTree的方法的处理速度比没有Sum Tree的方法更快。这是因为Sum Tree降低了从O(NlogN)到O(logN)采样的时间复杂度,其中N是重放缓冲区的大小。综上所述,动态资源分配和优先级体验回放机制对于提高系统性能是必要且有效的。
(3)算法性能
图5 SGRA-PER、MADDPG、Q-Mix和MAPPO的性能比较。
(a)奖励。(b) 处理延迟。(c) 能源消耗。
如图5(a)所示,与MADDPG、Q-Mix和MAPPO相比,SGRA-PER的收敛性能最好,获得的总收敛奖励最高。在图5(b)中比较了四种算法的处理延迟。同样,虽然SGRA-PER的收敛速度相对较慢,但SGRA-PER收敛后的处理延迟是三种算法中最低的。结果表明,SGRA-PER在处理时延方面的性能远远优于三种不同的算法。如图5(c)所示,MADDPG、Q-Mix和MAPPO的能耗均高于SGRA-PER。
图6 不同用户数量下四种算法的比较。
(a)处理延迟。(b)能源消耗。
如图6所示,随着智能体数量的增加,4种算法的能耗和处理延迟在一定程度上增加。当agent数量达到300个时,SGRA-PER的平均延迟为707.28,是100SD下延迟的近3.6倍。MEC服务器的资源是有限的,因此随着Agent数量的增加,MEC服务器很难处理所有的计算任务,导致某些任务必须在本地SD上处理。然而,本地SD的计算能力要弱得多。本地SD上的数据处理越多,延迟和能耗就越大。同时,SDs的散热性能是影响MEC系统性能的另一个因素。如果更多的任务在本地处理,就会浪费更多的能量。SGRA-PER可以动态、合理地控制分配给SD的计算资源,减轻MEC服务器的负担。因此,随着智能体数量的增加,SGRA-PER在控制MEC系统的能耗方面优于其他三种算法。
05
总结T
本文提出了一种基于SDN的MEC网络模型,并提出了一种基于随机博弈的具有优先经验重放的资源分配算法(SGRA-PER)来优化随机博弈模型。通过SGRA-PER可以动态合理地为每台设备分配资源,最大限度地利用MEC系统的资源,降低系统的总成本,有效提高MEC系统的性能和运行效率。
- END -
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...