团队科研成果分享
2024.04.22-2024.04.28
标题: A Software-Defined MARL-based Architecture for AUV Cluster Network to Enable Cooperative and Smart Underwater Target Tracking
期刊: IEEE Wireless Communications Magazine,2024.
作者: Shengchao Zhu, Guangjie Han*, Chuan Lin.
分享人: 河海大学——朱胜超
01
研究背景
BACKGROUND
研究背景
自主水下导航、水下网络和水下通信技术的快速发展极大地加速了人类对海洋的开发和利用,催生了水下机器人,如遥控潜水器(ROV)、载人潜水器(HOV)、自主水下机器人(AUV)等。这些新兴的水下机器人模式创新了水下军事和民用应用,如深海监测、深海跟踪和生物多样性调查,催生了“智能海洋”模式,通过高效智能的网络技术管理各种水下设备和机器人,智能地执行水下作业。
在这些水下机器人范式中,AUV集群网络(其中AUV集群被视为基于自组织的多智能体网络)越来越被认为是最灵活、最适合海洋资源监测和勘探的组织架构,它融合了先进的水下通信技术和自主水下导航技术。随着水下网络技术和水下通信技术(如水声、光通信技术)的快速发展,软件定义网络(SDN)技术在水下监测网络应用方面得到了广泛的推广,尤其是新兴的基于AUV集群网络的水下目标跟踪。然而,要实现高性能、智能的水下目标跟踪,一个重大挑战是设计一种集高效管理和智能确定于一体的智能架构。
02
关键技术
TECHNOLOGY
关键技术
受SDN技术和MARL算法的启发,我们在之前工作的基础上,创造性地发现了SDN技术(集中式管理,分布式操作)与基CTDE的MARL架构(集中式训练,去中心化执行)之间的相似性,并提出了SD-MARL架构和相应的基于SD-MARL的水下目标跟踪方案。
该方法的创新和贡献如下:
1)我们提出了一种用于水下AUV集群网络的SD-MARL架构,将先进的水下通信技术和水下网络技术相结合,设计了一个基于智能水下通信的网络。
2)我们提出了基于SD-MARL的信标框架,包括三类SD-MARL消息,GLO_MES、LOC_TRA和LOC_EXE,以改进AUV集群网络之间的通信。
3)我们提出了AUV集群网络的中断避障框架,将避障事件与MARL算法的确定解耦,改善了MARL算法中的训练过程和计算消耗。
03
算法介绍
ALGORITHMS
算法介绍
(1)软件定义多智能体强化学习架构
图1 所提出的SD-MARL架构
如前所述,AUV集群网络需要集中高效的网络管理以及灵活自主的学习能力,以增强其水下可持续和高性能的作战能力。幸运的是,SDN技术为AUV集群网络提供了高效的网络架构基础,MARL算法为AUV群集网络提供了灵活的自主学习能力。值得注意的是,SDN(集中管理、分散运营)的特点与基于CTDE的MARL(集中培训、分散执行)模式密切相关。在这个动机下,我们提出了软件定义多智能体强化学习架构,如图1所示。
1)数据驱动层:所提出的SD-MARL架构的数据驱动层由一系列组成用于不同任务的普通AUV(C-AUV)集群(如目标跟踪、数据收集)。每个C-AUV集群集中控制层的南向API本地控制训练层中的AUV(LC-AUV)。在这种情况下,不同的C-AUV集群根据特定的地理位置进行划分,负责不同的操作。值得注意的是,数据驱动层中的C-AUV集群是由MARL算法确定的,以实现高性能的水下作业。并且,每个C-AUV都有一个用于确定的参与者网络,该网络已经由LC-AUV完全训练,以自主完成由LC-AUV驱动的任务。特别地,每个C-AUV仅由预先配置的参与者网络从LC-AUV进行决策,而没有C-AUV集群之间的水下通信。这大大降低了水下通信资源的开销,提高了水下信息交互的安全性。
2)局部控制训练层:SD-MARL的局部控制训练层由许多C-AUV集群的控制器LC AUV组成,在SD-MARL架构中充当全局控制层和数据驱动层之间的桥梁。一方面,在一个USV-GC的控制和管理下,LC-AUV通过东/西API获得集群的任务分配,并负责受控C-AUV集群的管理。另一方面,每个LC-AUV都有一个本地体验重放缓冲器,用于存储受控C-AUV集群的采样信息。此外,LC-AUV拥有一个本地评论家网络,用于及时训练C-AUV集群的参与者网络,为C-AUV群集配置高效的网络参数,使受控的C-AUV群能够执行高性能的水下目标跟踪。
3)全局控制层:所提出的SD-MARL的全局控制层中的USV-GC充当全局控制器,并负责整个C-AUV集群网络的管理。最重要的是,USV-GC具有全局经验重放缓冲器,用于存储来自所有C-AUV集群的采样信息。此外,USV-GC对来自全局体验回放缓冲器的采样信息进行采样,以更新全局评论家网络,这有助于在后续过程中更新全局参与者网络。值得注意的是,USV-GC通过全局参与者网络的确定将特定任务细节分配给本地控制训练层中的LC AUV。
4)云应用层:所提出的SD-MARL的云应用层起到了计算保证的作用。通常,USV-GC通过卫星通信将全球体验回放缓冲区的样本传输到云计算中心。此外,完全训练的网络参数和全局任务的详细信息被传输到USV-GC以部署任务操作。通过这种方式,大部分训练计算转移到云计算平台,提高了水下计算效率。同样,存储的C-AUV集群网络的全局信息也可以用于数据分析、军事和民用应用等。
(2)所提出的基于SD-MARL的水下目标追踪框架
A.分层任务模型
所提出的分层任务模型分别包含全局控制层的USV-GC任务模型、局部控制训练的LC AUV任务模型和数据驱动层的C-AUV任务模式。具体而言,USV-GC采用SD-MARL架构的信标框架,在接收到全局任务后将特定任务委派给每个LC-AUV。
B. LC-AUV的控制模型
如图2所示,LC-AUV的控制模型旨在有效、准确地从USV-GC接收任务细节,并根据受控C-AUV集群的特性进行动态调整。并且,每个LC-AUV通过集中训练和管理将任务分配给C-AUV,并维护本地体验回放缓冲区。需要说明的是,LC-AUV既是本地控制器,又是集中训练单元,在水下目标跟踪协同控制模型的实现中发挥着至关重要的作用。
C. C-AUV的控制模型
C-AUV的控制模型完全集中在LC-AUV的部署上,主要分为两个阶段,即集中训练和分散执行。LC-AUV确认并广播C-AUV集群的采样信息收集范围和数量。C-AUV集群在LC-AUV的指挥下协同收集观测奖励信息。在收集到足够的信息后,C-AUV通过基于SD MARL的信标框架将样本信息安全地传输到LC-AUV。LC-AUV根据能耗、计算资源等因素确定模型训练位置(在云中心或自行确定)。随后,经过充分训练的模型将被部署到C-AUV集群中。
图2 协作控制模型
D.基于SD-MARL的信标框架
图3. 基于SD-MARL的信标框架
为了确保C-AUV集群的一致性和同步性,我们提出了基于SDMARL的信标框架。
具体而言,我们定义了三类信标,即GLO_MES(用于USV-GC和LC AUV之间的通信)、LOC_TRA(用于集中训练期间LC-AUV和C-AUV之间的通信)、LOC_EXE(用于分散执行期间LC-AUV和C-AUV之间的通信)。
E. 中断避障框架
为了在水下目标跟踪中实现精确的避障,我们提出了一种C-AUV集群的中断避障框架。详细地说,基于SD MARL的水下目标跟踪方案分为主过程和中断过程,如四所示。
图4 中断避障框架
1)主要事件:主要事件专门用于基于MARL算法的水下目标跟踪。
2)中断事件:中断事件旨在为C-AUV集群执行避障。
04
实验结果
EXPERIMENTS
实验结果
在本节中,我们在配备Intel(R)Core i9-12900H 2.50GHz处理器和32GB RAM的机器上使用Python评估了所提出的基于SD MARL的水下目标跟踪方案的可用性。所有的评价结果都是在1公里×1公里的三维区域中模拟得出的。
图5 仿真结果
首先,我们测试了水下目标跟踪方案,并展示了600个时隙的过程,如图5(a)-(f)所示。图5(a)表示C-AUV集群和目标的初始设置,其中随机设置了几个障碍物。绿色球体、红色球体和蓝色球体分别表示目标、LC-AUV和C-AUV。此外,在图5(b)中,绿线、红线和蓝线分别表示目标的轨迹、LC-AUV的轨迹和C-AUV的轨道。值得注意的是,利用我们提出的水下目标跟踪方案,C-AUV集群在每100个时隙内成功跟踪目标。如图5(c)所示,C-AUV集群通过MARL的输出执行动作确定。然后,C-AUV集群遇到障碍物,并使用我们提出的中断避障框架转换为执行避障,如图5(d)所示。一旦C-AUV集群成功避开障碍物,决策算法就从中断的避障框架转换回MARL算法,确保C-AUV集群能够有效地跟踪目标并避开障碍物。
这表明,SDN技术的“集中管理、分布式操作”和基于CTDE的MARL算法的“集中训练、分散执行”相结合是有价值的,尤其是对于水下目标跟踪。随后,我们通过将MADDPG_I算法和MADDPG_Ob算法分别与六个和八个C-AUV进行比较,来测试所提出的中断避障框架的可用性,如图5(g)和(h)所示。MADDPG_I算法表示具有我们提出的中断避障框架的MADDPG算法,而MADDPG_Ob算法表示在MADDPG的奖励函数中考虑避障。根据图5(g)和(h)的结果,MADDPG_I收敛非常快,并且MADDPG_Ob在整个训练过程中没有收敛。因此,我们可以得出结论,我们提出的中断避障框架将避障(紧急事件)与MARL的奖励函数解耦,并支持专用的避障算法。这有效地降低了MARL算法的训练难度,启发了基于MARL的AUV集群网络在水下的广泛应用,即我们可以将突发事件与MARL的奖励函数解耦,以促进MARL算法收敛。
并且,我们将我们提出的水下目标方案与当前的先进模型进行了比较,即:MAT、MADDPG和分布式方案(我们将分布式方案与MADDPG算法相结合)。首先,我们对1000个时隙内不同C-AUV的跟踪精度进行了比较如图5(i)所示。从结果可以看出,与其他方法相比,我们提出的方案可以实现最佳的水下目标跟踪性能。然而,分布式方案表现出最差的性能,这表明了所提出的SD-MARL架构由于其集中管理而具有的优越性。此外,我们统计了1000个时隙中C-AUV集群网络之间的通信数量,如图5(j)所示。可以得出结论,我们提出的方案在执行过程中支持高效的水下通信,而先进的MAT方法需要大量的通信。这是因为我们提出的SD-MARL架构减少了大量的水下通信资源,其中数据驱动层中的C-AUV不需要通信,而是基于其本地观测执行操作。
05
总结
CONCLUSION
总结
在本文中,我们研究了如何利用SDN技术和MARL算法来重新定义AUV集群网络的架构,以协同智能地实现高性能的水下目标跟踪。首先,我们结合SDN技术(集中管理和分布式操作)和基于CTDE的MARL架构(集中训练和分散执行)之间的相似性,提出了SD-MARL架构,以提高水下AUV集群网络的管理和确定能力。此外,基于SD-MARL架构,我们提出了基于SD-MARL的水下目标跟踪方案,以实现安全、智能的水下目标跟踪。该方案分别采用了协同控制模型、SD-MARL信标框架、协同目标跟踪框架和中断避障框架。评估结果表明,所提出的基于SD-MARL的水下目标跟踪方案能够实现高性能的水下跟踪。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...