团队科研成果分享
2024.07.29-2024.08.04
标题: Underwater Target Tracking Based on Hierarchical Software-Defined Multi-AUV Reinforcement Learning: A Multi-AUV Advantage-Attention Actor-Critic Approach
期刊: IEEE Transactions on Mobile Computing, 2024.
作者: Shengchao Zhu, Guangjie Han*, Chuan Lin, Qiuzi Tao.
分享人: 河海大学——朱胜超
01
研究背景
BACKGROUND
研究背景
随着水下机器人、水下通信技术等的快速发展,自主水下航行器集群网络已经成为执行水下民用和军用应用的候选范例,例如,水下目标跟踪本文主要研究如何利用网络技术和多智能体人工智能技术来提高水下目标跟踪的性能。特别是,为了提高AUV集群网络的灵活性和可扩展性,我们采用软件定义的网络和集中式训练与分散执行的多智能体强化学习技术,提出了一个分层的软件定义的多AUV强化学习框架。针对HSD-MARL中的MARL机制,提出了一种多AUV集群网络中的优势注意机制,并提出了多AUV集群网络中的优势注意Actor-Critic结构,以解决大规模AUV集群网络中的收敛速度慢和可扩展性差的问题。此外,为了提高优势样本的利用率,特别是在利用MA-A3C进行基于AUV集群网络的水下跟踪时,我们提出了一种基于经验回放缓冲区的“优势重采样”方法。评估结果表明,我们提出的方法可以进行精确的水下目标跟踪的AUV集群网络系统的基础上,并优于一些最近的研究成果的收敛速度,跟踪精度等。
02
关键技术
TECHNOLOGY
关键技术
受SDN技术和基于CTDE的MARL的启发,为提高AUV集群网络的智能性,巧妙利用SDN和基于CTDE的MARL的相似性,提出了一种适用于AUV集群网络的软件定义MARL架构。提出了一种专门的注意机制和采样方法,以提高MARL在确定AUV集群网络水下合作目标跟踪策略方面的能力。该方法的创新和贡献如下:
1)我们提出了分层软件定义的多AUV强化学习(HSD-MARL)体系结构,将系统结构分解为三个功能层,支持AUV集群网络中分层、可扩展的水下通信和动作决策;
2)为了提高HSDMARL的群体决策能力,在基于Actor-Critic模型的MARL中引入“优势注意力”的概念,提出了MA-A3C结构,以提高AUV集群网络跟踪水下目标的收敛速度和可扩展性;
3)此外,为了提高MA-A3C用于AUV集群网络水下跟踪时的训练样本利用率和训练效率,提出了一种基于经验回放缓存的“优势重采样”方法。
03
算法介绍
ALGORITHMS
算法介绍
(1)层次化的软件定义多智能体强化学习架构
图1 所提出的HSD-MARL架构
HSD-MARL分为三个功能层:应用执行层、本地训练控制层、全局训练控制层,如图1所示。
在全局训练控制层中,USV-GC在局部训练控制层中对每个基于局部训练控制器的AUV(LTC-AUV)进行集中训练,为每个AUV子集群分配预定义的任务。在局部训练控制层,每个LTC-AUV根据训练参数进行集中训练,为每个AUV分配特定的任务。
A. 全局训练控制层
所提出的HSD-MARL的全局训练控制层旨在通过北向接口协调各个区域的LTC-AUV,以实现最佳任务完成并保持全局网络视图。首先,基于集中训练,USVGC将整个任务划分为子区域任务,并将其分配给相应的LTC-AUV。然后,每个LTC-AUV分配特定的任务,每个共同的AUV的训练参数的基础上,通过集中训练。
B. 本地训练控制层
通过预先配置的北向接口,预先指定本地训练控制层中每个LTC-AUV的功能和相应的任务。通过预先配置的南向接口,指定区域内的每个AUV子集群由HSD-MARL中的LTC-AUV控制。每个LTC-AUV a被视为具有指定区域的中心节点,并且专用于对AUV子集群进行集中训练(在该LTC-AUV B的控制下)。然后,可以基于从USV-GC学习的参数来分配每个AUV(在应用执行层中)的任务。通常,LTC-AUV配备高性能电池和计算单元,通过南向接口定期维护本地网络视图。
C. 应用执行层
该层具有SDN和基于CTDE的MARL的功能,为整个架构执行分布式操作和分散执行。在该层中,AUV子集群网络执行预定义的网络协作功能(例如,协同水下目标跟踪)。值得注意的是,AUV子集群网络中的AUV执行预定义的联网策略,而AUV之间的频繁通信被忽略。因此,可以提高AUV集群网络的灵活性和鲁棒性。
(2)所提出的MA-A3C算法
图2 MA-A3C算法
我们所提出的MA-A3C算法包含优势注意力机制和优势重采样方法,如图2所示。
A. 优势注意力机制
所提出的优势注意力机制的具体步骤如下:
(1)选出当前轮次的最优AUV;
(2)随机选出一个或两个AUV;
(3)压缩除最优AUV和随机AUV的信息,再将所有AUV信息拼接到一起;
(4)求动作价值函数
B. 优势重采样方法
所提出的优势重采样方法旨在重复采样每轮随机采样中奖励值最好的一半样本,增加优势样本的采样效率。
04
实验结果
EXPERIMENTS
实验结果
我们评估了在2D和3D水下环境中使用Python的AUV集群网络的目标跟踪,在具有32 GB RAM的Intel(R)Core i9- 12900 H 2.50GHz机器上。
首先,我们分别在2D和3D环境,在小规模集群和大规模集群上对比了MAAC、MADDPG、MASAC算法,具体如图3-图6所示。
图3 2D环境中小规模网络(4个AUV)的比较
图4 3D环境中小规模网络(4个AUV)的比较
图5 2D环境中大规模网络(12个AUV)的比较
图6 3D环境中大规模网络(12个AUV)的比较
随后,我们在2D环境和3D环境下测试了追踪路径,具体结果如图7-图9所示。
图7 2D环境AUV子集群1追踪路径
图8 2D环境AUV子集群2追踪路径
图9 3D环境AUV集群追踪路径
随后,我们分别统计了2D环境和3D环境的训练过程中,优势AUV的占有比例具体结果如图10和图11所示。
图10 2D环境下优势AUV的比例
图11 3D环境下优势AUV的比例
然后,我们统计了不同算法的追踪精度,具体如表1所示。
表1
接着,我们统计了MA-A3C算法在不同AUV数目时的追踪精度,具体如表2所示。
表2
最后,我们进行了消融实验,分别在4个AUV和12个AUV的场景下,将优势重采样方法消融,以证明其与优势注意力机制的效果,具体结果如图12和图13所示。
图12 利用小规模网络(4个AUV)进行的消融实验
图13 利用小规模网络(12个AUV)进行的消融实验
05
总结
CONCLUSION
总结
本文研究了在复杂的水下环境中,如何协同控制AUV集群网络系统对随机运动目标进行跟踪。首先,提出了一种基于软件定义的层次化MARL体系结构HSD-MARL,将系统结构进行层次化分解,提高了大规模AUV集群网络中的水下通信和动作确定能力。然后,为了提高HSD-MARL在复杂水下环境下的群体决策能力,提出了MA-A3C结构,该结构将“优势注意力”方法引入到基于Actor-Critic模型的MARL中,加快了算法的收敛速度,提高了目标跟踪精度。此外,为了改善MA-A3C在水下跟踪中的优势采样和收敛速度,提出了一种基于经验重放缓冲区的“优势重采样”方法。实验结果表明,与目前主流的跟踪算法相比,本文提出的跟踪算法具有最高的跟踪精度。本文的主要局限性与缺乏对水下环境中的障碍物和通信延迟的考虑有关。此外,所提出的HSD-MARL结构和MA-A3C算法适用于水下协同应用,但在未来的工作中需要进一步扩展以获得更广泛的应用,有竞争力的任务。未来的研究方向包括减小水下通信的影响、优化AUV的建模、考虑障碍物和通信时延、改进SDN技术与MARL算法的结合等。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...