团队科研成果分享
2024.08.26-2024.09.01
标题: Enhancing Underwater IoT Security: A Collaborative Pursuit Strategy Using Multi-Agent Reinforcement Learning
期刊: IEEE Internet of Things Magazine. Vol. 7, Issue. 5, 2024
作者: Yun Hou, Guangjie Han, Fan Zhang and Chuan Lin
分享人: 河海大学——侯云
01
研究背景
BACKGROUND
研究背景
随着通信技术的进步,水下物联网(UIoT)已经成为研究热点。UIoT 是一种网络架构,通过连接各种水下设备(如自主水下航行器、传感器节点等)来支持数据传输和共享。这种网络架构被广泛应用于水下环境监测、水下资源探索和水下交通管理等场景。然而,UIoT 环境中的非法入侵目标导致了一系列水下安全问题,例如水下污染、基础设施破坏和水下数据泄露。为了解决这些问题,自主水下航行器(AUV)被视为一个重要的技术组件。与单个AUV的有限范围和速度相比,多AUV可以协作覆盖更大的区域,并确保有效的追踪。然而,多AUV面临的主要挑战是如何实时交换信息并协调策略以提高协作追踪的稳定性和效率。为克服这一挑战,学者们正在积极探索AUV之间的互联,旨在创建多AUV之间的自组织网络。尽管如此,为协作追踪建立智能水下安全保护系统(IUSPS)仍然面临一些问题,其中最关键的是设计一个灵活且可扩展的网络架构,这对于实现多AUV之间的实时信息交换和政策协调至关重要。
02
关键技术
TECHNOLOGY
关键技术
本文针对多AUV协同追踪领域面临的挑战和机遇,提出了一种基于MADRL的动态UIoT环境下双向多智能体软演员评论家(BiMASA)协同追踪方案。BiMASA采用基于SDN的网络架构,提高可扩展性。它将LSTM轨迹预测网络与注意机制相结合来预测目标运动。此外,还介绍了一种新的MADRL方法。该方法创新性地将双向LSTM和多智能体软演员评论家(MASAC)相结合,增强了多AUV系统的协同追踪能力和鲁棒性。
本文的主要贡献总结如下:
针对基于多AUV的UIoT,提出了一种基于SDN的网络架构,大大增强了网络的可控性和灵活性,促进了AUV之间的有效协调。
本文通过集成基于注意力的双向LSTM和MASAC算法,对传统的DRL框架进行了创新扩展。这种新颖的方法使AUV群能够自适应地重新配置其拓扑结构,并开发出强大的跟踪策略,即使在面对部分系统故障时也是如此。
利用注意力机制和LSTM构建目标预测网络,准确预测目标运动轨迹,从而优化AUV的协同追捕效率。
03
算法介绍
ALGORITHMS
算法介绍
(1)支持SDN的网络架构适用于基于多AUV的IOT
图1 支持SDN的基于多AUV的UIoT网络架构
为了实现多AUV之间的灵活网络和控制,本文开发了一种基于SDN的多AUV UIoT网络架构。SDN是一种新兴的网络架构,它将网络控制和数据平面分开,使网络控制直接可编程,并为应用程序和网络服务抽象底层基础设施。在多AUV系统中,SDN可以提供灵活高效的网络资源管理方式,优化数据流,保证AUV之间的可靠通信。下图提供了网络架构的可视化表示,该网络架构分为三个逻辑功能层,以促进基于AUV的IUSPS的高效运行,如图1所示。
图2 软件定义的信标框架
为了构建IUSPS,每个AUV-L需要在其通信范围内捕获AUV的本地视图。因此,引入一种基于声通信的高效信标变得必不可少。在本研究中,本文采用了[15]中提出的软件定义信标框架来促进AUV之间的数据同步和共享。图1(a)显示了在网络初始阶段,每个AUV-L通过发送BEA_SYN消息来同步AUV-N数据的请求过程。具体来说,AUV-L向其通信范围内的每个AUV-N发送SYN_request消息。AUV-N接收到SYN_request报文后,向AUV-L发送SYN_reply报文作为响应。报文中包含AUV_ID、AUV_addr、AUV_Speed、AUV_Direction、Target_pos、Target_traj等关键信息。如图2 (b)所示,BEA_Operation消息主要在特殊情况下触发。例如,如果AUV-N处于紧急情况或需要其AUV-L的指导,它将主动向其AUV-L发送操作请求。然后AUV-L通过发送Operation_reply消息来响应AUV-N。
(2)基于多AUV的UIoT协同追踪方案
1)目标预测网络
在本文的模型中,本文堆叠了多个LSTM层,以增加模型的复杂性和表达能力,如图3所示。每个LSTM层由特定数量的LSTM单元组成。通过叠加多个LSTM层,可以更有效地捕获目标轨迹的时间信息和特征。为了进一步提高模型的性能,本文引入了自关注机制,使模型在处理序列数据时能够选择性地关注关键段。具体来说,本文利用Keras库中的SeqSelfAttention模块,它通过计算序列中每个元素的注意力权重来确定每个元素的重要性。因此,该模型可以更精确地关注目标轨迹中的关键特征,从而提高预测精度。
图3 目标轨迹预测网络
2)策略网络和评论家网络
在这项研究中,本文引入了一种新的网络,称为基于注意的双向循环神经网络(ABRNN)。传统的神经网络通常采用固定的输入大小,这使得它难以适应在协同追捕中AUV数量可能动态变化的场景。为了克服这一挑战,本文采用了双向LSTM结构,其输入大小不局限于固定值,从而适应了AUV数量的动态变化。双向LSTM不仅保留了传统LSTM的记忆和遗忘机制,而且在每个时间步同时处理过去和未来的输入状态。这使得它能够更好地模拟多个AUV之间复杂的依赖关系和交互。除了双向特性外,本文还在LSTM网络中引入了注意机制,进一步提高了模型的性能。通过注意机制,该模型关注状态中最重要的方面,忽略不相关的信息,降低了计算复杂度。此外,该机制通过突出显示状态中的关键信息来提高学习能力。提出的BiMASA算法由两个关键部分组成:演员网络和评论家网络。actor网络不仅考虑自身的状态,还考虑其他AUV的状态,负责选择当前AUV的最优动作。批评家网络评估行动者网络的决策表现,并提供反馈信号,如图4所示。提出的BiMASA算法允许AUV通过与环境的交互来学习最优的协同追求策略。
图4 网络架构(a)演员网络 (b)评论家网络
3)基于强化学习的协同追击策略
采用马尔可夫决策过程(MDP)对目标跟踪问题进行建模。为了提高跟踪效率,将训练好的MADRL模型部署在每个AUV-N上,以做出实时、准确、自适应和分布式的跟踪决策。在训练过程中,每个AUV-N观察网络环境,并在每个时间步执行跟踪动作。MDP由观测、动作和奖励组成。
观测:观测空间表示AUV感知到的环境信息。观测空间的设计质量直接决定了MADRL算法能否收敛、收敛速度和最终性能。每个AUV-N的观测包括其当前位置、当前速度、与其他AUV-N的相对位置、与目标的相对位置以及AUV-L提供的预测目标轨迹。
动作:每个AUV-N接收到观察结果后,选择一个动作进行协同追击决策。每个AUV-N的动作对应于运动学方程中的控制信号。
奖励:每个AUV-N都会根据在当前状态下所采取的行动获得即时奖励。在协同追击问题中,水下机器人必须协同工作以捕获目标。为了设计一个合适的奖励函数,本文考虑两个组成部分:距离奖励r_id和碰撞避免奖励r_ic。距离奖励r_id是一种激励机制,鼓励AUV-N最小化到目标的距离。如果AUV-N与目标之间的距离小于攻击范围,它将获得10的正奖励。反之,如果AUV-N与目标之间的距离超过攻击范围,则奖励定义为-0.1*min(d_ie),其中min(d_ie)是从每个AUV-N与目标的距离中选择的最小值。为了解决合作追求的问题,本文采用了MASAC方法。MASAC是一种先进的MADRL算法,专门用于解决多智能体系统中的协同决策问题。通过将软策略优化和MADRL的概念整合到传统的行为者批评框架中,MASAC允许每个AUV学习其单独的策略。这促进了合作学习和经验分享,从而产生全局最佳解决方案。MASAC算法包括以下关键部分:
演员-评论家架构:MASAC使用行动者-评论家框架,其中行动者代表一个政策网络,评论家代表一个价值函数网络。每家经纪公司都有自己的演员和评论家网络。
软策略优化:MASAC采用了一种软策略优化方法,在策略更新过程中同时考虑了策略的奖励和熵。因此,MASAC鼓励探索性行为,避免陷入局部最优。
集中训练和分散执行:在训练阶段,MASAC采用利用全局信息的集中训练方法。然而,在执行阶段,每个AUV根据其本地信息独立地做出决策。
Q值网络更新:批评家网络通过最小化时间差误差来更新动作值函数。MASAC采用自动延迟机制来解决多智能体系统中的相互依赖性,并使用联合最小二乘法更新q值网络。
离线经验重放:为了提高算法训练的效率和稳定性,MASAC采用离线经验回放机制。AUV从这个缓冲中随机抽取经验样本用于训练目的。
04
实验结果
EXPERIMENTS
实验结果
在本节中,本文比较了不同的多智能体深度强化学习(MADRL)方法的实验结果,并讨论了本文提出的算法的性能。首先,本文介绍了实验设置,包括仿真环境,参数和评估指标。然后,本文将所提出的算法与MADDPG和MASAC等已有方法进行比较分析。
1)实验设置
实验场景是一个模拟UIoT环境的100*100 *100米的3D空间。AUV-N最大速度设为5m /s,加速度设为1.5 m/s²,目标速度设为5.5 m/s,加速度设为2m /s²。假设障碍物是一个圆形威胁区域。AUV-N的攻击距离设置为2.5米。当任意一个AUV在规定时间内与目标之间的距离小于攻击范围时,则协同追击任务成功。实验使用PyTorch和Gym模块在Ubuntu 22.04服务器上进行,该服务器配备了8个NVIDIA GeForce RTX 3090 GPU和2个Intel(R) Xeon(R) Silver 4314 [email protected]。这些硬件资源提供了足够的计算能力,以支持UIoT环境中复杂任务的训练和模拟。
2)实验结果
图5 三种MADRL方法的实验结果:(a)训练过程中累积奖励,(b)成功率和追踪步数
图5(a)显示了三种算法在训练过程中的学习曲线。从曲线中可以看出,MADDPG算法收敛在7500个训练集上,MASAC算法收敛在12000个训练集上,BiMASA算法收敛在12500个训练集上。这说明BiMASA算法比madpg和MASAC算法需要更多的训练时间来实现收敛,但也说明BiMASA算法有更强的学习能力来处理更复杂的追迹任务。此外,本文还观察了各算法收敛后的奖励值。BiMASA算法收敛到奖励值2000,MASAC算法收敛到奖励值1700,madpg算法收敛到奖励值1000。这证实了BiMASA算法在实现更高任务奖励方面的优势。BiMASA算法的优势主要来自于其弹道预测模块和ABRNN模块。弹道预测模块可以准确预测目标的弹道。因此,ABRNN模块结合了双向LSTM和注意机制来捕获序列数据的长期依赖关系并捕获关键信息。图5 (b)显示了训练模型在10个随机场景下的任务成功率和任务成功时间。根据图5 (b)的结果,本文观察到,MADDPG算法的成功率为87.6%,任务完成时间为23.2步。MASAC算法的成功率为90.4%,任务完成时间为21.4步。值得注意的是,BiMASA算法在成功率和时间效率方面都表现出了显著的优势,在任务完成时间仅为19.8步的情况下,成功率达到了91%。这些结果清楚地表明,BiMASA算法在多AUV协同追踪任务中表现优异。BiMASA算法的成功可以归功于弹道预测模块和ABRNN模块的集成,这在提高其成功率和时间效率方面发挥了关键作用。
图6 协同追击过程
在图6中,我们展示了使用BiMASA算法的协作追踪过程的可视化。在时间步t=9,我们观察到一个重要事件,其中一个追赶者在追捕过程中遇到碰撞并崩溃。即便如此,剩余的AUV仍可以通过自适应协调继续执行追捕任务。在时间步长t=17处,追踪者成功捕获目标。实验结果证明了BiMASA算法在处理追踪任务中突发事件方面的鲁棒性和有效性。即使面对碰撞造成的部分失效,其余AUV的协作行为也使它们能够继续追捕并成功捕获目标。
05
总结
CONCLUSION
总结
本研究探索了使用多AUV系统的UIoT入侵目标的协同追求。首先,本文设计了一种基于SDN的多AUV系统网络架构,增强了网络的可扩展性和灵活性。然后,本文构建了一个基于注意机制和LSTM的轨迹预测网络来预测目标轨迹,为学习协同追击策略提供先验知识。在预测目标轨迹的基础上,提出了一种新的MADRL方法BiMASA,用于在AUV局部发生故障时做出实时、准确、分布式和自适应的跟踪决策。该方法创新性地将双向LSTM和MASAC相结合,在提高系统鲁棒性的同时增强了多AUV的协同追踪能力。实验结果表明,所提出的BiMASA算法能够在最短的时间内成功捕获目标。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...