2024.09.30-2024.10.06
每周文章分享
标题:The Unified Task Assignment for Underwater Data Collection With Multi-AUV System: A Reinforced Self-Organizing Mapping Approach
期刊: IEEE Transactions on Neural Networks and Learning Systems, vol. 35, no. 2, pp. 1833-1846, Feb. 2024
作者: Han Song and Zhang, Tao and Li Xinbin and Yu Junzhi and Zhang Tongwei and Liu Zhixin
分享人: 河海大学——胡仔凡
01
研究背景
近年来,由于海洋勘探和利用需求的不断增长,水下数据采集越来越受到学术界和工业界的关注,由于水声通信的局限性,自主水下航行器(AUV)已被广泛采用作为移动采集器来协助传感器收集数据。因此,在大海域上实施多AUV系统数据采集一直是一项至关重要的任务。任务分配对于有效提高多AUV系统数据收集问题的性能起着至关重要的作用。有效的工作负载平衡有利于提高AUV的协作效率,避免任务不平衡问题和部分AUV能量过早耗尽。然而AUV在洋流的作用下向不同方向移动时,其工作负载是不同的,因此,应采用合理的水下工作量衡量标准,并通过便捷有效的机制实现工作量平衡
02
关键技术
在本文中,提出了利用增强的自组织映射(Self-Organizing Maps, SOM)算法来解决多自主水下航行器(AUV)系统中的水下数据收集任务分配问题。通过区域学习率来综合考虑单个任务的价值和任务的拓扑结构来制定区域响应偏好,从区域角度动态整合任务的重要性和访问成本。区域学习率可以使所提出的 RSOM能够在统一框架中的各种约束下有效地解决定义的情况旅行商问题。提出了一个适应进化神经元群体(AENP)策略和历史信息指导(HIG)机制自适应地优化神经元群体,从而提高学习效率。此外,采用巡航时间而不是行驶距离来准确测量每台AUV的工作量。综合考虑工作能力和能耗来调整AUV之间的工作量。因此,任务平衡性大大提高,延长了多AUV系统的连续工作能力。
该方法的创新和贡献如下:
1)本文提出动态区域学习率来一致地解决S-TSP。综合考虑个体任务(紧急情况)的价值和任务(非紧急情况)的拓扑结构,从区域而不是个体任务的角度来确定响应偏好,可以有效地有助于统一S-TSP的一致求解
2)提出的自配置神经元(SCN)策略通过自适应优化神经元群体极大地提高了学习效率。所提出的AENP策略基于神经元的定量映射能力,在数量和质量方面优化神经元群体。同时,所提出的HIG利用历史信息来指导神经元的更新,以增强映射能力和学习效率。
3)提出的工作负载平衡机制可以延长具有各种工作能力的多AUV系统的连续工作能力。综合考虑能源消耗和洋流等因素,为各AUV设定可作业性相关参数,使其在一体化状态下竞争任务。因此,可以在低信息交互的情况下有效地实现工作负载平衡。
03
算法介绍T
(1)系统模型
图1 数据收集的水下任务分配场景
本文考虑的是水下领域的多无人潜航器数据采集场景。根据规定时间的不同,数据采集的任务分配可分为两类:非紧急情况和紧急情况。如图 1 所示,所有传感器节点随机部署在水下收集数据。每个 AUV 应访问其指定的传感器以获取数据,然后返回其基站。
在水下场景中,洋流的速度为v c,规定时间记为C,传感器(任务)记为M,任务m位于位置tm。鉴于信息价值是数据采集的重要指标,采用奖赏来衡量传感器m的信息奖赏价值。传感器和 AUV 配备了用于通信的声学调制解调器,每个任务m的通信半径rm由于功率和环境条件而变化。因此,如果传感器与航路点之间的距离小于rm,则传感器m的数据可以被AUVi成功采集。如果AUVi采集到传感器m的数据,则AUVi获得相应的奖励。
(2)多AUV分配问题的SOM模型
图2 SOM架构
如图2所示,在两层神经网络SOM结构中,输出层中的神经元迭代更新神经网络,以竞争的方式找到输入层的准确映射。圆形拓扑结构如图2所示。在本研究中,每个输入神经元对应于一个任务m的坐标tm。在输出层中,每个环对应一个AUV,其中输出神经元代表可能的航路点。每个神经元环由一组神经元Ki组成,其中每个输出神经元 ki 的权重为位置pki。
总的来说,本文的主要实现方式如下,任务首先以随机顺序输入作为输入神经元以逃避局部极小值,然后输出神经元在指定规则下相互竞争;最后,神经元根据邻近函数更新其权重。一个epoch被定义为所有任务都被输入一次,然后,epoch循环直到满足终止条件。最终的一组输出神经元(路径点)形成了每个 AUV 访问指定任务的最终旅行路线。
本研究旨在持续解决为多无人机系统定义的S-TSP,这是一个具有不同情况的任务分配问题。复杂的约束条件包含不同的通信半径和任务奖赏,以及有限的工作能力和规定时间,需要综合、共同考虑。传统的SOM由于学习效率低、响应偏好单一等缺陷,无法有效解决具有复杂约束条件的S-TSP。因此,本文提出了RSOM来解决所定义的 S-TSP 问题。
A. 初始化
基于给定的 SOM 模型,输入神经元是任务m的一组位置向量。每个由输出神经元组成的神经元环对应一个 AUV。对于每个AUVi,在基站1i周围随机创建M/I个输出神经元。输出神经元的权重由其位置坐标 pki表示。因此,对于每个 AUV,可以获得神经元竞争任务的初始循环行程。最终,利用环形拓扑导出访问指定任务的闭环路径。
B. 工作负载平衡的获胜者选择机制
在获胜者选择过程中,输出神经元竞争输入神经元成为获胜者神经元,同时确定获胜者AUV。因此,获胜者选择规则直接决定哪个神经元将成为获胜者神经元并影响任务分配结果。在传统的获胜者选择规则中,获胜者仅根据其与任务的距离来确定,考虑到洋流的影响,距离 dki ,m 无法反映水下环境所需的成本。因此,本文用相应的巡航时间(dki ,m /vi,c)代替距离 dki ,m 来衡量竞争中的成本。此外,由于指标单一,传统规则会造成任务不平衡问题。具体来说,巡航时间越长(即 Cmax i 越大)的 AUV 应分配到更多任务,以充分发挥其工作能力。反之,则应为巡航时间成本 Ci 较高的 AUV 分配少量任务。根据上述思路,本文提出了如下优胜神经元选择机制:
其中巡航时间cki,m能准确反映任务 m 的竞争成本。λiCi为AUVi的相对能耗。在充分考虑工作能力和能耗的基础上,工作能力Cmaxi越大的神经元,即使其 cki ,m 和 Ci 比其他神经元稍大,也有更大的概率被选为优胜者。因此,所提出的优胜神经元选择机制可以成功地为不同的 AUV 分配合理的工作量,解决任务不平衡问题,从而提高连续工作能力。
C. 自配置神经元策略
在本研究中,将所有输出神经元定义为神经元群体。获胜者的选择和更新过程都是基于神经元群体的分布。本质上,S-TSP问题的解决方案可以被视为神经元群体相对于任务的精确分布。因此,理想的神经元群体及其分布特征有利于算法的性能,如学习效率、收敛速度和合理的计算复杂度。
不同的神经元在响应任务的能力方面具有不同的价值。因此,应该添加更高价值的神经元来提高神经元群体的质量,从而优化分布并提高学习效率。相应地,应删除价值较低的神经元,以减少无效计算;从而可以降低算法的复杂度。基于上述分析,提出AENP策略。首先介绍NA机制,其次介绍ND机制。
NA机制在获胜者选出后实施。如果获胜者神经元已被选为获胜者两次,则所提出的 NA 机制将使用获胜者神经元的信息复制一个新的神经元 。这两个神经元属于同一个神经元环。然后,原神经元根据更新规则向当前任务m更新,而附加神经元保持其位置。根据这种设置,双神经元被分开。与传统的渐进更新相比,直接添加高价值神经元大大提高了学习效率。
虽然通过添加神经元可以提高学习效率,但神经元群体规模的增加也增加了计算负担。因此,应该删除低价值的神经元,考虑到获胜神经元拥有最高的价值,本文通过将映射能力与获胜神经元的映射能力进行比较来衡量相邻神经元的潜在价值,即:
最终的删除规则:errki大于平均误差errki,ave的神经元应该被去除。
D. HIG
神经元的每次更新都是从其当前位置(权重)到输入任务位置的递进。换句话说,每次更新都可以描述为一个向量。因此,每个神经元的当前权重是所有与探索和利用相对应的更新向量的综合结果。基于上述分析,神经元的探索性在更新规则中受损。本文提出了 HIG 来增强神经元的开发信息。HIG 是与每个神经元的开发相对应的所有向量的合成向量。
具体来说,神经元 ki 的利用率是指对吸引它成为获胜神经元的任务的更新。同时,神经元 ki 可能不止一次成为获胜神经元。因此,所有关于利用率的更新向量都应合成一个向量,以增强更新规则中的利用率。基于上述想法,本文提出的 HIG F(ki,Mtki) 定义如下:
Mtki 是神经元 ki 的历史任务集,每个任务mki都会吸引神经元 ki 成为获胜神经元,并根据学习顺序依次存储在Mtki中。δmki是每个更新向量的权重值,任务 mki 越新,其更新向量的权重δmki就越高。ψ是总信息引导的权重参数,神经元 ki 与任务 mki 之间的距离决定了任务 mki 的更新强度。所有这些更新向量合成一个向量,即HIG F(ki,Mtki),表示神经元 ki 在方向和大小上的总利用率。
通过F(ki,Mtki) 来指导邻近神经元的更新,具体如下:
E. 区域学习率
从非均匀任务分布的角度来看,任务是随机分布的并且具有不同的通信半径,因此,某些任务可能位于相邻位置,或者它们可能拥有一些经常访问的区域。访问任务m的时间成本也与任务m所在区域内的其他任务分担。因此,本文根据任务区域来确定学习率(响应偏好),而不是单个任务来获得综合评估。本文提出价值 m 的区域任务来评估剩余任务 m 所在的任务区域,如下所示:
区域任务价值 Φm 中的第一项表示任务集 Mm,nei 的加权总奖金。第二部分表示访问任务 m 的最小成本。当然,该区域任务的总奖金及其相应的访问成本决定了所建议的学习率。每个任务m都由的区域任务价值 Φm 来衡量。根据计算出的的Φm,计算相对区域任务价值 ηm 如下:
ηm反映了任务 m 的相对价值。ηm越高,表示区域任务价值Φm越高。根据 ηm ,对任务进行划分。然后,对价值高的任务做出积极响应,对价值低的任务做出消极响应,从而形成响应偏好。响应偏好由学习率 μ 和自适应参数 ηm 共同决定。
04
实验结果分析T
1. 实验设置
为了验证所提出的解决S-TSP问题的统一框架,对两种情况进行了模拟:非紧急情况和紧急情况,这两种情况通过规定时间C进行区分。此外,每种情况都包含三个不同的任务场景大小(小型、中型和大型场景),以进一步评估所提出的 RSOM 的可扩展性和优越性。任务随机分布在进行模拟的 3D 工作区中。每艘AUV从基站出发,完成指定任务后返回。模拟场景的具体参数如表1所示。
表1
2. 实验结果
表2 平均性能比较
图3 非紧急情况性能比较
图4 紧急情况下性能比较
无论是在非紧急情况还是紧急情况下,所提出的 RSOM 都比 SOM、SSOM 和 ISOM 算法具有显着优势。
首先,本文分析非紧急情况下的性能比较,在非紧急情况的中间任务场景中,所提出的RSOM获得的F分别比SOM、SSOM和ISOM高275%、276%和6.4%。所提出的RSOM所实现的优越性能F受益于两个方面:高奖金收集和低能耗,最高的R保证了最高的奖品收集。从能耗的角度来看,所提出的区域学习率综合了任务拓扑结构和任务的不同通信半径,以执行有效的区域更新。因此,在对特定任务进行更新时,神经元也会对其附属任务区域进行更新,其中包括 AUV 的潜在访问任务。其结果是,访问任务的成本由该区域内的所有任务分担,从而降低了总访问成本。此外,考虑到洋流的影响,本文采用了时间成本而不是距离成本,这样可以更准确地反映实际成本。因此,总访问成本得以降低。总之,提出的区域学习率和合理的成本度量保证了提出的 RSOM 在任何任务场景下都能实现优越的 R 值。
接着本文分析了所提出的 RSOM 在紧急情况下的性能。值得注意的是,紧急情况下规定时间稀缺的设定,不可避免地决定了任务分配率R不可能达到100%。所提出的RSOM实现了与非紧急情况下相同的优越性能。在紧急情况下,所提出的 RSOM 相对于 ISOM 的性能优势更为显着。例如,就F而言,所提出的RSOM超过ISOM,从非紧急情况下的1.3%、6.4%和10.6%提高到紧急情况下的8.3%、26.6%和63.0%。对于专为非紧急情况设计的 ISOM,所有任务的学习率都是相同的。然而,在紧急情况下,响应偏好对于获得更高的 F 和 R 至关重要。虽然 SSOM 通过调整其相应的学习率来实现对每个输入的响应偏好,但这种响应偏好只考虑了每个单个任务的成本,而忽略了各个任务的差异。任务价值。相比之下,所提出的区域学习率同时考虑了拓扑结构和任务的价值。如上所述,考虑拓扑结构的区域学习方式使得能够以更少的成本(时间)访问任务。根据提出的相对区域价值 ηm,动态识别高价值区域并给予更高的响应偏好。当前的高价值任务区域可以被优先分配和访问,从而获得高性能(R 和 F)。因此,所提出的区域学习率可以极大地提高所提出的RSOM在紧急情况下的性能。此外,所提出的 RSOM 在每个任务场景中以最小历元 T 收敛,但与 ISOM 相比,Tc 稍长。正如上面介绍的,所提出的 RSOM 极大地提高了任务分配的性能,只是稍微牺牲了每个 epoch 更长的计算时间。因此,所提出的RSOM在紧急情况下的有效性和适应性得到了充分验证。
基于这些仿真结果和分析,所提出的RSOM在非紧急情况和紧急情况下都可以实现优异的性能。此外,两种情况下三种规模场景的结果可以有效地验证所提出的RSOM在使用统一框架一致解决定义的S-TSP问题方面的卓越能力。
05
总结T
本文解决了多AUV系统收集数据的任务分配问题。首先,制定定义的S-TSP,将两种情况整合为一个统一的优化问题。然后,所提出的区域学习率基于动态任务区域,考虑剩余单个任务和重构拓扑的价值,以一致地解决定义的 S-TSP 以获得满意的性能。此外,所提出的AENP策略和HIG极大地提高了算法的学习效率,保证了在各种任务场景下的优越性能。未来,可以根据区域和一致性的思想设计更通用、更高效的学习结构,可以解决任务分配问题的各种变体。
- END -
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...