每周文章分享-147

每周文章分享

2024.02.12—2024.02.18

标题: Path Planning Based on Deep Reinforcement Learning for Autonomous Underwater Vehicles Under Ocean Current Disturbance

期刊: IEEE Transactions on Intelligent Vehicles, vol. 8, no. 1, pp. 108-120, Jan. 2023

作者: Zhenzhong Chu, Fulun Wang, Tingjun Lei, Student Member, IEEE and Chaomin Luo, Senior Member, IEEE

分享人: 河海大学——冯子骁

研究背景

随着海洋科学的发展和人工智能技术的进步，自主水下机器人(AUVs)正朝着自学习和自适应的方向发展。在深海探索中，大多数使用的AUVs都是欠驱动的，路径规划是欠驱动AUV领域的核心问题之一。路径规划的环境可以是静态的或动态的。对于动态环境，全局环境信息是未知的，路径需要实时规划。相对而言，动态环境中的实时路径规划具有更大的实际意义和困难。为了在未知环境中实现路径规划，一些研究人员提出了人工势场算法和强化学习算法。然而，这些算法在复杂环境中计算资源消耗大、实时性差的问题。因此，本文提出了一种基于深度强化学习的路径规划方法，通过改进的卷积神经网络和动态复合奖励函数，提高了AUV在未知环境中的路径规划能力。

关键技术

本文提出了一种改进的双重深度Q网络（DDQN）路径规划算法，用于处理受控自主水下机器人（AUVs）在未知环境中的路径规划问题。该算法不需要先验的全局环境信息，并且设计用于处理包括洋流在内的高维环境状态，使用改进的卷积神经网络结构和两个输入层。此外，该算法还结合了一个奖励函数，模拟洋流干扰，以减小AUV的阻力。为了解决受控AUVs的横向控制问题，采用了非均匀有理B样条路径平滑算法（NURBS），以平滑规划的路径并考虑AUV的动态特性。

该方法的创新和贡献如下：

（1）针对海流干扰下欠驱动AUV的路径规划问题，提出了一种基于改进DDQN的实时路径规划算法。与大多数方法的主要区别在于，所提出的算法不需要环境的先验全局信息。

（2）针对包括海流在内的高维环境状态问题，提出了一种改进的具有两个输入层的卷积神经网络结构来构造DDQN。这为基于卷积神经网络的AUV路径规划提供了一种新的高维信息处理策略。

（3）考虑到欠驱动水下机器人缺少横向驱动器，在侧流航行时阻力极大。因此，在奖励函数中构造了洋流扰动模型。它可以用来近似描述AUV受到不同方向海流干扰时的阻力，从而驱动AUV以最小阻力航行。

（4）考虑到欠驱动AUV的动态特性和最小转弯半径的概念，引入了NURBS算法来平滑DDQN输出的离散动作。它使得规划的路径能够被遵循，并且更符合实际应用。

算法介绍

（1）环境状态

环境状态变量代表AUV当前时刻的局部环境信息。它包括局部状态变量S1和导航状态变量S2。它保证了AUV能够以避障的方式向目标区域行进。

图1 环境状态描述，包括局部状态变量和导航状态变量

(A)局部状态变量

局部状态变量包括海流数据和AUV周围一定距离内的障碍物信息。距离大小n的值可以基于装备有AUV的传感器的检测距离来确定。它被转换成数组S1 = (s1，s2)的形式，其中s1代表洋流的方向。它表示为:

其中χ ∈ [0，360]，该值根据图1来设置。s2是关于洋流和障碍物的矩阵。由于障碍物附近的海流方向多变且存在涡流，因此有必要在每个障碍物周围设置一个禁区，以确保AUV的安全。它表示为：

其中‘1’代表障碍物区域；‘2’表示禁区；“3”是导航区域。

(B)导航状态向量

导航状态向量定义为S2 = (ϑ1，s1，s2)。如图1所示，ϑ1代表矢量 α和矢量β之间的角度，其中 α表示当前点到目的地，β表示从初始位置到目的地的点。该值可以通过下式获得:

方向变量(s1，s2)描述了目的地在AUV自身坐标系中的分布。如图2所示，(s1，s2)被定义为:

图2 描述当前位置和终点位置

（2）动作空间

本文将欠驱动水下机器人视为一种鱼雷状水下机器人。对于这种类型的AUV，一般通过矢量推进或方向舵来改变航向。因此，在水平面内只能实现前进、左转和右转。考虑到AUV的可执行动作是一组离散的神经网络输出，过多的动作会增加训练速度。基于以上考虑，本文选择AUV动作空间集合为A = {a1，a2，...，a5}。如图1所示，a1为左转90度；a2是一个45度的左转；a3代表直；a4是45度右转，a5是90度右转。结合NURBS，在得到完整的动作序列后，可以得到平滑的路径。

（3）深度神经网络

在DDQN算法中，通常采用卷积神经网络(CNN)作为近似。它将环境状态变量作为输入，将动作值Q(s，a)作为输出。由于高维数据在卷积运算后仍然保持原来的位置关系，这一特点符合AUV的路径规划问题。它在不改变位置关系的情况下减少数据量。构建了如图2所示的改进的CNN结构。

图2 基于CNN的AUV路径规划的新神经网络结构

在提出的CNN结构中，有两个输入层、七个隐藏层和一个输出层。隐藏层由两个卷积层、两个池层、两个ReLu激活层和一个全连接层组成。输出层是对应于输出动作集A的Q值。改进了输入层的设置，以适应图3中不同维度的环境信息的输入。输入层包括局部状态变量和导航变量，其中局部状态变量是二维矩阵，导航变量在数学上是一维向量。因此，局部状态变量最初被发送到第一层进行卷积运算。通过改进的CNN的卷积层提取特征变量，保留了障碍物的位置信息。初始的局部状态变量转换成5 × 5的数据集，初始的2048个数据减少到50个数据。通过上述操作，数据量被最小化。

导航变量被发送到第二层。然后，处理后的局部状态变量和导航变量被融合到全连接层中。

（4）奖励函数

在DDQN算法中，用奖励函数来衡量动作a是否正确。这是最关键的因素之一。当执行行动以帮助实现目的地时，给予正奖励，而当AUV远离目标或发生碰撞时，给予负奖励。因此，根据AUV航行过程中环境和海流的影响，引入了一个动态的复合奖励函数。与传统的固定奖励值不同，所设计的奖励函数可以分为五个动态奖励项。奖励函数可以表示为:

其中，

Rτ1代表距离奖励函数。如图1所示，dτ和dτ+1分别表示在时间τ和时间τ+1从当前位置到目的地的距离。k1是权重系数。如果(dτ-dτ+1)为正，则意味着AUV更接近目的地。然后回报会更大。

Rτ2表示导航奖励函数。如图1所示，ϑ2代表dτ和dτ+1之间的角度。k2是权重系数。如果角度更小，表明此时AUV选择的路径长度最接近直线上的距离，奖励会更大。

Rτ3表示洋流扰动奖励函数，以代替洋流扰动模式。ϑ是AUV的方向和洋流方向之间的角度。本文将欠驱动水下机器人视为鱼雷。它不能有效地抵抗洋流的横向冲击。因此，在路径规划中应避免AUV航向垂直于海流方向的情况。当ϑ为90度时，奖励会有一个最大的负激励。相反，当ϑ为0度或180度时，奖励为正奖励。k3是洋流的速度。它们之间的关系如图3所示。

图3 洋流方向与AUV航向之间的角度图示

Rτ4是最终奖励值。当AUV到达目的地时即可获取。

Rτ5是AUV在时间τ的碰撞奖励，设置为固定值。在没有碰撞的情况下，会获得k4的正加值，如果发生碰撞，则给出-200。让AUV意识到禁止碰撞。

考虑到DDQN所给出的动作是离散的，为了实现动作的连续性，提出了一种光滑DDQN（SDDQN）算法。基于DDQN的输出，使用NURBS平滑动作。这样，规划的动作更适合AUV的实际运动控制。因此，算法1概述了在海流干扰和未知环境下基于改进DDQN的DRL伪码。在算法1的第1行中，Y是训练次数，Q是卷积神经网络的结构，S是环境状态变量，N是经验重用集的容量，X是目标Q网络权重参数的更新频率，ω是神经网络权重参数，γ是学习率。

实验结果分析

1.仿真环境

为了验证所提出的路径规划算法的有效性，配置了如图4所示的带有随机非结构化障碍物的仿真环境。特别是在仿真环境中考虑了海流的影响。蓝紫色区域代表障碍。灰色区域表示在障碍物一定范围内禁止导航。该距离通常设定在3 m至5 m的范围内。恒定海流由青色区域表示。路径规划的目的是使AUV能够从起点移动到终点。表中总结了模拟配置和参数。

图4 考虑洋流的具有任意形状障碍物的模拟环境

2.仿真结果

（A）洋流模拟：

图5 北向洋流影响下的训练结果

随着训练次数的增加，奖励值逐渐增加，不合理行为减少。特别是，动作a5从28个步骤减少到6个步骤，与开始时相比，奖励更大，从39.54至63.42。经过3000次训练，规划的路径是合理的，回报是巨大的。结果表明，该方法可以缩短AUV垂直于海流方向航行的时间。它具有抗海流干扰的能力，更符合实际应用。

（B）无洋流模拟：

无海流干扰的AUV路径规划结果如图6所示。除了海流扰动奖励函数外，训练参数与图6相同。

图6 无海流干扰的AUV路径规划结果

由图5和图6可知，图5中选择的路径需要同时考虑洋流和障碍物的影响。而图6中只需要考虑障碍物的影响。当考虑洋流扰动时，向东和向西的动作不会使欠驱动AUV被跟随，并且在障碍物密集的区域更容易发生事故。随着训练次数的增加，东、西的动作逐渐减少，如图5（d）所示。图5 (c) 和 6(c) 是最后一次训练的结果，累积奖励几乎总是在增长。很明显，AUV 每次的选择都是正确的。通过比较，所提出的DDQN算法能够有效地进行洋流扰动下欠驱动AUV的路径规划。

（C）已知环境中的模拟

在这一部分中，将所提出的方法与传统的全局规划方法进行比较，并从路径长度、行程时间和平滑率的角度说明该方法的有效性。PRM、RRT和APF算法也可以有效地解决高维空间和复杂约束条件下的路径规划问题。适用于复杂环境下的AUV路径规划以及环境信息已知时的动态环境。PRM和RRT的值作为50次执行的汇总。PRM采样点的数量设置为500。RRT的最大迭代时间设置为500000，最大连接距离设置为4。APF的排斥系数和重力系数分别设置为0.3和0.2。模拟结果如图8和9所示。

图8 由 PRM、RRT、APF、DDQN 和 SDDQN 路径规划器生成的结果。在路径规划之前就已经知道起点、终点和障碍物。

图 9由 PRM、RRT、APF、DDQN 和 SDDQN 路径规划器生成的结果。在路径规划之前就已经知道起点、终点和障碍物。

在已知仿真训练环境和孤岛环境下，分别对PRM、RRT、APF、DDQN和SDDQN的路径长度、路径平滑度和行程时间进行了比较。表二中记录了相应的数值结果。

从表II可以看出，SDDQN的平均路径长度最短，为261.7893米。在地图1中进行NURBS算法处理后，路线比其他算法更连续、更平滑。然而，行程时间为628.7118秒，比PRM算法长（568.337秒），比APF和RRT算法短（分别为695.1425秒和945.4864秒）。这是因为所提出的DDQN算法只知道局部环境信息。从仿真结果来看，在只知道局部信息的前提下，该方法仍能实现类似于全局路径规划方法的规划生成，验证了该方法的有效性。

总结

本文提出了一种改进的DDQN算法框架，用于洋流扰动和未知全局环境信息的欠驱动AUV路径规划。改进后的CNN具有两个输入层，确保了不同维度环境状态变量的融合。动态复合奖励函数有效地进行了海流扰动下的局部避障路径规划。仿真和对比结果验证了改进的DDQN算法能够实现路径规划，并且在已知环境下借助NURBS能够有效地实现更好的规划。它比PRM、APF、RRT/RRT*、GA、PSO和QPSO路径规划算法更适合在环境未知且海流扰动的情况下进行实时路径规划。

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

责任编辑：何宇