每周文章分享-232

每周文章分享

2025.10.13至2025.10.19

标题: Enhancing Cooperation of Vehicle Merging Control in Heavy Traffic Using Communication-Based Soft Actor-Critic Algorithm

期刊: IEEE Transactions on Intelligent Transportation Systems, vol. 24, no. 6, pp. 6491-6506, June 2023

作者: M. Li, Z. Li, S. Wang and S. Zheng,

分享人: 河海大学——罗铭源

研究背景

随着城市化进程加速与机动车保有量的爆发式增长，城市交通系统正面临前所未有的压力。传统交通控制策略在应对此类复杂场景时，局限性日益凸显。当前主流的定时控制、感应控制等方法，多依赖预设参数或单一检测器数据，难以实时捕捉合流区域内多车辆的动态交互关系。与此同时，智能网联汽车技术与人工智能算法的快速发展，为车辆合流控制提供了新的解决路径。强化学习算法能够通过与环境的持续交互，自主学习最优控制策略，有效应对合流场景中的动态不确定性；而车与车（V2V）、车与路（V2I）等通信协议的应用，则打破了传统控制中 “信息孤岛” 的局限，实现了车辆状态、行驶意图等关键信息的实时共享。

关键技术

在本文中，提出了一种基于通信的软行为批评（CSAC）算法，其核心是融合通信协议与强化学习（RL）技术以优化车辆合流控制。该技术依托车对车（V2V）和车对路（V2I）通信协议，通过路边单元（RSU）检测并传递车辆驾驶状态，使连接和自动驾驶车辆（CAVs）能识别自身物理领导者（同车道紧邻前车）、假定领导者与假定追随者（合流相关车辆），实现车辆间速度协商与行为协调；采用并行参数共享的 Soft Actor-Critic（SAC）智能体架构，各智能体优化包含效率项（车辆速度与最大速度比值）、追尾安全项（基于 DRAC 指标）、合并安全项的共同奖励函数，生成 - 3~+3 m/s^2范围内的连续加速度动作；设计含自车速度、与周围三车的速度 / 位置差、DRAC 值及通信指标的 6 变量简约状态表示，降低高维状态空间复杂度。

该方法的创新和贡献如下：

1）提出了一种基于通信协议和强化学习（RL）的策略，用于改善车辆合流控制的效率和安全性。

2）设计了一种简约的状态表示方法，加速了强化学习算法的训练过程，并使其在高密度交通情况下可行。

3）引入了并行的RL智能体，共享参数，通过优化共同的奖励函数实现合作协同，使连接和自动驾驶车辆能够主动协商和调整速度。在不同的车辆渗透率和交通流组成情况下，利用仿真模型进行了合流控制策略的效果研究，结果表明CSAC算法产生了无碰撞合流轨迹，且在不同交通条件下保证了交通安全，同时显著减少了出行时间。

算法介绍

（1）CSAC算法

图1 提出的CSAC算法网络模型

图1展示了CSAC算法的网络模型。研究中使用的算法是Communication-

BasedSoft Actor-Critic (CSAC)算法，下面是该算法的网络模型：

Actor网络模型：输入：包括车辆的状态信息和其他车辆的行动信息。隐藏层：

通过一系列隐藏层进行特征提取和非线性变换。输出：输出车辆的动作，例如加速度或速度。

Critic网络模型：输入：包括车辆的状态信息和其他车辆的行动信息。隐藏层：通过一系列隐藏层进行特征提取和非线性变换。输出：输出每个车辆的动作-值

函数（Action-Value Function），用于评估选择特定动作的价值。

Communication网络模型：输入：包括其他车辆的状态信息和动作信息。隐藏层：通过一系列隐藏层进行特征提取和非线性变换。 - 输出：输出通信信息，

用于与其他车辆进行协商和协调。

以上是CSAC算法的网络模型，其中Actor网络模型用于生成车辆的动作，

Critic网络模型用于评估动作的价值，Communication网络模型用于实现车辆之

间的合作和通信。这些网络模型共同工作，通过协同学习和优化共同的奖励函数，实现车辆合流。

（2）基于通信的软行为批评算法

A．问题描述

图2 交通网络之间的相互作用

假设在公路入口匝道合并段有一个路边单元检测车辆的驾驶状态并将其发送到cav，以便感知周围车辆的驾驶状态。车对车（V2V）通信技术使cav能够交换信息。如果简单地采用单代理RL算法来获得所有cav的联合动作，动作和状态的数量随着车辆数量的增加而呈指数增长。

图2展示了交通网络之间的相互作用：从图2中的公路入口匝道合并交通部分可以看出，它说明了单道匝道道路连接到单道主干道的典型场景。有潜在碰撞的区域称为合并区，其长度为s。我们认为它是斜坡道路的延伸。S是在一个典型的高速公路入口匝道路段中的加速车道的长度。还有一个控制区，在这个控制区内，提出的策略决定车辆的移动。从控制区进入到合并区的距离为Lcontrol。带蓝色晕的车辆是cav，而带红色外晕的车辆是hdv。

B. 通信协议

图3 通信协议

首先描述了一个CAV的周围环境，包括三个关键的车辆，一个物理领导者，一个假定的领导者，和一个假定的追随者。例如，如图3所示，对于斜坡道路上的车辆0，其物理先导正好是它在同一道路上的紧邻车辆，即车辆3。通过使用x1≤x0≤x2从匝道道路到合并点x0，我们可以得到其假定的先导（车辆1）和假定的从动者(车辆2）。类似的方法也可以适用于高速公路入口匝道合并交通中的任何车辆。现在我们可以找到任意车辆的物理领导者，假定的领导者，和假定的追随者。物理领导者倾向于影响其追车性能，而假定的领导者和追随者倾向于影响其合并性能。当前面的间隙大于120m时，车辆以自由流动状态移动。

C. RL算法

关键要素：顺序决策问题的三个关键要素：状态、行动和奖励。

1）行动选择：本研究旨在生成最佳的速度剖面图，以控制车辆依次通过合并区。因此，车辆的纵向加速度被认为是作用变量。为了保持舒适的驾驶，根据之前基于RL的车辆控制研究，在CSAC代理中，加速度被设置为−3 m/s^2和+3 m/s^2之间的连续变量。

2）奖励设计：奖励功能包括效率项、追尾安全项、合并安全项，保证交通安全，提高驾驶效率。为了提高驾驶效率，一个保持高速的CAV应该得到奖励。因此，在0 km/h到最大速度vmax = 120 km/h的范围内，奖励从0到1单调递增，即奖励值为= v/vmax。

在评估追尾事故风险时。DRAC定义为以下车辆所需的最小减速率，以避免碰撞，如等式所示：

因此，可以获得与等式的追尾碰撞风险相关的奖励价值。

综上所述，得到最终的奖励为：

其中，

3）状态表示：在基于RL的合并策略中，交通状态空间由几个变量表示，反映了任何车辆的合并相关的交通状态。本研究采用六个变量来描述自我车辆和周围三辆车辆所涉及的驾驶条件。第一个变量是自我载体的速度。第二个和第三个变量是自我载体与其身体领导者之间的速度和位置差异（后者减去前者）。第四个和第五个变量分别是DRACi，PL和DRACPF，i。最后一个变量是合作的通信指标。与传统的基于rl的车辆合并策略相比，我们采用了相对较少的状态变量来携带与合并过程相关的关键信息，即使应用于大流量，也能实现快速的收敛性能。

实验结果分析

1. 仿真参数设置

不同控制范围（Lcontrol = 250m、500m、1000m）的RL训练，增加了内存缓冲区（10万），以存储来自并行代理的训练经验，并确保收敛的稳定性。超参数值包括学习rate=0.0003，折扣因子γ =0.99，和训练batch size=64。

对比算法：（1）ACC-based merging strategy （2）MPC-based merging strategy（3）RL1-based merging strategy（4）RL2-based merging strategy

性能评价指标：

（1）总行驶时间（Total Travel Time，TTT）：这是衡量整个交通系统效率的指标。较低的总行驶时间表示交通流能够快速、顺畅地通过合流区域，并减少了交通拥堵；

（2）碰撞潜在指数（Crash Potential Index，CPI）：此指标用于衡量合流区域的交通安全性。较低的碰撞潜在指数表示车辆合流过程中减少了交通冲突和碰撞的风险。

B. 仿真结果

图4 奖励曲线

图5 两种基于RL方法的奖励曲线

图 4 呈现了不同控制范围（Lcontrol=250m、500m、1000m）下算法训练过程中的平均奖励变化趋势，随着训练回合数（Number of episodes）从 0 增加到 25，三种控制范围对应的平均奖励（Ave reward）整体均呈上升态势，且不同控制范围下奖励曲线的增长速率和最终达到的奖励水平存在差异，反映出控制范围对 CSAC 算法训练收敛过程中奖励积累的影响；图 5 则对比了 RL1-based 策略与 RL2-based 策略的奖励曲线，横坐标为训练回合数（0-800），纵坐标为奖励值（Reward），其中 RL1-based 策略的奖励曲线整体高于 RL2-based 策略，且 RL2-based 策略奖励值长期处于负值区间（最低接近 - 0.4），而 RL1-based 策略奖励值围绕 0 附近波动，清晰展现出两种基于 RL 的合流策略在训练过程中奖励获取能力的差异，也从侧面体现出 CSAC 算法相较于这两种基线 RL 策略在奖励设计与学习效果上的优势。

图6 在不同策略控制下的主干道和匝道道路的车辆轨迹

图7 不同交通流量组成中的TTT和CPI值

图 6 展示了不同策略控制下主干道和匝道道路的车辆轨迹，以时间（Time，单位：s）为横坐标、纵向位置（Lon，单位：m）为纵坐标，图中不同曲线分别代表主干道车辆（rveh1、rveh2 等）与匝道车辆（mveh1、mveh2 等）的行驶轨迹，通过对比不同子图（a）-（e）中车辆轨迹的分布与重叠情况，可直观观察到不同合流策略下车辆通过合流区域的秩序差异，其中 CSAC 算法控制下的车辆轨迹更规整、无明显交叉或拥堵迹象，体现其对合流秩序的优化效果；图 7 呈现了不同交通流量组成中的总行驶时间（TTT）和碰撞潜在指数（CPI）值，通过柱状图或折线图形式，清晰对比了不同策略在各类交通流量场景下的 TTT 长短与 CPI 高低，进一步量化验证了 CSAC 算法相较于其他基线策略，在不同交通流量组成中既能有效缩短车辆行驶时间，又能降低碰撞风险，凸显其在复杂交通流量下的性能优势。

总结

本文核心围绕两种强化学习算法展开研究。其一为 CSAC算法，旨在解决车辆合流控制的效率与安全性问题，通过 V2V/V2I 通信协议实现车辆间信息交互与协同决策，采用并行参数共享的 SAC 智能体架构，设计含 6 个关键变量的简约状态表示降低高维空间复杂度，以总行驶时间（TTT）和碰撞潜在指数（CPI）为评价指标，在不同控制范围、CAV 渗透率及合流速度场景下仿真，对比 ACC、MPC 等 4 种基线策略，实现零碰撞合流且最大减少 56.9% 出行时间，同时分析其在通信协同、训练效率上的优势及收敛性、传统方法整合等不足。其二为 DSAC算法，聚焦缓解强化学习中 Q 值过高估计问题，引入分布性学习构建回报分布网络与策略网络，结合最大熵 RL 形成 DSPI 框架，在连续控制任务中对比 SAC、TD3 等 9 种基线算法，以收敛速度和任务执行时间为指标展现更优性能。

END

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

感谢关注！