此篇文章发布距今已超过148天,您需要注意文章的内容或图片是否可用!
摘 要:无人机面临先进干扰技术的挑战,易受恶意节点攻击、数据截取和篡改,传统的抗干扰决策存在一定局限,无法根据干扰信号的变化进行自适应调整,而基于深度强化学习(DeepReinforcement Learning,DRL)的抗干扰通信模型需要长时间与环境交互,对抗干扰的环境要求较高。研究了基于 Decision Transformer 的离线抗干扰方法,其能快速稳定地获得实用的抗干扰决策模型。仿真试验验证了该算法在加性高斯白噪声信道和衰落信道环境下抗干扰决策的有效性,且该离线方案在训练迭代次数较少时便能达到预期奖励目标。1.2 基于 Decision Transformer 的离线抗干扰决策无人机(Unmanned Aerial Vehicle,UAV)凭借低成本、部署快、高机动性被广泛应用于民用领域和军用领域。但无人机终端通过无线网络进行通信,易受恶意节点攻击、数据截取和篡改,而文献 [1]提出一种人工噪声在多输入多输出(Multiple-Input Multiple-Output,MIMO)通信系统,并验证了其抗干扰效果。通信干扰严重威胁 UAV 的通信安全,此外软件无线电技术的出现大大降低了攻击门槛。为应对这些安全威胁,传统的抗干扰技术例如跳频、扩频、时隙变换、功率变换、通信速率变换 及抗干扰决策库等方法均存在一定缺陷,且只能针对部分干扰。文献 [6] 将机器学习算法应用于通信抗干扰领域,表现出优异的适应性和判别干扰信号的能力。文献 [7-8] 提出了一种基于 Q 学习的中继通信抗干扰算法,该算法可以通过信道跳频来避免恶意干扰。文献 [9] 提出了一种改进的基于 Q 学习的跳频策略,为宽带通信系统在发射机和接收机不完全理解干扰模式时受到干扰攻击提供了解决方案。文献 [10] 设计了一种递归卷积神经网络方案,用以处理信号瀑布图,以获得有限状态并获得最优的抗干扰策略。文献 [11] 将循环神经网络(Recurrent Neural Network,RNN)与深度 Q 网络(DeepQ-Network,DQN)相结合,有效地提高了系统的抗干扰性能。Decision Transformer(DT)作为一种新型的离线强化学习方法,将强化学习问题转化为顺序预测问题 ,加快了学习过程。此外,文献 [15] 基于领域知识复用的快速抗干扰通信方案,通过利用状态—动作对之间的相似性加速学习。虽 然 基 于 强 化 学 习 和 深 度 强 化 学 习(Deep Reinforcement Learning,DRL)的自适应决策方案解决了传统案例解决方案的一些缺点,但在复杂环境中由于状态空间的高维度问题,DRL 需要与环境的长期交互才能实现稳定训练,这是无人机终端无法承受的。本研究的重点是充分利用地面主站的计算能力,构建由地面主站—控制端—无人机终端构成的 3 层架构,研究基于 DRL 抗干扰决策轨迹离线训练的时序预测模型,以增强无人机通信链路的抗干扰能力。如图 1 所示,无人机的抗干扰架构中,由无人机终端、控制端和地面站组成的 3 层结构起着至关重要的作用。无人机终端负责采集数据和执行控制命令,控制端作为中间层,执行轻量级数据处理和计算,并发出控制指令,地面站则承担大规模数据处理、存储和高级分析的任务,提供必要的计算能力以支持决策过程。通信抗干扰决策过程分为 3 个阶段:首先,控制端在固定时隙发送试点数据至无人机终端,无人机终端发送相同数据回传至控制端,控制端根据回传的数据分析误码率或丢包率,若通信状态异常,指示终端降低功率并启动干扰检测;其次,地面主站通过上行链路数据提取干扰信号的特征,使用机器学习识别干扰,并通过反馈链路通知终端;最后,地面主站会根据干扰信息更新传输策略,并指导无人机终端进行数据的重新上传,以优化通信质量。整个抗干扰决策可抽象为马尔可夫决策过程(Markov Decision Process,MDP),包括状态空间、动作空间、即时奖励和动作函数,实现智能抗干扰决策。动作空间定义了在收到主站反馈后,可以在下一个传输时隙之前采取的所有可能行动。这些行动包括更改传输信号模式、符号速率、编码方式、信 干 噪 比(Signal to Interference plus Noise Ratio,SINR)和抗干扰方法。动作空间的设计旨在确保DRL 算法的稳定性,允许系统在遇到干扰时,根据当前状态和动作选择最合适的抗干扰策略。奖励空间是智能体当前行为的反馈,设计奖励模型时主要考虑通信质量、通信速率、SINR、信号处理时间和信号带宽 5 个部分。奖励模型旨在当节点与主站间的传输链路受到干扰时,鼓励节点做出优化的抗干扰决策。对通信质量和通信速率预设了阈值,只有在达到这些阈值时,智能体才能获得正面奖励,从而促进更有效的通信策略。DQN 网络是一种结合了深度学习和强化学习(Reinforcement Learning,RL)技术的方法,旨在让无人机学习最优的抗干扰通信策略,通过记录环境中的每次变换,包括当前的状态将采取的行动实时的奖励函数及下一个状态进行学习。这些状态和动作被存储在经验回放缓冲区中,使得学习过程中能够利用丰富的历史数据集。在 DQN 中,目标 Q 网络的使用旨在减小 Q 值的估计误差,使 Q(s,a) 的学习值接近最优 Q 函数。通过从经验回放池中随机采样一批数据,并利用这些样本对模型进行迭代优化,直至主网络收敛。在前向传播过程中,网络通过从输入层到输出层逐层计算网络输出每一层都经过连接权重 W(c) 和偏置 Θ(c) 的线性变换,并通过激活函数 ϕ。而反向传播过程则依据输出单元的误差来调整网络参数,以优化网络性能。通过对 DQN 的持续训练和优化,无人机可以逐渐学习到在特定环境下的最优抗干扰通信策略。但在面对大型状态空间时,大量的状态和操作可能会导致历史经验无法涵盖新状态的情况。这可能导致智能体在训练期间无法学习新策略,甚至面临训练崩溃的风险。1.2 基于 Decision Transformer 的离线抗干扰决策Decision Transformer 是一种结合了序列模型和RL 技术的算法。目标是通过状态、动作和累积奖励序列中直接预测下一步动作来解决决策问题。Decision Transformer 以状态动作和奖励序列为基础,构建用于决策的序列模型。其中,状态模型由干扰方法干扰功率节点 i 传输的信号功率传输信号带宽信号处理时间和通信质量组成。动作为调整节点的传输信号模式符号速率编码方法和抗干扰方法奖励模型由 5部分组成:通信质量、通信速率、SINR、抗干扰处理时间和信号带宽。决策过程的核心是利用历史状态数据和预测下一最优动作这一序列可以表示为:式中:γ 为折扣因子;T 为时间范围的上限;为时间步长 t+k 获得的即时奖励。DT 将累积收益作为输入参数之一,让模型直接利用累积的回报信息来指导决策,以预测在当前状态下要采取的最佳行动。通过这种方式,DT Decision Transformer 可以有效地捕获 RL 任务中的关键信息。当模型接收到当前状态和目标累积回报时,它输出对下一个动作的预测式中:为 θ 参数化的 Decision Transformer 模型。随后通过最小化预测动作和实际动作之间的差异进行训练。损失函数可以表示为:式中:为数据集;为损失函数。DT 的训练过程包括优化其参数 θ,以最小化整个训练集的预测误差。通常,该过程通过梯度下降或其变体来实现。可以将学习率 α 下的训练优化过程表示为:可以看出,Decision Transformer 依赖于从历史经验中获得的状态—行动—奖励序列。不同的 DRL算法会影响训练序列中状态、动作和奖励的分布,从而在一定程度上影响 DT 模型的训练结果。因此,可以构建整个系统框架,第 1 部分:该部分是控制端,它收集或记录每个节点(代理)的历史决策数据,并上传到地面站。第 2 部分:地面站组织和过滤智能体的历史决策轨迹,以创建训练数据集。第3 部分:该部分是轨迹数据,用于离线训练 DT 模型,得到通用的抗干扰决策模型。模型参数与各节点共享,用于抗干扰决策推理。节点的抗干扰决策问题可以转化为训练时间神经网络的问题。此外,本文充分利用了 UVA3 层模型的灵活性,在地面站训练 DT 模型。在收集和记录每个节点的历史决策数据的阶段,将第 i 个智能体节点的集合表示为第 i 个代理节点的历史决策数据为随着控制端与主站的不断交互,决策数据不断积累。当终端的 DRL 模型被稳定训练时,会以固定的时间间隔将数据上传到主站。如果终端的 DRL 模型不稳定或崩溃,其历史决策数据将不会上传到主站。利用 Python 3.9 和 gym 包开发自定义的强化学习环境。利用 Pytorch1.12 框架和 CUDA11.6 部署深度学习网络。AWGN 和衰落信道环境中 DQN 和 DT的训练和评估情况如图 2 所示。图 2(a)中在训练次数较低的情况下,累积奖励也较低,随着训练次数的增加,奖励值也不断提高。可以看出,在相同的信道环境中,DQN 的奖励效果较优于 DT,但是 DQN 训练花费时间较长,在 DT 算法中且较高的Target 下,训练所需要的轮数更低且也有较好的抗干扰效果。(b)Decision Transformer 在衰落信道下的奖励(d)Decision Transformer 在 AWGN 信道下的奖励图 2 AWGN 和衰落信道环境中 DQN 和 DT 的训练和评估情况在无人机通信的 3 层架构下,依靠地面主站—控制端—终端方案,使用基于 DT 的通信抗干扰决策方案,克服了传统 RL 和 DRL 在线训练收敛慢、节点间交互时间过长的问题,在 AWGN 信道下离线决策方案能够实现与 DRL 模型相同的性能,且所需迭代次数更少。而在衰落通道条件下,新的DT 模型在选择合理训练数据的情况下表现良好,能取得更好的抗干扰效果。引用格式:唐韬 , 赵润晖 , 冯学炜 , 等 . 基于离线学习的无人机网络抗干扰通信方案 [J]. 通信技术 ,2024,57(5):495-499.唐 韬,男,硕士,主要研究方向为无线通信系统安全;
赵润晖,男,博士,主要研究方向为无线通信系统安全;
冯学炜,男,硕士,主要研究方向为无线通信系统安全;
石伟宏,男,硕士,主要研究方向为无线通信系统安全;
文 红,女,博士,教授,主要研究方向为无线通信与通信安全;
彭钰琳,女,硕士,主要研究方向为无线通信系统安全、边缘计算安全。
编辑:陈十九
审核:商密君
大家好,为了更好地促进同业间学术交流,商密君现开启征文活动,只要你对商用密码、网络安全、数据加密等有自己的独到见解和想法,都可以积极向商密君投稿,商密君一定将您的声音传递给更多的人。注:内容均来源于互联网,版权归作者所有,如有侵权,请联系告知,我们将尽快处理。 推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
宙飒天下
还没有评论,来说两句吧...