研究团队
赵思博,朱建文,李小平:西安电子科技大学
包为民:中国航天科技集团
文章下载
SiBo ZHAO, JianWen ZHU, WeiMin BAO & XiaoPing LI. A unified intelligent control strategy synthesizing multi-constrained guidance and avoidance penetration. Sci China Inf Sci, 2024, doi: 10.1007/s11432-022-4063-x
研究意义
高超声速飞行器主要滑翔飞行在临近空间,具有射程远,飞行速度快的特点。由于不可控因素,飞行器同时遭受多禁飞区威胁,主要的飞行任务被分解为满足终端多约束制导与禁飞区规避。规避飞行对原有的纯制导弹道产生一定的影响,对于考虑终端约束的禁飞区规避问题,侧向规避机动是一种可行的绕飞策略,总体上,拦截区域越大,侧向机动的幅值越大。如何求解满足飞行器制导与能量损耗约束条件的侧向机动策略成为研究的关键。
图1 侧向规避示意图
本文工作
针对飞行器多约束制导与多禁飞区规避问题,本文提出了基于最优制导和深度强化学习的智能机动制导策略,如图2所示。
图2 一体化规避制导策略
采用最优制导律满足飞行器终端经纬度和高度约束,基于深度强化学习方法有效提升决策的智能化水平。考虑到规避飞行与纯制导之间深度耦合作用,通过增加侧向机动,设计了一体化规避制导方案,实现规避飞行与多约束制导的协调统一。在飞行器侧向构建了规避制导决策模型,并基于飞行状态与侧向机动过载设计状态与动作空间,通过预测终端多约束状态与禁飞区穿越时间,设计动作评判机制。采用SAC网络对智能控制策略进行求解,结合最优制导律得到飞行总过载。
本文的创新点如下:
(1) 提出了一种综合考虑机动规避与多约束制导的控制策略,有效降低规避对制导精度的影响。
(2) 采用预测方法对飞行器终端状态进行估计,增加过程奖励,有效增强了训练效率。
(3) 对网络训练过程进行改进,飞行环境初始化时,通过增加禁飞区与目标点位置偏差以增强算法适应性。
实验结果
以CAV-H为飞行器模型,验证规避制导策略的可行性。以三个禁飞区为例,网络训练与测试结果如图3所示。
图3 训练结果:(a)终端奖励值; (b)飞行轨迹; (c)高度; (d)速度
图3(a)表示训练过程中终端时刻奖励值变化情况,在初始训练阶段,SAC网络不断探索策略,并且DNN参数没有优化。随着网络的训练,动作网络探索到更多的较优策略,终端奖励值收敛到最大值,网络参数逐步稳定。图3(b)表示机动制导轨迹,与纯制导轨迹相比,训练得到的规避策略满足高精度制导并实现高效规避。如图3(c)所示,机动飞行满足高度约束,在滑翔终端时刻飞行高度接近30 Km。如图3(d)所示,在规避禁飞区时,侧向机动带来一定的速度损耗,飞行速度接近2800 m/s。
为了验证基于SAC方法的优越性能,与基于航路点规避的方法进行对比。通过计算出接近禁飞区的轨迹点,结合分段式制导设计规避方案,计算航路点规避方案用G1表示,本文所提方案用G2表示。表1记录了终端速度、位置偏差、禁飞区穿越时间数据。与G1相比,G2方案对应的终端速度更大。
表1 不同禁飞区位置对应的训练结果
通过仿真分析,可以得出以下结论:
(1) 一体化规避制导方案能够有效解决规避飞行与纯制导之间深度耦合问题,能够在多飞行约束条件下,降低机动飞行带来的制导偏差与能量损耗。
(2) 通过与基于航路点规避的方法相比,飞行器采用本文所求解的策略能够实现以更小的能量损耗完成规避制导任务。
(3) 采用预测终端飞行状态的方式计算过程奖励值,该方案有效解决了训练过程中奖励值稀疏的问题,并且通过改进训练流程,策略的适应性有所提升。