第44卷第1期2022年2月
指挥控制与仿真
CommandControl&Simulation
Vol 44㊀No 1Feb 2022
文章编号:1673⁃3819(2022)01⁃0103⁃09
基于深度强化学习潜艇攻防对抗训练指挥决策研究
郭洪宇,初㊀阳,刘㊀志,周玉芳
(江苏自动化研究所,江苏连云港㊀222061)
摘㊀要:潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队㊁反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验㊂为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(ProximalPolicyOptimization,PPO)算法改进机制,开展互博弈对抗和分布式训练,最
终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考㊂关键词:智能指挥决策;深度强化学习;近端策略优化算法;互博弈
中图分类号:E917㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀DOI:10.3969/j.issn.1673⁃3819.2022.01.015
ResearchonCommandDecision⁃makingofSubmarineAttackandDefense
ConfrontationTrainingBasedonDeepReinforcementLearning
GUOHong⁃yu,CHUYang,LIUZhi,ZHOUYu⁃fang
(1.JiangsuAutomationResearchInstitute,Lianyungang222061,China)
Abstract:Theoffensiveanddefensiveconfrontationbetweenthesubmarineandthesurfaceshipformat
ionisthekeycontentofsubmarinecombatresearch.Howtoensurethatthesubmarinesurvivesandbreaksthroughthejointblockadeoftheshipformationandanti⁃submarinehelicoptersisatestofthesubmarinecommanddecision.Tothisend,inviewoftheasymmetryofthesubmarine⁃ship⁃helicopterconfrontationscenario,thesubmarineagentisconstructedfromtwoaspectsofdeeprein⁃forcementlearningandruleinference,andtwoProximalPolicyOptimization(PPO)algorithmimprovementmechanismsareproposed.Itcarriesoutmutualgameconfrontationanddistributedtraining,andfinallyrealizestheintelligentdecision⁃makingofsubmarinesintheconfrontationprocess.Relatedtechnicalroutesandalgorithmshavebeenimplementedandveri⁃fiedonthewargamingplatform.Theimprovedalgorithmhasgreatlyimprovedtheconvergencespeedandstability.There⁃sea
rchonsubmarineintelligentcommanddecision⁃makingprovidestechnicalreference.
Keywords:intelligentcommanddecisionmaking;deepreinforcementlearning;ProximalPolicyOptimization;mutualgameconfrontation
收稿日期:2021⁃10⁃13
修回日期:2021⁃10⁃26
作者简介:郭洪宇(1996 ),男,硕士,研究方向为人工智能
在军事仿真中应用㊂
初㊀阳(1985 ),男,硕士,高级工程师㊂
㊀㊀近年来,AlphaGo㊁AlphaStar等智能体在围棋㊁ 星际争霸 等各类游戏中不断战胜人类的顶尖选手,人工智能技术的迅猛发展和广泛应用,已经成为新一轮科技革命的主导因素,世界主要的军事大国纷纷制定人工智能发展战略与规划,加快军事智能化的发展[1]㊂
在战术层面的决策博弈领域,由于作战环境㊁对手㊁目标㊁手段㊁方式都相对确定,通过人工智能技术能够逐步实现作战智能指挥决策,给指挥员在复杂现代战争中的指挥决策提供建议,帮助指挥员做出更好的决策判断㊂
与作战智能指挥决策过程具有一定相似性的是
星际争霸 游戏的决策问题㊂ 星际争霸 智能体的训练技术可以在战场数据生成机理㊁战略战术算法开发和验证方面,为作战指挥决策智能体的构建提供理
论指导和技术支撑[2]㊂目前,人们对深度强化学习算法在军事智能决策上的应用进行了广泛的探索㊂文献[3]针对高度复杂且行为连续的战场环境,提出了一种改进的深度确定策略梯度(DDPG)算法,提高算法收敛速度,设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为;文献[4]针对多机协同空战,研究利用深度强化学习实现多机协同的方法,提出了集中式训练⁃分布式执行架构,并对近端策略优化算法设计了四种算法增强机制,利用兵棋推演平台进行了验证;文献[5]针对作战仿真推演系统,提出了一种基于深度强化学习技术的智能决策模型,建立了以actor⁃critic体系为基础的智能体训练网络,根据反潜作战想定,利用SAC算法训练智能体实现自主决策;文献[6]针对作战实体间的博弈对抗,提出了一种监督学习和深度强化学习相结合的算法,利用近端策略优化(ProximalPolicyOptimization,PPO)算法和改进的额外奖励,提升智能体的作战决策能力㊂
本文针对潜艇与水面舰艇反潜编队间的对抗,研究利用人工智能技术实现潜艇的智能指挥决策,设计
104㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44卷
了基于深度强化学习的分布式训练方法,构建了潜艇智能体决策模型和舰艇及其舰载反潜直升机的协同反潜规则体模型,利用互博弈对抗的方式训练得到潜艇决策智能体模型㊂根据文献[7]对各深度强化学习算法在海战场中应用的分析㊂本文选取了PPO算法进行研究,并提出了两种增强改进机制,针对性地提高潜艇攻防对抗场景下深度强化学习算法的效果㊂最后,在兵棋推演平台上设计潜舰机攻防对抗想定,对本文提出的训练方法和算法改进效果进行验证,实验结果证明了本文所用方法的实用性和有效性㊂
1㊀深度强化学习
1 1㊀深度强化学习理论
强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策,主要用来解决决策优化类的问题㊂深度学习是通过学习一种深层的非线性网络结构,实现复杂函数的逼近,能够对训练数据的本质特征进行学习,具有较强的无监督特征提取能力[8]㊂
对强化学习过程的描述通常为如图1所示的马尔科夫决策过程,基本要素有策略㊁奖励函数㊁值函数和环境状态
㊂
图1㊀强化学习基本学习模型
深度强化学习是将深度学习与强化学习相结合,融合了深度学习和强化学习的优点,实现了从环境中获取状态信息通过学习得到当前最优动作㊂
目前,深度强化学习在棋类博弈㊁即时策略游戏和兵棋推演等智能决策领域不断取得重大突破,显示出了深度强化学习在认知决策方面具有巨大的潜力和独特的优势,使智能体在高动态性㊁高复杂性的战场环境下具有作战决策能力成为可能㊂
1 2㊀近端策略优化算法
PPO算法是Schulman等人在提出置信区域策略优化(TrustRegionPolicyOptimization,TRPO)算法保证策略更新稳定的基础上,进一步提出的一种改进后的策略梯度算法,通过截断或限制KL散度的方式,避免策略出现突变的情况,增强了训练的效果[9]㊂策略梯度算法的主要目标是到一个可以让带有折扣的未来期望的收益达到最大的策略,因此,PPO算法的网络参数θ更新的目标函数为
L(θ)=Ε[min(r
t(θ)^At,clip(rt(θ),1-ε,1+ε)^At)](1)
其中,^At为优势函数,该函数定义为:
^A
t
=δ
t
+(γλ)δ
t+1
+ +(γλ)T-t+1δ
T-1
δ
t
=r
t
+γV(s
t+1)-V(st){(2)r
t(θ)为新旧策略的比值:
r
t(θ)=
π
θ(at|st)
π
θ(at|st)
(3)
网络参数θ的更新为
θ
t+1
=θ
t
+α∇
θ
L(θ
t)(4)此外,ε为截断常数,其取值为一个经验值,表示新旧策略的最大差值;clip函数为截断函数,将rt(θ)的值限定在1-ε和1+ε之间,表示新策略不会因为远离旧策略而获益㊂
因此,PPO算法的描述如下:
初始化策略参数θ,θold重复每轮更新
㊀重复每个Actor
㊀重复T步
㊀㊀每步使用旧的策略参数产生θold决策
㊀㊀计算每一步中的优势函数估计A
㊀迭代K步
㊀㊀求解累积期望回报函数的策略梯度,每次使用小批量数据㊀用策略梯度θ更新策略参数
将新的策略参数更新至θold
㊀
2㊀智能体构建
目前,潜艇攻防对抗缺少历史仿真数据,且潜艇和主流的舰机协同反潜兵力属于非对称性的博弈对抗,为此本文研究构建潜艇智能体模型和反潜规则体模型,利用互博弈对抗的方式进行深度强化学习训练,其训练流程的总体框架如图2所示,主要的研究内容是深度强化学习训练和两类模型的构建㊂
2 1㊀基于深度强化学习的分布式训练
为了获取大量互博弈对抗数据,提高智能体的训练速度,本文参考AlphaStar的训练[10],设计了基于深度强化学习的分布式训练方法,如图3所示,该训练方法由数据采样㊁分布式学习和预测推断三部分组成㊂1)数据采样
数据采样利用CPU集采用并行方式同时与多个仿真环境进行交互,每个仿真环境开启一局对战,利用数据采样器(CPU)采集每一步潜艇智能体的状态数据,其数据格式为(state,act
ion,reward)三元组形式,经过样本处理㊁奖励计算,将采集的数据送入样本数据库(SampleBuffer)㊂此外,数据采样器通过与智能体的交互,获得下一步需要执行的动作(Action),并利用动作
第1期指挥控制与仿真105
㊀
图2㊀
智能体训练总体框架图
图3㊀基于深度强化学习的分布式训练流程
指令解码器将动作转化为仿真环境可以接受执行的指
令㊂经过大量对战数据的积累,样本数据库可为强化
学习提供大量的样本数据㊂
2)分布式学习
分布式学习利用多个学习器Leaner(GPU)采用了
TensorFlow的开源模块,对采集的数据进行消费㊂当
样本数据库采集的数据满足一批的数量后,Leaner读
取这些样本数据,输入神经网络中进行前向计算,调用
强化学习算法,根据算法的优化目标计算损失函数值,
进而计算得到梯度的更新值,持续稳定输出多层神经
网络的参数,生成针对潜艇突防任务的潜艇智能体㊂
通过获得仿真环境中指令的执行结果对其进行评价,
评价结果反馈给智能体模型,通过反复迭代,实现智能
体模型参数优化㊂
3)预测推断
预测推断是基于当前智能体的状态信息,运用分
布式学习中提供的智能体(神经网络)实施前向推断,
输出决策序列㊂预测推断模块,可以将智能体模型通
过对环境态势预测得到的动作指令集分发到各个仿真
环境,同一个智能体模型可指挥多个仿真环境内的对
战㊂其中,前向推断采用TensorRT库,该库是一个高
性能的深度学习推理(Inference)优化器,可以为深度
学习应用提供低延迟㊁高吞吐率的部署推理㊂
2 2㊀潜艇智能体决策模型
在深度强化学习训练框架中,智能体通过分布式
学习中的学习器对样本数据进行学习,根据环境状态
做出动作决策,智能体的决策模型结构如图4所示㊂
智能体决策模型采用Actor⁃Critic机制,Actor网络
用于输出潜艇采取的动作,Critic网络用于评价智能体
决策的优劣,引导策略进化㊂因为PPO算法具有较好
的收敛性和稳定性,使用clip函数的方法操作相对简
单且鲁棒性好,适用于在兵棋仿真推演平台上进行潜
艇攻防对抗实验,所以,选取PPO算法进行实验验证;
考虑战场态势信息部分可观测,智能体需要根据历史
上的观察动作来进行连续决策,因此,神经网络模型的
主体采用双向循环神经网络,同时利用长短时记忆网
络(Longshort⁃termmemory,LSTM)[11]结构来解决长序
列训练中出现的梯度消失和梯度爆炸问题;由于战场
态势信息维度高㊁关联性不强,为了提高训练效率,引
入注意力机制[12],使用Softmax回归函数对输入态势信
106㊀郭洪宇,等:基于深度强化学习潜艇攻防对抗训练指挥决策研究第44
卷
图4㊀智能体决策模型结构图
息的重要性进行归一化处理,得到各参数信息的相对重要性,实现对敌我局部态势信息的聚焦;神经网络输出智能体的决策指令形式多种多样,有连续型㊁离散型㊁数值型等,需要在神经网络末端针对每种输出形式增加一个全连接网实现连接,并加入解码模块,将决策指令转为平台可接受的操作指令㊂
2 3㊀多决策行动方案的规则体模型
为了防止规则体智能体出现行动决策变化少㊁泛化能力弱等问题,不利用红蓝双方博弈对抗产生大量不同的数据㊂为此,本文根据反潜作战的典型战术规则和行动方案,探索了一种基于多决策行动方案的规则体构建方法,利用反潜的战术规则和行动方案,给每个实体单位设计了规则推理模型,在代码层面实现协同反潜规则体可以根据战场态势信息触发不同的作战任务和决策指令,使规则体在反潜过程中具有多种战术变化,其设计方案如图5所示㊂
构建的规则体模型,具有多种决策行动方案,在互博弈对抗中,使潜艇智能体面对不同的战术战法,获得更加丰富的样本数据㊂此外,还可以通过观察智能体训练过程中反潜规则体的表现是否符合预期要求,以及智能体和人类进行人机对战中人类选手战胜潜艇智能体所用的战术战法,对反潜规则体的决策进行调整改进,继续进行对抗训练㊂
3㊀增强改进机制
为了加快算法的收敛速度,提高算法的稳定性,本文提出了两种算法的增强改进机制,对于损失函数引入了值函数截断机制来加快算法收敛速度,提高训练的稳定性;对于奖励函数引入决策引导和专家经验奖励机制,建立完善的决策引导体系,来提高智能体的作战效率,使智能体可以探索更多的战术战法㊂
3 1㊀损失函数
损失函数决定了智能体的学习能力,在潜艇智能体决策模型中,对于策略网络的策略梯度计算,本文采用了PPO算法,其损失函数为了保证策略更新的安全性,引入了截断机制㊂但是,在复杂的攻防对抗场景下,每次采样轨迹的奖励存在很大的波动,单纯地将策略更新限定在一定范围,智能体会出现很多无效的动作,并且,策略梯度的截断会导致与值函数的畸形发展,很难到最优策略㊂
为了解决这个问题,本文将价值网络的输出使用泛化优势估计(GeneralizedAdvantageEstimation,GAE)来构造PPO算法的优势函数,保障策略向更好的方向更新快速到最优策略,另外针对价值网络,还设计了一种值函数的截断机制,将每一轮动作值函数的更新同样限定在一定的阈值内㊂
对于价值网络的损失函数采用均方误差(meansquarederror,MSE)拟合目标的奖励期望,并对其进行截断处理:
ValueLoss(φ)=max(MSE(V
φ,Vtarget),
MSE(Vold+clip(V
φ
-V
old,-ε,ε),Vtarget))(5)其中,Vold表示更新之前的价值估计,用于限定本轮更新的范围;Vtarget表示更新的目标价值,在训练阶段由价值网络的输出基于反事实基线(Counterfactual
第1期指挥控制与仿真107
㊀
图5㊀规则体设计方案
Baseline)构造,即智能体采取了一个动作,在对其进行评价时要基于所有可能采取的动作进行分析;Vφ表示价值网络当前的输出,采用均方误差(MeanSquaredEr⁃ror,MSE)对目标价值的奖励期望进行拟合㊂
使用截断函数可以减少值函数受到估计偏差以及
轨迹采样方差的影响,防止更新的目标价值出现错误,保障了值函数更新的稳定性,使价值网络更新匹配策略网络,保障了智能体动作的有效性㊂
3 2㊀决策引导体系
决策引导的实现是通过构建奖励函数对强化学习决策动作进行评价,奖励函数的优劣直接影响智能体的训练是否能够收敛以及收敛的方向,是智能体训练的关键㊂
在一局对战过程中,奖励函数可以分为两个部分,即过程奖励和终局奖励㊂其中,终局奖励占比较大,反映了智能体最终能否取得胜利;过程奖励虽然占比较小,但是可以对智能体进行决策引导并加速收敛,在训练过程中十分重要㊂因此,奖励函数通常设计为终局奖励和过程奖励之和:
r=rend+rprocess
rprocess=k1Δx+k2Δyrend=ω1rwin+ω2rprice
ìîíïï
ïï(6)
其中,rprocess为过程奖励,引导智能体前进;rend为终
局奖励,对最终结果进行评价;Δx为当前经度与上一步经度的差值;Δy为当前纬度与上一步纬度的差值;k1㊁
k2为权重系数,用于调整智能体的前进方向,使智能体不断靠近目标地点;rwin为智能体胜负的奖励;rprice为智能体自身损耗的评价奖励,损耗包括武器弹药消耗量
和自身战损情况;ω1㊁ω2为权重系数,要保证胜负奖励占据主导地位㊂
但是,这种方式会导致智能体机动性差,决策步数多㊁决策时间长的问题,为了解决这一问题,本文对终局奖励和过程奖励进行改进,引入专家经验奖励完善决策引导体系:
rend_new=ω1rwin+ω2rprice
+τmaxτsteprprocess_new=k1Δx+k2Δy+ðni=1
qiìîí
ïïï
ï(7)
其中,τmax为想定运行到设定的结束时间时,智能
体可进行的最大决策步数;τstep为一局对战结束时智能体进行的决策步数;qi为智能体进行某些行为动作或
处于某些状态的额外奖励㊂
submarine在终局奖励中,增加决策步数的比值,即τmax/τstep
来降低决策步数,引导智能体快速向目标区域前进,提高智能体的作战效率;在过程奖励中,增加额外的专家经验奖励来增强智能体的机动性和攻击性,使智能体探索更多的战术战法㊂
强化学习的奖励函数需要针对不同的训练场景进行设计,本文在原有的奖励函数基础上,加入决策引导
和经验奖励机制对奖励函数进行改进,在上述决策引导体系的应用中,还需要根据实际情况进行具体分析
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论