基于改进DDPG的空战行为决策方法|殷宇维;王凡;吴奎;胡剑秋 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于改进DDPG的空战行为决策方法

文献摘要：

针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG).框架中的主要改进如下:1.设计一种针对动态目标的嵌入式人工经验奖励机制,缓解深度强化学习算法在训练过程中,由于状态空间巨大且奖励稀疏导致的收敛困难问题;2.对框架中的Actor网络更新机制进行改进,解决Critic网络评估效果差时,更新Actor网络导致的模型训练不稳定问题;3.采用优先采样机制确保训练价值高的经验样本得到充分利用.最后基于MaCA平台搭建仿真实验环境,通过消融实验验证了所提出框架中改进机制的有效性和优越性.

文献关键词：

深度强化学习;深度确定性策略梯度;空战行为决策;动态目标;嵌入式人工经验奖励机制

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[2] 社会科学总论（C） / 管理学（C93） / 决策学（C934）

[3] 数理科学和化学（O） / 数学（O1） / 代数、数论、组合理论（O15） / 模糊数学（O159）

作者姓名：

殷宇维;王凡;吴奎;胡剑秋

作者机构：

江苏自动化研究所,江苏连云港 222061

文献出处：

指挥控制与仿真

引用格式：

[1]殷宇维;王凡;吴奎;胡剑秋-.基于改进DDPG的空战行为决策方法)[J].指挥控制与仿真,2022(01):97-102

A类：

空战行为决策,ACBDF,嵌入式人工经验奖励机制,MaCA

B类：

DDPG,决策方法,时态,智能决策,决策问题,决策框架,Air,Combat,Behavior,Decision,making,Framework,Improve,动态目标,深度强化学习算法,训练过程,状态空间,疏导,困难问题,Actor,更新机制,Critic,网络评估,评估效果,模型训练,稳定问题,采样机制,训练价值,平台搭建,实验环境,消融实验,深度确定性策略梯度

AB值：

0.352314

相似文献

基于深度强化学习的无人艇集群博弈对抗

苏震;张钊;陈聪;刘殿勇;梁霄-珠海云洲智能科技股份有限公司工业发展部,广东珠海 519080;大连海事大学船舶与海洋工程学院,辽宁大连 116026

基于深度强化学习的无人机通信抗干扰算法

张惠婷;张然;刘敏提;丁元明-辽宁省通信网络与信息处理重点实验室, 辽宁大连 116622;大连大学信息工程学院, 辽宁大连 116622;西安电子科技大学雷达信号处理国家实验室, 西安 710071

基于元课程强化学习的多智能体协同博弈技术

丁季时雨;孙科武;董博;杨皙睿;范长超;马喆-中国航天科工集团有限公司第二研究院未来实验室,北京 100854

基于进化式决策树的超视距空战机动决策模型

徐安;郑万泽;奚之飞;党璐菲-空军工程大学,航空工程学院,陕西西安 710038;空军工程大学,科研学术处,陕西西安 710072;中国航天科工集团有限公司第二研究院,北京 100854

协作多智能体深度强化学习研究综述