典型文献
基于深度强化学习与自学习的多无人机近距空战机动策略生成算法
文献摘要:
为解决多无人机近距空战机动决策问题,提出一种基于参数共享Q网络与虚拟自我对局的多无人机近距空战机动策略生成算法.首先,设计一种适用于不同无人机编队规模的混合马尔可夫博弈模型与多无人机机动决策策略生成强化学习框架一参数共享Q网络,并通过自编码器对状态空间进行压缩以提高策略学习效率.然后,使用虚拟自我对局方法使机动策略收敛至纳什均衡策略.最后对自编码器的参数选择、策略生成算法的训练过程与机动策略的合理性与迁移性进行了仿真实验.通过仿真结果表明,引入自编码器可以有效地提高策略学习效率,并且使用该算法生成的多无人机近距空战机动策略具有合理性与良好的迁移性.
文献关键词:
空战决策;多无人机协同;强化学习;虚拟自我对局
中图分类号:
作者姓名:
孔维仁;周德云;赵艺阳;杨婉莎
作者机构:
西北工业大学电子信息学院,陕西西安710129;悉尼大学计算机学院,悉尼2006
文献出处:
引用格式:
[1]孔维仁;周德云;赵艺阳;杨婉莎-.基于深度强化学习与自学习的多无人机近距空战机动策略生成算法)[J].控制理论与应用,2022(02):352-362
A类:
虚拟自我对局
B类:
深度强化学习,自学习,近距,机动策略,生成算法,空战机动决策,决策问题,参数共享,无人机编队,队规,马尔可夫,博弈模型,决策策略,自编码器,状态空间,提高策略,策略学习,学习效率,局方,纳什均衡,均衡策略,参数选择,训练过程,迁移性,略具,空战决策,多无人机协同
AB值:
0.241336
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。