典型文献
纯策略纳什均衡的博弈强化学习
文献摘要:
将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题.Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策略纳什均衡.该算法在保证纯策略纳什均衡的前提下能够使得每个智能体的回报不低于某特定阈值.同时,基于分形的均衡程度评估模型能够通过计算任意状态的分形维数来判断其稳态,并评估任意状态与均衡状态之间的距离,该模型可以检验元均衡的科学性与合理性,上述算法和模型的相关结论在福利博弈和夺控战中都得到具体验证.
文献关键词:
纯策略纳什均衡;强化学习;博弈论;分形
中图分类号:
作者姓名:
王军;曹雷;陈希亮;陈英;赵芷若
作者机构:
陆军工程大学 指挥控制工程学院,南京 210007;东部战区总医院 博士后科研工作站,南京 210002
文献出处:
引用格式:
[1]王军;曹雷;陈希亮;陈英;赵芷若-.纯策略纳什均衡的博弈强化学习)[J].计算机工程与应用,2022(15):78-86
A类:
B类:
纯策略纳什均衡,博弈理论,多智能体强化学习,计算复杂度,equilibrium,learning,元博弈,均衡程度,分形维数,均衡状态,博弈论
AB值:
0.220558
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。