首站-论文投稿智能助手
典型文献
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法
文献摘要:
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法.通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度.设计了车间状态矩阵对问题约束和优化目标进行描述,在调度决策中引入额外的设备等待指令来扩大解空间,并设计奖励函数将优化目标分解为分步奖励值实现调度决策评价.最后基于PPO算法进行模型更新和参数全局优化.实验结果表明所提方法优于现有的几种启发式规则,并将所提算法应用于实际车间的生产调度,有效减小了加权完工时间和.
文献关键词:
等效并行机;在线调度;强化学习;长短期记忆近端策略优化
作者姓名:
贺俊杰;张洁;张朋;汪俊亮;郑鹏;王明
作者机构:
东华大学机械工程学院,上海,201620;上海交通大学机械与动力工程学院,上海,200240
文献出处:
引用格式:
[1]贺俊杰;张洁;张朋;汪俊亮;郑鹏;王明-.基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法)[J].中国机械工程,2022(03):329-338
A类:
长短期记忆近端策略优化,等效并行机
B类:
强化学习,在线调度,调度方法,调度问题,加权完工时间,PPO,设计融合,智能体,状态变化,调度策略,状态信息,状态矩阵,优化目标,调度决策,大解,解空间,设计奖,奖励函数,目标分解,分步,奖励值,决策评价,模型更新,全局优化,启发式规则,算法应用,生产调度
AB值:
0.282824
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。