典型文献
分布式机器学习作业性能干扰分析与预测
文献摘要:
通过分析分布式机器学习中作业性能干扰的问题,发现性能干扰是由于内存过载、带宽竞争等GPU资源分配不均导致的,为此设计并实现了快速预测作业间性能干扰的机制,该预测机制能够根据给定的GPU参数和作业类型自适应地预测作业干扰程度.首先,通过实验获取分布式机器学习作业运行时的GPU参数和干扰率,并分析出各类参数对性能干扰的影响;其次,依托多种预测技术建立GPU参数-干扰率模型进行作业干扰率误差分析;最后,建立自适应的作业干扰率预测算法,面向给定的设备环境和作业集合自动选择误差最小的预测模型,快速、准确地预测作业干扰率.选取5种常用的神经网络作业,在两种GPU设备上设计实验并进行结果分析.结果显示,所提出的自适应干扰预测(AIP)机制能够在不提供任何预先假设信息的前提下快速完成预测模型的选择和性能干扰预测,耗时在300 s以内,预测干扰率误差在2%~13%,可应用于作业调度和负载均衡等场景.
文献关键词:
分布式机器学习;性能干扰;集群调度;资源共享;干扰预测
中图分类号:
作者姓名:
李洪亮;张弄;孙婷;李想
作者机构:
吉林大学计算机科学与技术学院,长春130012;符号计算与知识工程教育部重点实验室(吉林大学),长春130012
文献出处:
引用格式:
[1]李洪亮;张弄;孙婷;李想-.分布式机器学习作业性能干扰分析与预测)[J].计算机应用,2022(06):1649-1655
A类:
性能干扰
B类:
分布式机器学习,习作,作业性能,干扰分析,过载,GPU,资源分配,快速预测,预测机制,作业类型,干扰程度,取分,预测技术,误差分析,预测算法,设计实验,干扰预测,AIP,作业调度,负载均衡,集群调度
AB值:
0.247618
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。