典型文献
面向混合量化CNNs的可重构处理器设计
文献摘要:
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集.其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度.在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP.同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了 55.4%和 100%.
文献关键词:
混合精度量化;卷积神经网络加速器;可重构计算
中图分类号:
作者姓名:
常立博;张盛兵
作者机构:
西北工业大学计算机学院,陕西西安 710072;西安邮电大学电子工程学院,陕西西安 710121
文献出处:
引用格式:
[1]常立博;张盛兵-.面向混合量化CNNs的可重构处理器设计)[J].西北工业大学学报,2022(02):344-351
A类:
混合精度量化
B类:
混合量,CNNs,处理器设计,convolution,neural,networks,计算模式,量化模型,可重构计算,计算单元,弹性片,存单,数据流,指令集,模型结构,多核,计算资源,资源利用率,存储结构,Tile,动态缓存,上数,数据复用,有效表达,Ultra96,V2,VGG,ResNet,GOPS,计算效率,DSP,ZCU102,卷积神经网络加速器
AB值:
0.379208
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。