典型文献
基于FPGA的卷积神经网络并行加速设计
文献摘要:
为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案.利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度.实验结果表明,在100 MHz的工作频率下,加速器的峰值计算性能可以达到52.56 GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升.
文献关键词:
卷积神经网络;现场可编程门阵列;批归一化;并行计算;数据复用
中图分类号:
作者姓名:
龚豪杰;周海;冯水春
作者机构:
中国科学院国家空间科学中心 复杂航天系统电子信息技术重点实验室,北京 101499;中国科学院大学 计算机科学与技术学院,北京 101408
文献出处:
引用格式:
[1]龚豪杰;周海;冯水春-.基于FPGA的卷积神经网络并行加速设计)[J].计算机工程与设计,2022(07):1872-1878
A类:
B类:
FPGA,并行加速,功耗,嵌入式平台,深度卷积网络,网络算法,现场可编程门阵列,卷积层,批归一化,batch,normalization,BN,少计,计算复杂度,分片,数据复用,并行计算,系统硬件,硬件开销,设计空间探索,硬件资源,资源约束,并行度,MHz,工作频率,加速器,GFLOPS,CPU,GPU
AB值:
0.41376
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。