首页> 中文期刊> 《计算机工程与科学》 >一种支持优化分块策略的矩阵乘加速器设计

一种支持优化分块策略的矩阵乘加速器设计

         

摘要

在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一.在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵.由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务.当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降.为了解决这个问题,提出了一种有效的优化分块策略.在此基础上,在Xilinx公司的Zynq XC7Z045 FPGA芯片上实现了一个支持可变分块的矩阵乘法器.通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48 GFLOPS的实测性能,而所需带宽仅为4.8 GB/s.实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号