细粒度任务并行GPU通用矩阵乘

张帅; 李涛; 王艺峰; 焦晓帆; 杨愚鲁

首页> 中文期刊> 《计算机工程与科学》 >细粒度任务并行GPU通用矩阵乘

细粒度任务并行GPU通用矩阵乘

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位.在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能.然而,现有实现对批量的小型GEMM计算性能发挥则较为有限.而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡.提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘.一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上.TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能.在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100％的扩展效率.

著录项

来源
《计算机工程与科学》 |2015年第5期|847-856|共10页
作者
张帅; 李涛; 王艺峰; 焦晓帆; 杨愚鲁;
展开▼
作者单位

南开大学计算机与控制工程学院;

天津300071;

南开大学计算机与控制工程学院;

天津300071;

南开大学计算机与控制工程学院;

天津300071;

南开大学计算机与控制工程学院;

天津300071;

南开大学计算机与控制工程学院;

天津300071;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP393.027;
关键词
通用矩阵乘; 持久化kernel; 任务并行; 负载均衡;

相似文献

中文文献
外文文献
专利

1. 基于GPU加速的细粒度并行人工蜂群算法 [J] . 王文亮 ,王智广 ,刘伟峰 . 微电子学与计算机 . 2013,第3期
2. 一种基于GPU加速细粒度并行遗传算法的实现方法 [J] . 李建明 ,迟忠先 ,万单领 . 控制与决策 . 2008,第6期
3. 一种基于GPU加速的细粒度并行粒子群算法 [J] . 李建明 ,万单领 ,迟忠先 . 哈尔滨工业大学学报 . 2006,第012期
4. 相似驱动的细粒度并行任务重构算法 [J] . 郝水侠 ,曾国荪 ,马小信 . 计算机科学 . 2013,第009期
5. 基于细粒度任务分配的空时自适应并行处理算法研究 [J] . 王超 ,刘伟 ,袁培苑 . 电子与信息学报 . 2012,第006期
6. 细粒度任务并行GPU通用矩阵乘 [C] . ZHANG Shuai ,张帅 ,LI Tao . 2014全国高性能计算学术年会 . 2014
7. 基于GPU加速的细粒度模型并行免疫算法研究 [A] . 张立花 . 2009

细粒度任务并行GPU通用矩阵乘

摘要

著录项

相似文献

相关主题

期刊订阅