基于CUDA的大规模线性稀疏方程组求解器的设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大规模线性方程组的求解一直都是科学计算里的重要问题。随着图形处理器(GPU)硬件架构的不断发展，GPU的功能已经衍生到GPU通用计算领域。GPU作为CPU的协处理器完成大规模密集型计算任务，计算能力与小规模的集群相当。相比集群，GPU在功耗和成本上占有优势。2007年NVIDIA推出CUDA并行计算平台，降低了使用 GPU加速计算的难度，科员人员可以更方便的使用 GPU加速计算科研中的问题，这使得越来越多的领域开始引入GPU计算。
　　本文在CUDA平台上，在GPU上实现大规模的稀疏线程方程组的求解。对于大规模的稀疏矩阵采用CSR存储。方程组的求解采用共轭梯度算法(CG)求解。共轭梯度法中的稀疏矩阵矢量乘(SpMV)、矢量内积操作和矢量加减操作采用GPU计算。其中SpMV和矢量内积自己动手编程相应代码，矢量加减采用NVIDIA提供的CUBLAS库函数来实现。在本文的稀疏矩阵是对称正定，在CSR存储时只存储上三角数据。在对上三角的数据SpMV操作时，把SpMV分解为乘法和加法操作。在计算矩阵下三角的 SpMV需要利用存储的上三角数据。在设计的算法中，引入原子操作来避免多个线程同一时刻对同一地址读写。目前GPU显存最大只有6GB，需要对大规模的稀疏矩阵分块处理。设计有别于常见的矩阵均分分块算法，该算法根据GPU显存的限制装载适量数据到GPU中，提高GPU的利用率。矢量内积操作在GPU规约中采用增加偏移量的办法来避免bank冲突，从而提高程序性能。实现的GPU矢量内积操作比NVIDIA自带的CUBLAS效率要高。最后在CG算法上添加雅克比预处理(JP),采用雅克比预处理共轭梯度法(JPCG)求解方程组.
　　在用GTX480的显卡和i5的CPU硬件平台上，通过对多组不同规模的稀疏矩阵性能分析，在相比CPU的计算结果，GPU实现的SpMV操作可以获得30倍的加速，矢量内积在测试数据下有6倍的加速，对于整个求解过程加速比最高有46倍的加速。这也表明使用GPU求解方程组可以获得比较好的求解效率。程序能够自动适应不同规模大小的稀疏矩阵方程组求解。设计的矩阵分块算法要优于常规的矩阵均分算法，性能有一定提升。而稀疏矩阵半存储的 SpMV计算性能不如矩阵全存储的SpMV，但矩阵半存储时一次的计算规模要大于矩阵全存储的情况。JPCG算法求解收敛性要快于CG算法。

著录项

作者
吴长江;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科电子与通信工程
授予学位硕士
导师姓名李雪;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类线性代数的计算方法;
关键词
并行计算; 线性方程组; 求解器; 图形处理器; 稀疏矩阵矢量乘;

相似文献

中文文献
外文文献
专利

1. CUDA架构下大规模稠密线性方程组的并行求解 [J] . 杨梅 ,李志民 ,曹大勇 . 计算机工程与应用 . 2011,第032期
2. 大规模稀疏线性方程组的GMRES-GPU快速求解算法 [J] . 柳有权 ,尹康学 ,吴恩华 . 计算机辅助设计与图形学学报 . 2011,第004期
3. 求解大规模稀疏线性方程组的算法 [J] . 陈志 ,高旅端 . 北京工业大学学报 . 2001,第003期
4. 基于大型稀疏线性方程组拓扑的拖拉机精确定位系统 [J] . 王发兴 ,赵卫滨 ,蒋晶 . 农机化研究 . 2018,第009期
5. 基于 GPU 的对称正定稀疏矩阵复线性方程组迭代算法 [J] . 李伟伟 . 吉林大学学报（理学版） . 2016,第002期
6. 权重部分更新的大规模线性SVM求解器 [C] . LIU Shandian ,刘闪电 ,WANG Jiandong . 中国电子学会信息论分会2009年研究生学术交流会 . 2010
7. 大规模稀疏线性方程组的预条件迭代法的研究 [A] . 李乐波 . 2011

基于CUDA的大规模线性稀疏方程组求解器的设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅