统一计算设备架构
统一计算设备架构的相关文献在2008年到2022年内共计210篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、测绘学
等领域,其中期刊论文193篇、会议论文15篇、专利文献2785606篇;相关期刊90种,包括国防科技大学学报、中国图象图形学报、火力与指挥控制等;
相关会议15种,包括第10届全国计算机支持的协同工作学术会议暨中国计算机学会协同计算专委年度工作会议、2014年第三届全国现代制造集成技术学术会议、2013年全国水声学学术交流会等;统一计算设备架构的相关文献由562位作者贡献,包括肖汉、冯晓萌、吴玲达等。
统一计算设备架构—发文量
专利文献>
论文:2785606篇
占比:99.99%
总计:2785814篇
统一计算设备架构
-研究学者
- 肖汉
- 冯晓萌
- 吴玲达
- 陈庆奎
- 严承华
- 于荣欢
- 兰远东
- 刘丹
- 刘伟峰
- 刘伯成
- 刘进锋
- 周勇
- 周波
- 孟小华
- 常立博
- 李肯立
- 杜慧敏
- 杨超
- 田雨波
- 程春田
- 钱育蓉
- 陈风
- 何小曼
- 倪友聪
- 冯前进
- 冯娜
- 冯朝路
- 冶鑫晨
- 刘义军
- 刘任任
- 刘大刚
- 刘宝平
- 刘峰
- 刘胜辉
- 刘青昆
- 匡斌
- 单联瑜
- 卢晓伟
- 卢立托
- 吴粉侠
- 周文平
- 周武
- 唐好选
- 唐定车
- 姬丽娜
- 季凯柏
- 季振洲
- 左军涛
- 左颢睿
- 张开活
-
-
王若天;
沙金
-
-
摘要:
由于非结构化的低密度奇偶校验码(LDPC)具有更优异的纠错性能而受到广泛关注,但其非零元素分布较不规律且没有循环或准循环的子矩阵的构造方式,增加了译码器实现的设计难度.本文提出了基于CUDA的译码器设计,用于支持任意非结构化LDPC码的高吞吐量并行译码.利用校验矩阵压缩重排、优化信息存储等手段,设计实现GPU上高效的并行译码内核进行多帧译码.在GTX1660Ti GPU平台上的结果表明,基于TPMP流程的LLR-BP和NMSA译码内核设计吞吐量可分别达到78.88~360.25 Mbps和174.38~1323.75 Mbps,实现了面向任意非结构化LDPC码的高效并行译码.
-
-
田宸玮;
王雪纯;
杨嘉能;
钱育蓉
-
-
摘要:
针对大尺寸地质图像边缘检测算法计算密集和数据密集的特性,为提高地质图像边缘检测算法的计算效率,提出一种自适应阈值的Kirsch算子的边缘检测算法.从传统算法层面,通过减少运算次数以及针对阈值设定随机性较大的问题提出自适应阈值的方法对其进行优化.从算法并行层面,在CPU-GPU传输开销以及线程规模选取上分析优化.经测试,改进的算法比现有算法减少了计算量,获取的边缘更清晰,对大于2048×2048尺寸的地质图像加速比可以保持在80倍以上(不考虑传输开销可保持在300倍以上).该方法的并行较易实现,为实时在线的地质图像边缘检测提供了可能.
-
-
杨先凤;
贵红军;
傅春常
-
-
摘要:
针对传统F-X域预测滤波去除地震资料随机噪声耗时巨大的问题,提出了基于统一计算设备架构(CUDA)的并行算法.首先,对算法进行模块化分析以找到算法的计算瓶颈;然后从每个窗口数据计算相关矩阵、求滤波因子、滤波等步骤入手,使用图形处理器(GPU)将滤波过程分解为多个任务并行处理;最后,对算法进行并行实现,并对相邻滤波窗口的数据冗余读取进行优化以提升算法效率.基于NVIDIA Tesla K20c显卡的实验结果表明,在250×250大小工区的地震数据中,所提并行算法较原串行算法在效率上实现了10.9倍的提升,同时能保证工程中要求的计算精度.
-
-
李繁;
严星;
张晓宇
-
-
摘要:
为提高非线性数据降维算法效能,分析这类算法的特点,综合考虑KNN计算和解决Sparse特征值两个问题,提出将LLE算法中的KNN搜索算法及大型稀疏矩阵解特征值这两个部分并行在GPU的运算平台上,通过这种方法来加快所有基于LLE发展而来的数据降维技术的执行时间.仿真计算结果表明,在KNN方面整体加速可达40至50倍,在解大型稀疏矩阵特征值的部分加速至10倍左右.整体来说,数据降维算法加速10倍左右,有效运用GPU提高了LLE这类算法的性能.
-
-
王博群;
张海龙;
王杰;
冶鑫晨;
王万琼;
李嘉;
张萌;
张亚州
-
-
摘要:
射电脉冲信号在传输过程中受到星际介质的影响,脉冲轮廓展宽变形,在研究过程中需要对信号进行消色散处理.设计并实现了基于零拷贝的脉冲星数据图形处理器(Graphic Processing Unit,GPU)相干消色散算法,采用设备内存映射以消除主机到设备的拷贝开销,利用统一计算设备架构(Compute Unified Device Architecture,CUDA)的cuFFT库进行多批次傅里叶变换以提高离散傅里叶变换(Discrete Fourier Transform,DFT)的效率,同时采用多线程实现了传递函数的加速计算.实验结果表明,与传统中央处理器及图形处理器算法相比,本文的算法在数据量大时表现良好.
-
-
肖汉;
肖诗洋;
孙陆鹏;
郭宝云
-
-
摘要:
为了提高图像对比度,解决传统的直方图均衡算法处理速度慢的问题,提出了基于统一计算设备架构(CUDA)的直方图均衡图像实时处理加速方案.利用图形处理器(GPU)强大的计算能力和CUDA优化的存储器结构,以加速直方图均衡中的图像灰度级投票、 分布概率累加并映射以及图像新的灰度值填充等功能进行运算.在CUDA条件下,对直方图均衡算法进行串-并行分析,分别从粗粒度与细粒度角度进行并行设计,通过实验测定进行了设计参数寻优,获得了线程块设计参数的最优尺寸.结果表明,基于CUDA的图像直方图均衡并行算法的性能相比基于CPU的串行算法和基于开放多处理(OpenMP)并行算法分别获得了61.58和32.00倍的加速比,能够为大规模实时性图像处理系统设计提供参考.
-
-
韩思旭;
陈小斌;
陈卫营;
罗强;
宋婉婷
-
-
摘要:
并行计算是提高音频大地电磁(audio-frequency magnetotelluric,AMT)数据反演效率的有效途径.在统一计算设备架构(compute unified device architecture,CUDA)下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU(graphics pro-cessing unit)强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演.首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性.不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上.最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果.
-
-
-
-
牛宝童;
钱宇浛
-
-
摘要:
[目的]将混合蛙跳算法的求解过程转化为CUDA线程,提出并研究基于GPU的并行混合蛙跳算法,加快算法寻优过程,提高混合蛙跳算法的运算速度,以此促进群体智能优化算法的并行研究及应用.[方法]本文采用了CPU+GPU异构形式进行计算,其中GPU负责对大规模的密集型数据进行设计分析以及计算,而对于CPU来讲,负责开展事务管理以及复杂逻辑运算等不适合数据并行的计算模块.[结果]将混合蛙跳算法的求解过程转化为CUDA线程,实现基于GPU的并行混合蛙跳算法.在GPU上加速执行以提高算法运行速度,在保证与串行混合蛙跳算法相同优化性能的同时提高加速比.[结论](1)对于ISFLA算法它采用了并行调度的形式展开计算分析,对于虚拟机之间的负载起到了很好的平衡作用,减小了负载间的平衡度对于整体的工作时间来讲起到了很好的缩短作用.(2)ISFLA算法产生的初始种群有着更好的质量,这能够将一些表现不好的个体进行排除,加快了整体的收敛速度,减小了进行搜索迭代的时长.
-
-
WANG Xiaolei;
王肖磊;
JIN Ye;
金烨
- 《第十一届全国信号和智能信息处理与应用学术会议》
| 2017年
-
摘要:
合成孔径雷达(SAR)成像需要处理海量数据,传统GPU编程模块用时较长,无法满足实时性要求.基于统一计算设备架构(CUDA)提出四种GPU的SAR成像算法优化方案.针对矩阵转置、加窗操作提出指令级并发技术,针对斜地校正提出动态并行技术,针对规约求和提出跨线程块同步技术,针对函数执行首次耗时过长提出GPU预热能耗比提升技术.在NVIDIA K80上测试表明,与传统基于GPU的SAR成像处理算法相比,上述四种方案均能达到5倍左右的加速比,提升了处理性能,并且降低了设备功耗.
-
-
-
-
-
-
-
-
-
喻勤;
孔选林;
徐天吉
- 《中国石化多波地震技术重点实验室第二次学术交流会》
| 2012年
-
摘要:
转换波叠前时间偏移数据量巨大,计算时间长,偏移过程中需多次偏移以找到匹配的偏移速度模型,导致偏移处理周期长,影响多波多分量勘探效率.目前主要依赖CPU集群计算,但集群存在成本高、功耗大、占用空间大、维护成本高等缺点.为克服偏移计算耗时和降低计算成本,文章给出一种基于MPI和CUDA的转换波Kirchhoff叠前时间偏移并行算法,将细粒度线程级的GPU并行计算融合粗粒度的进程级MPI并行编程模型,利用实际工区的转换波数据分别在CPU(单核)、GPU(单卡)、MPI和GPU(2节点)测试平台上对算法进行了验证和性能分析,GPU(2节点)计算速度较CPU(单核)提高了近400倍,经过地震数据测试分析,结果表明基于CUDA和MPI的转换波叠前时间偏移计算具有高效性,为地震勘探中的转换波偏移处理提供了新的高效低成本的解决方案,为推进GPU高性能计算在转换波勘探开发中的应用提供了新思路。
-
-
喻勤;
孔选林;
徐天吉
- 《中国石化多波地震技术重点实验室第二次学术交流会》
| 2012年
-
摘要:
转换波叠前时间偏移数据量巨大,计算时间长,偏移过程中需多次偏移以找到匹配的偏移速度模型,导致偏移处理周期长,影响多波多分量勘探效率.目前主要依赖CPU集群计算,但集群存在成本高、功耗大、占用空间大、维护成本高等缺点.为克服偏移计算耗时和降低计算成本,文章给出一种基于MPI和CUDA的转换波Kirchhoff叠前时间偏移并行算法,将细粒度线程级的GPU并行计算融合粗粒度的进程级MPI并行编程模型,利用实际工区的转换波数据分别在CPU(单核)、GPU(单卡)、MPI和GPU(2节点)测试平台上对算法进行了验证和性能分析,GPU(2节点)计算速度较CPU(单核)提高了近400倍,经过地震数据测试分析,结果表明基于CUDA和MPI的转换波叠前时间偏移计算具有高效性,为地震勘探中的转换波偏移处理提供了新的高效低成本的解决方案,为推进GPU高性能计算在转换波勘探开发中的应用提供了新思路。