异构计算
异构计算的相关文献在1995年到2023年内共计414篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、经济计划与管理
等领域,其中期刊论文204篇、会议论文14篇、专利文献391594篇;相关期刊122种,包括数字家庭、电子学报、电子产品世界等;
相关会议14种,包括2016年全国计算机体系结构学术年会 (ACA2016)、2014年全国开放式分布与并行计算学术年会、第十七届计算机工程与工艺年会暨第三届微处理器技术论坛等;异构计算的相关文献由1025位作者贡献,包括曾国荪、陆鑫达、于治楼等。
异构计算—发文量
专利文献>
论文:391594篇
占比:99.94%
总计:391812篇
异构计算
-研究学者
- 曾国荪
- 陆鑫达
- 于治楼
- 姜凯
- 侯彪
- 柴志雷
- 焦李成
- 陈继承
- 刘顺宗
- 张立群
- 张闯
- 段成德
- 王洪伟
- 白静
- 肖东晋
- 赵雅倩
- 邵平平
- 郝水侠
- 金长新
- 阚宏伟
- 阳王东
- 马文萍
- 马晶晶
- E·威斯曼
- 丹尼斯·R·布拉德福德
- 乔纳森·D·皮尔斯
- 保罗·卡普里奥利
- 加内什·文卡提什
- 史蒂芬·R·范伯伦
- 吉尔伯特·奈格
- 娜拉扬·兰加纳坦
- 孙晓明
- 尼古拉斯·P·卡特
- 尼尔·D·麦克唐纳
- 山田小池
- 德博拉·T·马尔
- 德怀特·P·曼利
- 戴维·B·谢菲尔德
- 托马斯·D·弗莱彻
- 拉杰什·M·桑卡兰
- 曹芳
- 曾志勇
- 李志刚
- 李肯立
- 杰弗里·J·库克
- 桂小林
- 樊嘉恒
- 爱德华·T·格罗霍夫斯基
- 特雷西·加勒特·德赖斯代尔
- 王伟
-
-
潘妍;
程岳;
高雅濛
-
-
摘要:
近年来,现场可编程门阵列(field programmable gate array,FPGA)凭借其灵活性、低功耗等特点吸引了工业界和学术界的广泛关注与应用,随着硬件发展增速变缓,摩尔定律失效,异构计算以不可阻挡的趋势成为当前热门领域。高层次综合技术有效地解决了在异构计算形势下,如何以软硬件协同方式进行开发,如何降低软件算法开发人员使用硬件设计的学习门槛,如何加速系统开发过程中的快速原型迭代等诸多问题。高层次综合技术能够将高层次语言描述的逻辑结构自动转换为低抽象级语言描述的电路模型,使得硬件开发具有了更高的灵活性和高效性。高层次综合技术经历了长期的探索,从高层次综合技术出现的背景和需求为出发点,介绍其早期发展历史,涉及的关键基础技术和优化方法,并对影响力较大的技术工作做以总结,最后提出未来的展望与挑战。
-
-
龚施俊;
鄢贵海;
李晓维
-
-
摘要:
在数据高速增长的背景下,异构计算作为满足新兴应用不断提高的算力需求的有效途径,涌现了许多异构加速系统。在这些异构加速系统中,高效的任务映射是充分发挥加速器潜能提升应用程序性能的关键之一。先前工作提出了许多基于有向无环图如何最小化应用程序整体执行时间和最小化异构多处理器之间通信开销等高效的任务映射方法,这些工作通常采用将任务映射到加速器上来提高整个应用的性能。但某些应用程序如果将所有子任务全部映射到加速器上执行,会带来额外的通信开销,进而可能达不到提升性能的预期,甚至造成整个应用程序的性能下降。因此,本文提出了一种基于预测的主动式任务映射算法(PPTM)来应对这样的场景,实现高效的任务映射。实验表明,本文算法能够更准确感知计算任务的运行时状态,大幅提高应用程序的整体性能。
-
-
王若天;
沙金
-
-
摘要:
由于非结构化的低密度奇偶校验码(LDPC)具有更优异的纠错性能而受到广泛关注,但其非零元素分布较不规律且没有循环或准循环的子矩阵的构造方式,增加了译码器实现的设计难度.本文提出了基于CUDA的译码器设计,用于支持任意非结构化LDPC码的高吞吐量并行译码.利用校验矩阵压缩重排、优化信息存储等手段,设计实现GPU上高效的并行译码内核进行多帧译码.在GTX1660Ti GPU平台上的结果表明,基于TPMP流程的LLR-BP和NMSA译码内核设计吞吐量可分别达到78.88~360.25 Mbps和174.38~1323.75 Mbps,实现了面向任意非结构化LDPC码的高效并行译码.
-
-
宁成明;
蔡恒雨;
郑启龙;
耿锐
-
-
摘要:
由于CPU在处理海量数据时所面临的性能瓶颈,使得基于异构系统的异构并行计算成为并行计算领域的研究热点之一.HXDSP是中国电子科技集团第三十八所自主研制的DSP芯片,能满足多种高性能计算领域的需求.为了充分发挥HXDSP的计算能力以及多HXDSP设备并行计算的能力,本文设计了基于OpenCL的HXDSP异构计算框架.本文根据计算任务的特性设计了不同的OpenCL设备映射方式,使得HXDSP异构计算框架能适应不同的应用场景,充分利用HXDSP的计算资源并节省能耗.本文在HXDSP异构计算框架设计完成的基础上针对HXDSP异构计算应用程序进行优化,包括数据传输优化和数据访问优化.最后本文通过实验分析了HXDSP异构计算框架的程序性能,验证了HXDSP异构计算框架的可行性以及有效性.
-
-
凤雷;
王宾涛;
刘冰;
李喜鹏
-
-
摘要:
深度强化学习(DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景;由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署;针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务;实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748 W,满足了深度强化学习在嵌入式领域的在线决策任务。
-
-
张乾;
梁亮;
宋佩涛;
李颂
-
-
摘要:
ALPHA是哈尔滨工程大学核动力仿真研究中心研发的基于异构系统的三维高保真堆芯中子输运计算程序。ALPHA程序基于性能优化的二维特征线装载图形处理单元(GPU)并行计算核心,基于MPI+CUDA混合编程模型实现粗细粒度的异构系统多节点并行并应用通信掩盖优化。ALPHA的共振计算模型采用原创的细群-子群二级离散策略并采用多群求解核心适配异构系统。ALPHA采用MOC-EX实现三维全堆芯中子输运异构并行计算及GPU并行的粗网有限差分加速。数值结果表明,ALPHA程序在保证计算精度的前提下,具备较高的并行效率和一定的可扩展性,有望实现数值反应堆中中子学计算的轻量化与工程化应用。
-
-
-
刘婷
-
-
摘要:
【本刊讯】近日,工业AR应用解决方案供应商ALVA Systems(中文名:阿依瓦(北京)技术有限公司)完成B轮数亿元融资。本轮融资由老股东软银中国资本(SBCVC)领投,同时老股东高科新浚以及新股东泰越资本跟投。成立于2011年,ALVA Systems是国内最早,并一直专注与异构计算(HC)应用开发的公司,通过与AMD、Intel、高通、ARM等全球顶级硬件企业的合作,充分积累了技术应用经验。
-
-
高昊晖;
樊荣;
缪永杰;
柴志雷
-
-
摘要:
针对高速数字喷墨打印对高带宽、低延迟、低抖动的打印数据传输,以及高并发的位操作喷孔控制等需求,设计了一种领域专用SoC架构并实现了软硬件系统.通过StandaloneOS下的轻量级网络传输减少了操作系统带来的传输抖动,保持稳定高速的数据传输;基于片内高速总线提升了主控系统与喷头控制模块之间的传输带宽,降低了信号传递的延迟;通过设计位操作协处理模块,实现了对喷孔阵列的高并发控制.基于ZYNQ7020 FPGA SoC平台实现了上述SoC架构及系统,实验结果表明:该系统从上位机接收打印数据时,采用千兆以太网传输速率可以稳定保持在947 Mbps;片内总线传输带宽可达800 MB/s,指令传输延迟在10 ns内;系统的位操作数据处理频率可达64 MHz;整个系统的数据吞吐率可达1500 Mbit/s,数据传输抖动在20 ns内.该系统可驱动具有30720个喷孔的打印机喷头以600 dpi的打印精度完成200 cm/s的打印工作,在1200 dpi的打印精度下仍表现出优良的性能,为突破高速数字喷墨打印的速度瓶颈提供了新的技术思路.
-
-
-
-
摘要:
Imagination Technologies宣布:携手百度飞桨(PaddlePaddle)及多家合作伙伴共同发起“硬件生态共创计划”,利用自身的优势技术和市场应用经验共同构建高效的软硬一体平台方案,将百度飞桨软件的先进算法和灵活性与Imagination异构计算IP技术相结合,支持下游芯片及应用开发商在此基础上快速创建全面优化的解决方案。
-
-
-
SUN Zhengzheng;
孙征征;
LAN Yazhu;
兰亚柱;
FU Bin-zhang;
付斌章
- 《2016年全国计算机体系结构学术年会 (ACA2016)》
| 2016年
-
摘要:
网络功能虚拟化等新兴应用的蓬勃发展对Key-Value查询的能效提出了更高要求.传统的解决方法要么采用基于软件Hash表,要么采用专用的三态内容可寻址存储器(TCAM)芯片进行加速.其中,软件方法实现成本低,但是在数据冲突较高时会导致查表性能急速下降;硬件TCAM方法具有优良的时间特性,但其价格昂贵、耗能巨大.目前,随着基于现场可编程门阵列FPGA的异构计算技术的高速发展,利用系统已经提供的FPGA资源对基于软件实现的Hash表结构进行加速成为一种性价比更佳的解决方案.探讨如何利用FPGA上的RAM资源来实现一种具有高扩展性和高能效比的TCAM逻辑.与传统的TCAM结构不同,提出的架构支持查表范围的动态缩放,从而可以有效减少查表功耗.为了验证方案的有效性,利用Virtex-7系列FPGA对本文方案进行实现和评估,并与软件查表的性能进行详细比较.实验表明,本文方案吞吐量可达到234 Mpps,查表延迟为25.56 ns.相比软件的方法,吞吐量提高780倍,延迟降低240倍.
-
-
WANG Xu;
王旭;
WU Fan;
吴帆;
ZHANG Xuan;
章旋;
LUO Bangqi;
骆邦其
- 《2014年全国开放式分布与并行计算学术年会》
| 2014年
-
摘要:
根据ANSI/ANS-3.5-1998规定以及核电厂建模精度的提高,对核电模拟机仿真速度提出了更高的要求.但是目前已难以通过提升中央处理器(CPU)频率的方式来提升现有模拟机的运算速度.与此同时,CPU/GPU异构计算融合了串行/并行计算,利用显卡(GPU)的并行计算能力可极大提升现有桌面电脑的运算能力,目前已经广泛应用于科学研究.英伟达公司的CUDA平台被用于开发CPU/GPU异构计算应用程序,来提升核电厂全范围模拟机的仿真计算.通过核电厂全范围模拟机运行测试对比,证实使用CPU/GPU异构计算程序,能有效提升模拟机运行速度.
-
-
HAO Shui-Xia;
郝水侠;
ZENG Guo-Sun;
曾国荪
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
异构计算是高效能计算发展的必然趋势,针对异构计算运行中并行任务和体系结构难匹配问题,提出实现并行任务和体系结构匹配的并行任务分簇方法.本文首先给出效能的概念及异构计算中体系结构感知的分簇问题,然后从理论上分析了异构匹配与效能的关系,提出了实现异构计算匹配和结构匹配的分簇理论,目的是发挥异构计算中机器潜能,协同处理并行任务,实现高效能.在此基础上,给出相应的算法,最后通过仿真实验说明该方法可通过簇图与体系结构的匹配缩短通信开销在执行时间所占比例,从而缩短并行执行时间,提高系统利用率,最终实现异构计算的高效能.
-
-
-
-
WANG Guan;
王冠;
WANG Yuxin;
王宇新;
CHEN Xin;
陈鑫;
WANG Fei;
王飞;
GUO He;
郭禾
- 《2016年全国开放式分布与并行计算学术年会》
| 2016年
-
摘要:
分布式环境下的异构计算系统(HCS)是大数据时代进行数据密集型计算不可或缺的,一个有效的任务调度算法可以提高整个异构计算系统的效率.在对异构环境下的任务调度进行有向无环图(DAG)建模的基础上,提出基于直接后继节点完成时间的异构调度算法(HSFT).在计算开销和通信开销差异度较大的异构环境中,考虑两者之间的平衡,采用更为合理的以计算均值与标准方差的乘积和通信权值与任务节点出度的比值作为优先权值计算方法,并在考虑最快完成时间(EFT)的基础上,将直接后继节点完成时间(SFT)用于处理器分配策略.实验结果表明,HSFT在不增加算法时间复杂度的情况下,比HEFT、SDBATS、PEFT等算法有更短的调度长度(makespan)、更优的调度长度比和效率.
-
-
-
Zhao Yaqian;
赵雅倩;
Guo Zhenhua;
郭振华;
Fan Baoyu;
范宝余;
Hu Leijun;
胡雷钧;
Gao Kai;
高开
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
随着多媒体技术的不断发展,超大规模的图像数据量给数据中心服务器的存储和网络带宽带来了严重的挑战.作为新型图像文件格式,与JPEG、PNG相比,WebP可以减少25%~34%的文件大小,能够有效缓解这一挑战.但是,WebP编码需要较高的计算复杂度,为了提高在数据中心服务器中WebP编码的能效,本文基于OpenCL语言对WebP图像有损压缩算法FPGA异构加速技术展开研究.通过对标准WebP图像有损压缩算法进行功能优化,在压缩率、吞吐率性能、FPGA资源之间进行平衡,最后,基于OpenCL语言在Intel Arria10GX1150FPGA上实现了压缩率相当于method=1压缩模式级别的WebP图像有损压缩算法.本文提出的WebP FPGA异构加速方案整体吞吐率性能可到281MPixel/s,与24核的Intel Xeon E5-2690v3处理器相比,每瓦特性能可提高2.29倍;与AWS FPGA云服务提供的Xilinx WebP方案相比,吞吐率性能可提高2.5倍;与阿里FPGA云服务提供的联捷科技WebP方案相比,吞吐率性能可提高1.79倍.
-
-
Zhao Yaqian;
赵雅倩;
Guo Zhenhua;
郭振华;
Fan Baoyu;
范宝余;
Hu Leijun;
胡雷钧;
Gao Kai;
高开
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
随着多媒体技术的不断发展,超大规模的图像数据量给数据中心服务器的存储和网络带宽带来了严重的挑战.作为新型图像文件格式,与JPEG、PNG相比,WebP可以减少25%~34%的文件大小,能够有效缓解这一挑战.但是,WebP编码需要较高的计算复杂度,为了提高在数据中心服务器中WebP编码的能效,本文基于OpenCL语言对WebP图像有损压缩算法FPGA异构加速技术展开研究.通过对标准WebP图像有损压缩算法进行功能优化,在压缩率、吞吐率性能、FPGA资源之间进行平衡,最后,基于OpenCL语言在Intel Arria10GX1150FPGA上实现了压缩率相当于method=1压缩模式级别的WebP图像有损压缩算法.本文提出的WebP FPGA异构加速方案整体吞吐率性能可到281MPixel/s,与24核的Intel Xeon E5-2690v3处理器相比,每瓦特性能可提高2.29倍;与AWS FPGA云服务提供的Xilinx WebP方案相比,吞吐率性能可提高2.5倍;与阿里FPGA云服务提供的联捷科技WebP方案相比,吞吐率性能可提高1.79倍.