硬件加速
硬件加速的相关文献在1998年到2023年内共计830篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文390篇、会议论文16篇、专利文献48945篇;相关期刊207种,包括电子技术应用、电子科技、今日电子等;
相关会议15种,包括第十九届计算机工程与工艺年会暨第五届微处理器技术论坛、全国抗恶劣环境计算机第二十四届学术年会、2013年全国微波毫米波会议等;硬件加速的相关文献由1735位作者贡献,包括何再生、何剑、倪小珂等。
硬件加速—发文量
专利文献>
论文:48945篇
占比:99.18%
总计:49351篇
硬件加速
-研究学者
- 何再生
- 何剑
- 倪小珂
- 刘昱泽
- 刘毓
- 刘金水
- 张宇
- 李磊
- 王威廉
- 王超
- 肖刚军
- 鄢贵海
- 刘磊
- 单羿
- 吴海华
- 牛昕宇
- 王中风
- 虞智
- 赵雄波
- 陈鹏
- 黄智勇
- A·R·帕特南
- C·J·塞拉
- D·C·伯格
- S·F·海尔
- 严志刚
- 乌平德·S·巴巴尔
- 伊尔凡·A·卡恩
- 伊德阿斯·米尔
- 何春
- 兰巨龙
- 刘亮亮
- 刘伟
- 古温德尔·S·查卜拉
- 吴松龄
- 吴玲达
- 周洪
- 周炎钧
- 姚力
- 姜凯
- 张小俊
- 张志丽
- 托马斯·克林根布朗
- 方伟
- 李渊明
- 杨超
- 沈强
- 沙雷什·马赫什瓦立
- 王卫东
- 王子彤
-
-
屈心媛;
徐宇;
黄志洪;
蔡刚;
方震
-
-
摘要:
现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1,R2)达(0.957,0.962)的卓越计算资源利用率。
-
-
肖帅;
杨秀芝
-
-
摘要:
为了降低HEVC视频编码标准中帧内预测的复杂度,本文提出了基于深度学习的帧内块划分提前终止算法,并利用FPGA开发板进行硬件加速。提前终止算法利用深度学习中的卷积神经网络提取帧内CTU块的纹理特征,并根据提取到的纹理特征决定帧内块划分情况,进行帧内块划分的提前终止,从而减少帧内预测的复杂度;硬件加速利用Xilinx Vitis AI开发环境实现帧内卷积神经网络的FPGA硬件部署,完成硬件加速过程。测试结果表明,与HM16.5相比,本文算法在保证性能的情况下可以降低约59.253%的编码复杂度,在经过FPGA硬件加速过程后,帧内块划分预测速度最高可达到1269.27FPS。
-
-
方立;
孙鹏;
胡琳琳
-
-
摘要:
数字电视机顶盒作为一类嵌入式设备,相比于个人计算机,它具有处理能力偏低、资源受限等特点。在机顶盒上的浏览器面向的主要业务是视频业务,一般存在较多需要大量绘图的网页元素,仅依靠CPU完成渲染工作会造成网页加载缓慢、响应大幅延时的问题,严重影响用户体验。本文阐述并实践了一种调用GPU对嵌入式浏览器进行硬件加速的机制,绘图复杂的网页元素调用图形处理器辅助渲染,然后合成到最终网页。实验结果表明,使用硬件加速改造后的嵌入式浏览器比未经硬件加速改造的嵌入式浏览器,在同样的硬件平台、同样的网络条件及访问相同网页情况下,常用视频业务(CCTV视频、腾讯视频、优酷视频、爱奇艺视频)的启动加载主页耗时、遥控交互单次耗时和视频加载耗时3个方面分别平均减少了70%、40%和50%。
-
-
巩杰;
赵烁;
何虎;
邓宁
-
-
摘要:
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。
-
-
苑福利;
宫磊;
娄文启;
陈香兰
-
-
摘要:
近年来,随着可重构计算方法和可重构硬件特性的不断演进,基于FPGA动态部分重构技术构建运行时可重构加速器已经成为解决传统加速器设计中硬件资源限制问题的重要途径。然而,区别于传统静态重构加速器,FPGA的动态重构开销是影响硬件加速整体性能的重要因素,而目前尚缺少能够在可重构硬件设计的早期阶段进行动态重构开销精确估算的相关方法。为此,通过对主流FPGA的比特流配置文件进行剖析,提出了一种基于可重构功能模块消耗的资源估算相应部分重构比特流文件大小的方法,并在此基础上构建了运行时重构的性能开销模型。作为验证,在Xilinx VC709 FPGA平台对神经网络计算方法如Winograd算法、FFT算法、GEMM算法和加密算法如AES、DES等进行了动态重构模式下的硬件部署。实验结果表明,所提出的性能开销模型可以对不同算法的动态重构开销进行快速评估,并达到了平均98%的准确率,能够便捷地应用于动态重构加速器设计中。
-
-
张越;
陶冶博;
沈建明;
华军;
葛永彦
-
-
摘要:
本文提出了一种基于ZYNQ SOC平台的多功能图像处理硬件加速系统并详细阐述了该系统的架构及对应的图像处理加速过程,旨在发挥该平台所含的FPGA模块与ARM模块各自的优势,进而达到使用一种通用架构对多种图像处理应用进行硬件加速的目的。同时,本文提出了两种可配置硬件加速模块的实现方式并比较了其各自结构特点,进而探讨了其各自的适用场景。最后,本文介绍了本系统的系统架构及在不同应用下的工作过程,并对SOBEL边缘检测,运动目标边缘检测,人脸检测三种不同应用进行同平台下的对比测试,测试结果表明:相对于单纯使用该平台上的ARM处理器进行处理,使用本文所提出的架构,三种不同应用分别获得了50%~90%的加速效果。
-
-
文丰;
王乐群;
张凯华
-
-
摘要:
针对运动目标检测算法在传统PC端上实时性较差的问题,设计了一种基于ZYNQ硬件加速的运动目标实时检测系统。将摄像头采集的彩色视频流转换为灰度视频流并进行图像处理来实现运动目标检测,并将检测后的结果与原彩色视频流叠加来显示实时检测结果;选用经典的帧差法,并在ZYNQ平台上设计和实现该算法,在VDMA存储中使用乒乓操作加速,中值滤波进行图像处理时使用流水线操作并行加速,大大地提高了算法处理速度。设计实现后对传统的CPU+OpenCV实现横向对比分析,结果表明ZYNQ平台在实时性上具有明显优势。
-
-
吴宇航;
何军
-
-
摘要:
为实现边缘端人体行为识别需满足低功耗、低延时的目标,本文设计了一种以卷积神经网络(CNN)为基础、基于可穿戴传感器的快速识别系统.首先通过传感器采集数据,制作人体行为识别数据集,在PC端预训练基于CNN的行为识别模型,在测试集达到93.61%的准确率.然后,通过数据定点化、卷积核复用、并行处理数据和流水线等方法实现硬件加速.最后在FPGA上部署识别模型,并将采集到的传感器数据输入到系统中,实现边缘端的人体行为识别.整个系统基于Ultra96-V2进行软硬件联合开发,实验结果表明,输入时钟为200 M的情况下,系统在FPGA上运行准确率达到91.80%的同时,识别速度高于CPU,功耗仅为CPU的1/10,能耗比相对于GPU提升了91%,达到了低功耗、低延时的设计要求.
-
-
彭日光;
彭爽;
杜琦
-
-
摘要:
本文提出了一种基于XilinxSDSoC的OpenCV函数库的硬件加速方法,将函数库中对资源依赖程度高、耗时时间长的函数,动态重构到FPGA的硬件逻辑资源上执行,从而对图像处理函数进行硬件加速。实验结果表明:对库函数中的自适应阈值、中值滤波、均值滤波等算法的库函数实现硬件加速,缩短了函数的执行时间,提高了系统性能。
-
-
雷晨;
何乐生;
王威廉
-
-
摘要:
针对云南边远山区低网络覆盖率和低传输速率下普通移动设备对神经网络处理速度慢、成本高、效率低的问题,提出一种基于APSoC的心音辅助诊断算法的硬件加速方法。在对5122例心音信号进行去噪、特征提取等预处理后,训练CNN网络模型用于心音样本分类。设计通用卷积电路与通用池化电路,将HLS优化后生成硬件电路部署至Zynq-7020 APSoC硬件平台,实现CNN算法的硬件加速。实验结果表明,相同条件下,其分类速度相比Intel-i7-8700提高了35倍,分类准确率仅损失了不到1%。该方法满足了高性能、低功耗、低成本等要求,为先心病初诊辅助诊断提供了一种离线解决方案。
-
-
桂临秋;
胡哲琨;
袁浩;
代征
- 《全国抗恶劣环境计算机第二十八届学术年会》
| 2018年
-
摘要:
人工智能技术是地面无人平台目标识别、视觉导航、环境感知等技术的核心,然而以神经网络为代表的智能算法计算密集度高、占用计算资源大,难以部署在资源受限的地面无人平台上.针对地面无人平台强实时性需求、人工智能算法密集型计算需求和小型化嵌入式系统中算力功耗等资源限制,文章以地面无人平台物体识别任务为背景,选择卷积神经网络作为物体识别算法并进行适当裁剪以适应资源受限环境的需求;基于ARM+FPGA异构计算框架与OpenCL并行编程标准,充分利用FPGA流水并行处理的特性,对卷积神经网络算法进行硬件加速,提高计算效率.使用该系统处理不同种类的物体图像进行实验,实验数据表明,该系统可以对实验物体进行正常识别,同时识别效率有着非常明显的提高.
-
-
王阳;
陶华敏;
肖山竹;
邓秋群
- 《第十九届计算机工程与工艺年会暨第五届微处理器技术论坛》
| 2015年
-
摘要:
针对信号处理算法中广泛涉及的小规模三角矩阵求逆运算,基于FPGA平台对其进行了硬件加速的架构设计.根据求逆运算中的基本操作,设计了对应的双精度浮点处理单元(PE),并基于流水技术,实现了对PE的分时复用,使系统具有更高的工作主频及更少的资源消耗.所设计的求逆模块相比于MATLAB具有良好的计算加速效果,能较好满足计算的实时性要求.
-
-
胡国;
赵小冬;
韩伟;
白林亭;
李明娟
- 《全国抗恶劣环境计算机第二十四届学术年会》
| 2014年
-
摘要:
CFD(计算流体力学)计算任务具有计算密集,耗时集中等特点.在CPU+FPGA异构平台下,将FPGA作为硬件加速协处理器可以实现CFD计算性能的提升.本文针对Euler3D程序开展了计算任务的软硬件划分和模块的硬化与封装研究,并在搭建的CPU+FPGA平台下进行了硬件加速实验与验证.减少I/O开销和利用多片FPGA并行加速是进一步提升CFD计算硬件加速性能的有效手段.
-
-
Zhu Xiangyuan;
朱香元;
Li Renfa;
李仁发
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
生物序列比对是生物信息学领域重要的研究工具,主要用于确定序列的生物属性.由于该领域应用的广泛性、计算的复杂性以及海量数据特征,对计算机性能提出越来越高的高求,迫切需要高性能计算的支持.对基于硬件加速的生物序列比对进行综述,侧重从高性能计算对序列比对领域的影响及挑战的角度,按照比对时所使用的体系结构的区别,对目前基于硬件加速的序列比对方法进行了归类;分别对各类方法作了深入的对比分析并总结出技术难点;最后,经过对现有研究工作的分析,对该领域存在的问题作出了总结,展望了今后的发展方向.
-
-
-
-
-
单羿;
杨天;
汪玉;
杨华中
- 《2010年全国高性能计算学术年会(HPC china2010)》
| 2010年
-
摘要:
使用基于GPU 和FPGA的专用硬件进行通用计算的加速可以充分利用算法的 并行性,是当今高性能计算的热点.为解决在异构加速平台上的并行编程效率问题,本文提出了一种基于MapReduce的编程模型,能够在FPGA 上实现与软件类似的编程 灵活性,并且可扩展到GPGPU上.应用实例证明,这种编程模型可以有效提高硬件计 算的效率.
-
-