您现在的位置：首页> 研究主题> 硬件加速

硬件加速

硬件加速的相关文献在1998年到2023年内共计830篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术等领域，其中期刊论文390篇、会议论文16篇、专利文献48945篇；相关期刊207种，包括电子技术应用、电子科技、今日电子等；相关会议15种，包括第十九届计算机工程与工艺年会暨第五届微处理器技术论坛、全国抗恶劣环境计算机第二十四届学术年会、2013年全国微波毫米波会议等；硬件加速的相关文献由1735位作者贡献，包括何再生、何剑、倪小珂等。

硬件加速—发文量

期刊论文>

论文：390篇占比：0.79%

会议论文>

论文：16篇占比：0.03%

专利文献>

论文：48945篇占比：99.18%

总计：49351篇

硬件加速—发文趋势图

硬件加速
-研究学者

何再生
何剑
倪小珂
刘昱泽
刘毓
刘金水
张宇
李磊
王威廉
王超
肖刚军
鄢贵海
刘磊
单羿
吴海华
牛昕宇
王中风
虞智
赵雄波
陈鹏
黄智勇
A·R·帕特南
C·J·塞拉
D·C·伯格
S·F·海尔
严志刚
乌平德·S·巴巴尔
伊尔凡·A·卡恩
伊德阿斯·米尔
何春
兰巨龙
刘亮亮
刘伟
古温德尔·S·查卜拉
吴松龄
吴玲达
周洪
周炎钧
姚力
姜凯
张小俊
张志丽
托马斯·克林根布朗
方伟
李渊明
杨超
沈强
沙雷什·马赫什瓦立
王卫东
王子彤

硬件加速
-相关主题

硬件加速
-相关期刊

硬件加速
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(2)
2022
(139)
2021
(90)
2020
(14)
2019
(29)
2018
(34)
2017
(12)
2016
(14)
2015
(16)
2014
(4)
2013
(16)
2012
(15)
2011
(26)
2010
(21)
2009
(23)
2008
(28)
2007
(25)
2006
(28)
2005
(13)
2004
(3)
2003
(2)
2002
(3)
1999
(6)
1998
(4)

期刊

收录数据库

作者

关键词

申请/权力人

;

1. 一种基于三维可变换CNN加速结构的并行度优化搜索算法
- 屈心媛；徐宇；黄志洪；蔡刚；方震
- 摘要：现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1,R2)达(0.957,0.962)的卓越计算资源利用率。
2. 基于深度学习的HEVC帧内预测算法研究及FPGA硬件加速
- 肖帅；杨秀芝
- 摘要：为了降低HEVC视频编码标准中帧内预测的复杂度,本文提出了基于深度学习的帧内块划分提前终止算法,并利用FPGA开发板进行硬件加速。提前终止算法利用深度学习中的卷积神经网络提取帧内CTU块的纹理特征,并根据提取到的纹理特征决定帧内块划分情况,进行帧内块划分的提前终止,从而减少帧内预测的复杂度;硬件加速利用Xilinx Vitis AI开发环境实现帧内卷积神经网络的FPGA硬件部署,完成硬件加速过程。测试结果表明,与HM16.5相比,本文算法在保证性能的情况下可以降低约59.253%的编码复杂度,在经过FPGA硬件加速过程后,帧内块划分预测速度最高可达到1269.27FPS。
3. 基于Chromium的嵌入式浏览器硬件加速机制研究
- 方立；孙鹏；胡琳琳
- 摘要：数字电视机顶盒作为一类嵌入式设备,相比于个人计算机,它具有处理能力偏低、资源受限等特点。在机顶盒上的浏览器面向的主要业务是视频业务,一般存在较多需要大量绘图的网页元素,仅依靠CPU完成渲染工作会造成网页加载缓慢、响应大幅延时的问题,严重影响用户体验。本文阐述并实践了一种调用GPU对嵌入式浏览器进行硬件加速的机制,绘图复杂的网页元素调用图形处理器辅助渲染,然后合成到最终网页。实验结果表明,使用硬件加速改造后的嵌入式浏览器比未经硬件加速改造的嵌入式浏览器,在同样的硬件平台、同样的网络条件及访问相同网页情况下,常用视频业务(CCTV视频、腾讯视频、优酷视频、爱奇艺视频)的启动加载主页耗时、遥控交互单次耗时和视频加载耗时3个方面分别平均减少了70%、40%和50%。
4. 基于FPGA的量化CNN加速系统设计
- 巩杰；赵烁；何虎；邓宁
- 摘要：深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。
5. 动态重构硬件加速中的性能开销建模
- 苑福利；宫磊；娄文启；陈香兰
- 摘要：近年来,随着可重构计算方法和可重构硬件特性的不断演进,基于FPGA动态部分重构技术构建运行时可重构加速器已经成为解决传统加速器设计中硬件资源限制问题的重要途径。然而,区别于传统静态重构加速器,FPGA的动态重构开销是影响硬件加速整体性能的重要因素,而目前尚缺少能够在可重构硬件设计的早期阶段进行动态重构开销精确估算的相关方法。为此,通过对主流FPGA的比特流配置文件进行剖析,提出了一种基于可重构功能模块消耗的资源估算相应部分重构比特流文件大小的方法,并在此基础上构建了运行时重构的性能开销模型。作为验证,在Xilinx VC709 FPGA平台对神经网络计算方法如Winograd算法、FFT算法、GEMM算法和加密算法如AES、DES等进行了动态重构模式下的硬件部署。实验结果表明,所提出的性能开销模型可以对不同算法的动态重构开销进行快速评估,并达到了平均98%的准确率,能够便捷地应用于动态重构加速器设计中。
6. 基于ZYNQ SOC的多功能图像处理硬件加速系统
- 张越；陶冶博；沈建明；华军；葛永彦
- 摘要：本文提出了一种基于ZYNQ SOC平台的多功能图像处理硬件加速系统并详细阐述了该系统的架构及对应的图像处理加速过程,旨在发挥该平台所含的FPGA模块与ARM模块各自的优势,进而达到使用一种通用架构对多种图像处理应用进行硬件加速的目的。同时,本文提出了两种可配置硬件加速模块的实现方式并比较了其各自结构特点,进而探讨了其各自的适用场景。最后,本文介绍了本系统的系统架构及在不同应用下的工作过程,并对SOBEL边缘检测,运动目标边缘检测,人脸检测三种不同应用进行同平台下的对比测试,测试结果表明:相对于单纯使用该平台上的ARM处理器进行处理,使用本文所提出的架构,三种不同应用分别获得了50%~90%的加速效果。
7. 基于ZYNQ加速的帧差法运动目标检测
- 文丰；王乐群；张凯华
- 摘要：针对运动目标检测算法在传统PC端上实时性较差的问题,设计了一种基于ZYNQ硬件加速的运动目标实时检测系统。将摄像头采集的彩色视频流转换为灰度视频流并进行图像处理来实现运动目标检测,并将检测后的结果与原彩色视频流叠加来显示实时检测结果;选用经典的帧差法,并在ZYNQ平台上设计和实现该算法,在VDMA存储中使用乒乓操作加速,中值滤波进行图像处理时使用流水线操作并行加速,大大地提高了算法处理速度。设计实现后对传统的CPU+OpenCV实现横向对比分析,结果表明ZYNQ平台在实时性上具有明显优势。
8. 基于FPGA的人体行为识别系统的设计
- 吴宇航；何军
- 摘要：为实现边缘端人体行为识别需满足低功耗、低延时的目标,本文设计了一种以卷积神经网络(CNN)为基础、基于可穿戴传感器的快速识别系统.首先通过传感器采集数据,制作人体行为识别数据集,在PC端预训练基于CNN的行为识别模型,在测试集达到93.61%的准确率.然后,通过数据定点化、卷积核复用、并行处理数据和流水线等方法实现硬件加速.最后在FPGA上部署识别模型,并将采集到的传感器数据输入到系统中,实现边缘端的人体行为识别.整个系统基于Ultra96-V2进行软硬件联合开发,实验结果表明,输入时钟为200 M的情况下,系统在FPGA上运行准确率达到91.80%的同时,识别速度高于CPU,功耗仅为CPU的1/10,能耗比相对于GPU提升了91%,达到了低功耗、低延时的设计要求.
9. 一种硬件加速OpenCV的图像处理方法研究
- 彭日光；彭爽；杜琦
- 摘要：本文提出了一种基于XilinxSDSoC的OpenCV函数库的硬件加速方法,将函数库中对资源依赖程度高、耗时时间长的函数,动态重构到FPGA的硬件逻辑资源上执行,从而对图像处理函数进行硬件加速。实验结果表明:对库函数中的自适应阈值、中值滤波、均值滤波等算法的库函数实现硬件加速,缩短了函数的执行时间,提高了系统性能。
10. APSoC心音辅助诊断算法硬件加速方法
- 雷晨；何乐生；王威廉
- 摘要：针对云南边远山区低网络覆盖率和低传输速率下普通移动设备对神经网络处理速度慢、成本高、效率低的问题,提出一种基于APSoC的心音辅助诊断算法的硬件加速方法。在对5122例心音信号进行去噪、特征提取等预处理后,训练CNN网络模型用于心音样本分类。设计通用卷积电路与通用池化电路,将HLS优化后生成硬件电路部署至Zynq-7020 APSoC硬件平台,实现CNN算法的硬件加速。实验结果表明,相同条件下,其分类速度相比Intel-i7-8700提高了35倍,分类准确率仅损失了不到1%。该方法满足了高性能、低功耗、低成本等要求,为先心病初诊辅助诊断提供了一种离线解决方案。

1. 促进硬件加速器中的安全通信管理的方法及硬件加速器
- 微软技术许可有限责任公司
- 公开公告日期：2022.01.21
- 摘要：本文公开了使用硬件加速器来管理安全通信的计算系统、设备和相关联的方法。在一个实施例中，一种方法包括在硬件加速器的FPGA处经由计算机网络从对等计算设备接收消息，并检查所接收的消息中的每一个以确定所接收的消息是否包含应用数据。该方法然后可以包括将不包含应用数据的所接收的消息的第一子集转发到处理器，以用于进一步处理，并且根据安全协议来处理包含应用数据的消息的第二子集，而不将第二子集转发到处理器，以减少通信桥上的带宽的消耗。
2. 主机与硬件加速模块的交互方法、硬件加速设备及介质
- 镕铭微电子(济南)有限公司
- 公开公告日期：2022.03.11
- 摘要：本发明公开了一种主机与硬件加速模块的交互方法、硬件加速设备及介质，所述交互方法包括：响应主机的硬件加速命令；根据PCIe总线的非挥发性设备的接口标准NVMe协议，与所述主机交互硬件加速数据。本发明有效降低主机与硬件加速模块之间通信方式的复杂度，有效降低在主机中升级或增加硬件加速模块过程的复杂度和代价。
3. 一种卷积硬件加速方法及卷积硬件加速电路
- 浙江芯昇电子技术有限公司
- 公开公告日期：2022.05.17
- 摘要：本发明提供一种卷积硬件加速方法及卷积硬件加速电路。卷积硬件加速方法包括：将特征图分割为多个图块；在进行分割时，分割的图块的列宽和MAC运算单元的数量相匹配，分割的图块的行高为内部存储模块可容纳的最大行数；按顺序读入一个图块和对应的卷积核在进行卷积运算所需的数据；依次提取所述一个图块和所述对应的卷积核的提取数据；以及进行卷积运算并输出运算结果到外部存储模块。采用本发明提供的卷积硬件加速方法，可以用较小的内部缓存面积可以支持任意大小分辨率的特征图进行卷积运算；采用这样的图块分割方式，使得MAC运算单元的利用效率较高，且可以尽可能地减少垂直方向上边界数据的读取，进一步提高卷积的运算速度。
4. 硬件加速器复用方法和硬件加速装置
- 联想(北京)有限公司
- 公开公告日期：2021.04.13
- 摘要：本公开提供了一种硬件加速器复用方法，包括接收报文并传递至中转模块，所述中转模块将所述报文传递至至少一个处理模块以执行至少一个处理操作，其中，在每个处理操作执行完成后，执行所述处理操作的第一处理模块将所述报文返回至所述中转模块，所述中转模块判断所述报文是否处理结束，在所述报文处理尚未结束的情况下，将所述报文传递至第二处理模块以继续执行处理操作，在所述报文处理结束的情况下，通过外部接口输出处理后的数据。本公开还提供了一种硬件加速装置。
5. 一种卷积硬件加速方法及卷积硬件加速电路
- 浙江芯昇电子技术有限公司
- 公开公告日期：2022-03-11
- 摘要：本发明提供一种卷积硬件加速方法及卷积硬件加速电路。卷积硬件加速方法包括：将特征图分割为多个图块；在进行分割时，分割的图块的列宽和MAC运算单元的数量相匹配，分割的图块的行高为内部存储模块可容纳的最大行数；按顺序读入一个图块和对应的卷积核在进行卷积运算所需的数据；依次提取所述一个图块和所述对应的卷积核的提取数据；以及进行卷积运算并输出运算结果到外部存储模块。采用本发明提供的卷积硬件加速方法，可以用较小的内部缓存面积可以支持任意大小分辨率的特征图进行卷积运算；采用这样的图块分割方式，使得MAC运算单元的利用效率较高，且可以尽可能地减少垂直方向上边界数据的读取，进一步提高卷积的运算速度。
6. 视频编码系统、硬件加速装置及硬件加速方法
- 杭州中天微系统有限公司
- 公开公告日期：2022-06-03
- 摘要：本说明书实施例提供视频编码系统、硬件加速装置及硬件加速方法，其中视频编码系统包括：图像信号处理器、图像存储模块、硬件加速装置和视频编码模块；图像存储模块，被配置为接收并写入图像信号处理器发送的像素；硬件加速装置，被配置为监测写入图像存储模块的像素并进行写计数，获得写计数结果；接收视频编码模块发送的编码请求，根据写计数结果，确定图像存储模块中当前像素数目是否满足编码数目，若满足，则向视频编码模块发送读取信号；视频编码模块，被配置为接收到读取信号的情况下，从图像存储模块读取编码数目的像素进行编码。如此，极大的降低了图像信号处理器与视频编码模块之间的交互延时，极大提高了视频编码的编码效率。
7. 一种RAID 6硬件加速电路结构和RAID 6硬件加速实现方法
- 苏州浪潮智能科技有限公司
- 公开公告日期：2022-01-28
- 摘要：本发明公开了一种RAID 6硬件加速电路结构，包括：参数解析模块，配置用于获取RAID 6算法的参数系数，并基于参数系数计算运算系数；数据缓存模块，配置用于存储磁盘数据；有限域运算模块，配置用于依次获取当前盘对应的运算系数和磁盘数据，并基于当前盘对应的运算系数和磁盘数据进行有限域乘法运算以得到当前盘的中间值；其中，有限域运算模块进一步配置用于将计算得到的第一个盘的中间值缓存到中间值存储模块，将计算得到的其他盘的中间值与中间值存储模块中的值进行异或运算，并将运算结果缓存到中间值存储模块，若是当前盘为最后一个盘，则将中间值存储模块中的值作为最终结果输出。本发明还公开了RAID 6硬件加速实现方法。
8. 硬件加速器和硬件加速器方法
- 三星电子株式会社
- 公开公告日期：2022-11-22
- 摘要：公开了硬件加速器和硬件加速器方法。所述硬件加速器方法包括：接收输入数据；从主机加载查找表(LUT)；通过将输入数据输入到比较器来确定LUT的地址；基于所述地址获得与输入数据对应的LUT的值；以及基于LUT的值确定与输入数据对应的非线性函数的值，其中，LUT基于输出非线性函数的值的神经网络的权重而确定。
9. 基于硬件加速器的抓包方法、装置、硬件加速器及介质
- 展讯通信(上海)有限公司
- 公开公告日期：2021-12-24
- 摘要：本发明提供了一种基于硬件加速器的抓包方法、装置、硬件加速器及介质，该方法应用于硬件加速器，该硬件加速器通过该硬件加速器的端口与网络设备通信，该方法包括：获取测试配置信息，该测试配置信息包括目标端口；根据该测试配置信息，在通过该目标端口接收来自该网络设备的数据包时，对该目标端口上接收的数据包进行抓包，记录数据包的调试信息。因为网络设备所收发的数据包均会经过硬件加速器，所以通过硬件加速器进行抓包时，不会出现日志丢失的情况，且时间戳是统一的。
10. 硬件加速器执行的方法、硬件加速器和神经网络装置
- 三星电子株式会社
- 公开公告日期：2021-09-17
- 摘要：提供了硬件加速器执行的方法、硬件加速器和神经网络装置。所述方法包括：接收待分类图像，通过对待分类图像执行与神经网络的全连接层对应的计算处理，生成与待分类图像被分类到相应类的概率相关的结果值作为概率相关数据，加载查找表，基于概率相关数据的概率相关数据分布将概率相关数据的每个概率相关数据值映射到查找表中的索引，使用查找表获得与概率相关数据值对应的输出数据值，以及基于输出数据值确定待分类图像所属的类。输出数据值与概率相关数据值的相应柔性最大值成比例。

硬件加速

硬件加速—发文量

硬件加速—发文趋势图

硬件加速-研究学者

硬件加速-相关主题

硬件加速-相关期刊

硬件加速-相关会议

硬件加速
-研究学者

硬件加速
-相关主题

硬件加速
-相关期刊

硬件加速
-相关会议