矩阵乘法
矩阵乘法的相关文献在1979年到2022年内共计411篇,主要集中在自动化技术、计算机技术、数学、无线电电子学、电信技术
等领域,其中期刊论文200篇、会议论文7篇、专利文献19462篇;相关期刊150种,包括高师理科学刊、当代电大、内蒙古电大学刊等;
相关会议7种,包括2016中国计算机辅助设计与图形学会大会、军队院校数学课程创新教学研讨会、2012全国高性能计算学术年会等;矩阵乘法的相关文献由864位作者贡献,包括王绍迪、刘仲、田希等。
矩阵乘法—发文量
专利文献>
论文:19462篇
占比:98.95%
总计:19669篇
矩阵乘法
-研究学者
- 王绍迪
- 刘仲
- 田希
- 郭阳
- 彭元喜
- 扈啸
- 陈书明
- 陈海燕
- 顾静相
- 不公告发明人
- 何雷骏
- 刘胜
- 徐斌
- 王开兴
- 顾乃杰
- A·阿克里博
- R·凡伦天
- 万江华
- 克里斯·马丁
- 吴家铸
- 孙永节
- 王永文
- 田翔
- 窦强
- 谢林川
- 阿祖拉·普利梅诺
- 陈磊
- 陈耀武
- 陈跃跃
- 龚国辉
- M·J·查尼
- 于佳
- 何颂颂
- 刘进锋
- 周德俊
- 安德鲁·埃弗里特·菲尔普斯
- 崔翔
- 朱海涛
- 李晓雯
- 王勇
- 诺曼·保罗·约皮
- 陈佳升
- 鲁华祥
- 黄乐天
- 龚国良
- A·K·米什拉
- A·杨
- A·苏普鲁恩
- A·阿马迪
- B·乔杜里
-
-
苟悦宬
-
-
摘要:
为了提升矩阵乘法的运算速度,优化运算性能,提出了一种基于并行计算的方法。采用OpenMP+MPI混合编程,选用华为鲲鹏处理器和PC机作为实验平台。其中MPI将分块后的小矩阵广播至每个进程,在每个进程中使用OpenMP进行矩阵相乘的运算,再使用MPI进行运算结果的聚集,最后显示时间性能等相关信息。分别选用PC机,单台和多台华为鲲鹏服务器,分配不同的进程数,对运算结果进行了相关性能的分析与总结。
-
-
高峰
-
-
摘要:
当今社会随着网络的发展和移动平台的应用,移动端的应用需求大量增加,数据需求增长迅猛,但是数据的相关处理却不能及时同步,因此产生了数据过载等情况。而推荐系统能够有针对性的处理这些难题,推荐算法则是系统中最重要的核心,一个推荐算法的优劣很大程度上影响了系统的运行效率。传统的几种推荐方式各自在某些方面存在一些局限性,而GRU同时考虑了时间的影响和item的特征,所以相比于传统的其他几种推荐方法表现会更好。同时通过结合一些矩阵分解的方式来进一步优化算法,以达到更好的效果。研究GRU算法在基于Session的推荐系统中的应用及优化方案,可以带动目前各主流电商等平台中相关技术的更新,对商家的销售策略制定提供强有力的数据支撑,对经济起到积极的刺激和推动作用。主要是对GRU算法在基于Session的推荐系统中的应用和优化进行分析和研究,以供相关专业人士进行参考和借鉴。
-
-
胥凌
-
-
摘要:
传统的高性能线性代数计算库如BLAS需要开发者具备丰富的性能优化经验,使用困难。TensorFlow、Pytorch等AI框架提供了简单的开发接口,促进了机器学习应用的发展。这些AI框架大量进行线性代数计算,但是不清楚其是否针对线性代数计算进行了性能优化。设计了一组线性代数计算测试程序,评估了AI框架对的线性代数计算的优化程度。分析显示AI框架在计算图模型下可以有效去除冗余子表达式,但仍然缺少自动识别矩阵链最佳括号的相关优化。未来AI框架可以通过吸收现有高性能线性代数加速库的优化技术进一步提升性能。
-
-
王博漾;
庞建民;
徐金龙;
赵捷;
陶小涵;
朱雨
-
-
摘要:
矩阵乘法是众多科学计算的核心,而向量化编程是提升其性能的主要手段之一。针对现有的向量化优化往往存在需要手工进行调优以及与硬件结构映射的问题,基于多面体编译器PPCG,在多面体模型中引入向量代码生成框架,提出了基于多面体模型的矩阵乘法向量代码生成框架。通过对矩阵乘法的向量化方案进行收益分析来确定向量化方案,指导应用框架的代码生成,基于该代码生成框架,有利于矩阵乘法的向量化快速优化。选取13个规模在64×64×64到1 024×1 024×1 024之间的矩阵乘法用例进行实验,结果表明,该框架能够正确生成向量化代码,与基础编译器ICC的自动向量化功能相比,应用该框架生成的向量化代码最高获得了5.09倍的加速和3.39倍的平均加速。
-
-
张文彬
-
-
摘要:
问题驱动下的教学,是以学生为主体的教学模式,侧重于引导学生通过自主学习探索知识.文章讨论了线性代数教学的现状,从简单的实际例子出发,以问题驱动的方式探讨矩阵乘法运算所需要满足的运算规则,逐步将例子推广至两个矩阵乘法的定义;同时,也利用问题驱动的方式探讨了逆矩阵概念的教学.
-
-
汪杨;
王晓蕾;
袁子昂;
袁儒明
-
-
摘要:
矩阵乘法是现代信号处理的基本运算,提高数据的并行处理能力对提升矩阵乘法的运算性能具有重要现实意义.文中在基于NoC多核系统中针对不同维度的矩阵乘法的密集型计算进行任务调度以及资源分配,实现了多种适应于不同矩阵乘法的映射方案,其峰值性能可达5078 MFLOPS.同时,文中设计的运算单元相对独立且可重构,对任意维度的矩阵乘法具有良好的扩展性和通用性,解决了通用矩阵乘法器在固定结构中受到I/O带宽和计算资源的限制而产生的运算效率较低和扩展性较差的缺陷.不同维度矩阵乘法的实验结果分析证实了文中设计的运算性能和正确性.
-
-
王艳;
王希龄;
赖宏达;
李念爽
-
-
摘要:
为了更好地使用编码计算提高分布式机器学习算法运行效率,需要对大规模矩阵乘法的编码计算方案性能开销进行充分的研究.该文考察了面向大规模矩阵乘法的编码计算方案的任务完成时间,同时也考虑了所有参与分布式计算的节点总的计算开销,给出了各个工作节点完成计算任务的时间,均匀分布场景下总的任务完成时间和集群机器总的计算时间的表达式,对比分析了3种编码方案的性能,并通过实验对比了不同情况对任务完成时间与计算节点总计算开销影响,提出了一个启发式算法,提供了不同编码计算方案的选择依据.
-
-
王晓平;
阮杰昌;
任建英
-
-
摘要:
"三教"改革背景下对教师的教学设计提出了更高要求.在矩阵乘法的教学设计中推陈出新,采用了先通过实例创设情境引出本次课重点内容,并通过恰当的问题引导法逐步引导学生探索矩阵乘法的运算规则,再通过例题计算让学生自己总结归纳其运算规律,利用特殊矩阵乘法进行拓展,利用矩阵乘法解决实际问题.这种教学设计符合学生的认知规律,让学生在动手解题过程中逐渐建构起矩阵乘法运算方法.
-
-
-
赵小强;
姜晶菲;
许金伟;
窦勇
-
-
摘要:
将卷积计算转化为矩阵乘法是FPGA上一种高效实现,而现有的转化方法无法根据卷积参数的不同动态调整,限制了卷积计算的并行度.提出一种新的动态余数处理映射模型.该映射模型包含有3个子模型:特征值映射模型,权值映射模型,和输出映射模型.特征值映射模型将特征值转化为特征值矩阵,权值映射模型将权值转化为权值矩阵,特征值矩阵和权值矩阵通过乘累加计算阵列得到卷积计算结果,由输出映射模型将卷积计算结果存储到内存中.在卷积计算过程中,卷积的输出通道数通常不是乘累加计算阵列行数的整数倍,3个子映射模型会根据产生的余数动态调整映射方法,提高乘累加计算阵列的利用率.通过实验表明,采用动态余数处理映射模型能够将余数并行度的倍数至多提高到卷积核大小,使整个加速器达到了更高的实际吞吐量和能量效率.
-
-
Yang Fei;
杨飞;
Ma Yuchun;
马昱春;
Hou Jin;
侯金;
Xu Ning;
徐宁
- 《2016中国计算机辅助设计与图形学会大会》
| 2016年
-
摘要:
矩阵乘法是数值分析以及图形图像处理算法的基础,通用的矩阵算法加速器设计一直是嵌入式系统设计的研究热点.但由于矩阵乘法计算复杂度高,处理效率低,常常成为嵌入式系统运算速度的瓶颈.为了在嵌入式领域更好的使用矩阵乘法,本文提出了基于MPSoC的软硬件协同加速的架构.在MPSoC的架构下,一方面设计了面向硬件约束的矩阵分块方法,从而实现了通用的矩阵乘法加速器系统;另一方面通过利用MPSoC下的多核架构,提出了相应的任务划分和负载平衡调度算法,提高幵行效率和整体系统加速比.实验结果表明文中架构及算法实现了通用的矩阵乘法计算,并且通过软硬件协同设计实现的多核开行调度算法与传统单核设计相比在计算效率方面得到了显著的提高。
-
-
-
-
侯整风;
高汉军;
韩江洪;
胡东辉
- 《第三届可信计算与信息安全学术会议》
| 2008年
-
摘要:
基于矩阵乘法秘密共享思想,提出了一种新的可压缩的图像秘密共享方案.本方案利用可压缩矩阵乘法算法直接生成影子图像,有效地克服了秘密图像需进行置乱预处理的缺陷,并且方案的复杂度较低.本方案生成的影子图像仅为原秘密图像的1/t,有效地压缩了影子图像的尺寸.
-
-
Cai Jing;
蔡晶;
Ma Anguo;
马安国;
Xing Zuocheng;
邢座程
- 《第十三届计算机工程与工艺会议(NCCET09’)》
| 2009年
-
摘要:
GPU作为简单多核处理器的典型代表,其强大的浮点运算能力使得其具有进行大规模科学运算的能力,统一架构GPU和相关的并行编程模型的出现在保持其强大运算能力的同时增加了可编程性。如何减少程序实际性能与GPU理想性能之间的差异也成为了利用GPU进行高性能计算时必须面对的问题。本文分析了提高计算访存比和降低访存平均延迟对CUDA程序性能的影响,并以GPU上矩阵乘法为例量化地分析了二者所带来的性能提升比例,总结了在CPU-GPU之间进行同步执行时最佳任务划分比例因子的求解公式,同样以矩阵乘法为该公式的正确性进行了验证。
-
-
ZHANG Kai;
张凯;
CHEN Shu-Ming;
陈书明;
WANG Yao-Hua;
王耀华;
NING Xi;
宁希
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
-
-
ZHANG Kai;
张凯;
CHEN Shu-Ming;
陈书明;
WANG Yao-Hua;
王耀华;
NING Xi;
宁希
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
-
-
ZHANG Kai;
张凯;
CHEN Shu-Ming;
陈书明;
WANG Yao-Hua;
王耀华;
NING Xi;
宁希
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
-
-
ZHANG Kai;
张凯;
CHEN Shu-Ming;
陈书明;
WANG Yao-Hua;
王耀华;
NING Xi;
宁希
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
-
-
ZHANG Kai;
张凯;
CHEN Shu-Ming;
陈书明;
WANG Yao-Hua;
王耀华;
NING Xi;
宁希
- 《2012全国高性能计算学术年会》
| 2012年
-
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.