首页> 中国专利> 一种性能分析、优化方法、装置、计算机设备及存储介质

一种性能分析、优化方法、装置、计算机设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明实施例公开了一种性能分析、优化方法、装置、计算机设备及存储介质，性能分析方法包括：获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。本发明实施例的技术方案能够提高算法库性能分析的精确性，从而提高算法库测试优化的效率和精确性。

著录项

公开/公告号CN113268404A

专利类型发明专利
公开/公告日2021-08-17

原文格式PDF
申请/专利权人曙光信息产业(北京)有限公司;
展开▼

申请/专利号CN202110591456.X
发明设计人钱青;胡辰;卜景德;
展开▼

申请日2021-05-28
分类号G06F11/34(20060101);
代理机构11332 北京品源专利代理有限公司;
代理人孟金喆
地址 100193 北京市海淀区东北旺西路8号院36号楼
入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明实施例涉及测试优化技术领域，尤其涉及一种性能分析、优化方法、装置、计算机设备及存储介质。

背景技术

算法库可以提供各种算法和数学工具包，通过利用不同的算子(operator，OP)组合和逻辑编排能够提供各种科学与工程中常用的计算功能。不同垂类的应用场景可以分别开发对应的算法库。示例性的，深度学习领域的算法库包括Pytorch、Caffe和Theano等。自然语言处理领域的算法库包括SnowNLP、gensim和spaCy等。以Pytorch为例说明，Pytorch是一个开源的Python机器学习库，可以使用GPU(Graphics Processing Unit，图形处理器)加速计算张量，并提供基于自动求导机制的深度神经网络进行深度学习应用。目前，Pytorch已经在深度学习领域以及其他的科学计算等领域应用极为广泛。

目前，部分算法库自带性能分析工具，可以对算法库中存在性能问题的程序进行性能分析。然而，现有算法库自带的性能分析工具的性能分析功能不够完善，难以做到性能问题的精确定位。

图1是Pytorch通过自带性能分析工具进行性能分析的效果示意图。在一个具体的例子中，现有以Pytorch为例说明，Pytorch自带的性能分析工具profiler对有性能问题的程序进行性能分析时能够输出每个算子的执行时间。其中，图1中的每一行的第一列表示了某个算子，后续列的内容分别表示CPU(Central Processing Unit/Processor，中央处理器)和GPU的执行时间。通过图1输出的性能分析结果可以快速定位到Pytorch中某个运行速度较慢的算子，并针对性优化。但profiler只能定位到执行时间较慢的算子，不能具体定位导致该算子较慢的实际内部实现程序。另外，如果算子之间存在调用层级关系，则profiler无法精确定位到更底层的算子。例如，当算子A调用算子B时，如果是算子B的原因导致算子A执行时间较慢，则profiler只能显示算子A的耗时而不能显示算子B的耗时。由此可见，算法库自带的性能分析工具无法精确定位到性能瓶颈问题，从而导致无法针对性能问题进行精准优化。

发明内容

本发明实施例提供一种性能分析、优化方法、装置、计算机设备及存储介质，能够提高算法库性能分析的精确性，从而提高算法库测试优化的效率和精确性。

第一方面，本发明实施例提供了一种性能分析方法，应用于自定义性能分析工具，包括：

获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；

对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

可选的，所述本地性能分析工具具体用于：

确定所述目标算法库的待分析算子和算子执行时间阈值；

计算各所述待分析算子的算子执行时间；

根据所述算子执行时间阈值对各所述算子执行时间进行筛选，得到第一目标拖慢算子。

上述技术方案，本地性能分析工具通过利用算子执行时间阈值初步定位第一目标拖慢算子，可以实现拖慢算子定位的灵活性。

可选的，所述对所述首次性能分析结果进行深度性能分析，包括：

根据所述首次性能分析结果确定各待分析算子之间的算子调用关系；

根据所述首次性能分析结果和所述算子调用关系确定第二目标拖慢算子。

上述技术方案，通过利用各待分析算子之间的算子调用关系进行深度的性能分析，可以挖掘出影响第一目标拖慢算子的底层实际的拖慢算子，从而实现拖慢算子的精确定位。

可选的，在所述根据所述首次性能分析结果和所述算子调用关系确定第二目标拖慢算子之后，还包括：

计算所述第二目标拖慢算子中各算子程序的算子程序执行时间；

根据所述算子程序执行时间确定所述第二目标拖慢算子的目标拖慢算子程序；

对所述目标拖慢算子程序划分待分析子程序；

计算各所述待分析子程序的子程序执行时间；

根据所述子程序执行时间确定目标拖慢子程序。

采用上述技术方案，通过对第二目标拖慢算子进行层级的分析定位，可以实现将目标算法库的性能问题精确到代码行级水平，不仅实现了对性能问题的精准分析，而且有利于对存在性能问题的代码进行针对性的优化。

可选的，所述自定义性能分析工具由具有日志系统功能的头文件构成；所述头文件的输出字段类型包括当前时间、当前文件、当前文件所在行以及当前所在算子。

上述方案中，自定义性能分析工具只需要通过头文件就可以实现基本的日志功能，从而可以计算程序每个部分的耗时，帮助快速定位性能瓶颈问题。仅包括头文件的自定义性能分析工具没有任何其他依赖，可以使得内部代码实现更加简洁，执行速度更快，从而提高自定义性能分析工具的数据处理效率和用户体验。

第二方面，本发明实施例还提供了一种性能优化方法，包括：

获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据第一方面所述的性能分析方法输出所述目标性能分析结果；

根据所述目标性能分析结果确定待优化算子；

根据所述待优化算子确定简化测试用例；

根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

第三方面，本发明实施例还提供了一种性能分析装置，配置于自定义性能分析工具，包括：

首次性能分析结果获取模块，用于获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；

首次性能分析结果深度分析模块，用于对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

第四方面，本发明实施例还提供了一种性能优化装置，包括：

目标性能分析结果获取模块，用于获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据第一方面所述的性能分析方法输出所述目标性能分析结果；

待优化算子确定模块，用于根据所述目标性能分析结果确定待优化算子；

简化测试用例确定模块，用于根据所述待优化算子确定简化测试用例；

测试优化模块，用于根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

第五方面，本发明实施例还提供了一种性能分析系统，包括本地性能分析工具和自定义性能分析工具，所述本地性能分析工具与所述自定义性能分析工具之间通信连接，其中：

所述本地性能分析工具用于对目标算法库进行首次性能分析，得到首次性能分析结果；

所述自定义性能分析工具用于获取所述首次性能分析结果，并对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

第六方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的性能分析方法。

第七方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的性能分析方法。

第八方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的性能优化方法。

第九方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的性能优化方法。

本发明实施例通过利用目标算法库的本地性能分析工具对目标算法库进行首次性能分析得到首次性能分析结果之后，再利用自定义性能分析工具对首次性能分析结果进行深度性能分析，得到最终的目标性能分析结果，解决现有算法库仅利用本地性能分析工具进行性能分析存在的性能分析精确性较低的问题，可以实现深度定位分析算法库的性能问题，从而提高算法库性能分析的精确性。相应的，在得到目标性能分析结果之后，进一步根据目标性能分析结果确定待优化算子，从而进一步确定待优化算子的简化测试用例，进而根据简化测试用例对待优化算子进行复现和测试优化，得到待优化算子的算子性能优化结果，解决现有对算法库的整个算法应用进行测试优化存在的效率低和精确性较低等的问题，从而提高算法库测试优化的效率和精确性。

附图说明

图1是Pytorch通过自带性能分析工具进行性能分析的效果示意图；

图2是本发明实施例一提供的一种性能分析方法的流程图；

图3是本发明实施例二提供的一种性能分析方法的流程图；

图4是本发明实施例四提供的一种性能分析系统的流程图；

图5是本发明实施例四提供的一种性能优化方法的流程图；

图6为profiler部分输出结果的效果示意图；

图7是利用自定义性能分析工具输出的host_softmax()中各个程序部分耗时的效果示意图；

图8是本发明实施例六提供的一种性能分析装置的示意图；

图9是本发明实施例七提供的一种性能分析装置的示意图；

图10为本发明实施例八提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

实施例一

图2是本发明实施例一提供的一种性能分析方法的流程图，本实施例可适用于对算法库存在的性能问题进行精准分析的情况，该方法可以由性能分析装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中，该计算机设备可以运行自定义性能分析工具，与算法库自带的性能分析工具配合使用。相应的，如图2所示，该方法包括如下操作：

S110、获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到。

其中，目标算法库可以是自带性能分析工具的算法库，如Pytorch等，只要能够自主进行性能分析即可，本发明实施例并不对目标算法库的具体类型进行限定。本地性能分析工具可以是目标算法库自带的性能分析工具，用于对目标算法库进行性能分析，不同算法库对应的本地性能分析工具不同，如Pytorch的本地性能分析工具为profiler，发明实施例同样不对本地性能分析工具的具体类型进行限定。

在本发明实施例中，当需要对目标算法库进行性能分析时，可以首先通过目标算法库自带的本地性能分析工具对目标算法库进行性能分析。目标算法库自带的本地性能分析工具对目标算法库进行性能分析得到的性能分析结果作为首次性能分析结果。可以理解的是，本地性能分析工具输出的首次性能分析结果可以实现对性能问题的初步定位，例如对算法应用程序初步筛选出一个或多个降低应用运行效率的算子等。

S120、对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

其中，自定义性能分析工具可以是自定义配置或选择的性能分析工具，示例性的，自定义性能分析工具可以是根据实际业务需求由开发人员开发的具有日志系统功能的工具，也可以是已有的具有日志系统功能的工具，如google开源的glog工具等，只要能够具备日志分析功能即可，本发明实施例并不对自定义性能工具的具体内容进行限定。可选的，自定义性能分析工具可以采用相应的编程语言实现，如C++语言等，本发明实施例并不对实现自定义性能分析工具的语言类型进行限定。目标性能分析结果可以是自定义性能分析工具对首次性能分析结果进行进一步的深度分析所得到更精确的性能分析结果。

当目标算法库自带的本地性能分析工具输出首次性能分析结果之后，可以由自定义性能分析工具接收首次性能分析结果，并对首次性能分析结果进行进一步的、更深层次的性能分析处理，得到精确性更高的目标性能分析结果，如对初步筛选出的算子进行深度挖掘，确定算子中拖慢运行的具体程序代码部分，或根据初步筛选出的算子的调用关系，确定影响初步筛选出的算子运行效率的底层算子等。

综上，本发明实施例通过本地性能分析工具输出首次性能分析结果，可以实现对目标算法库性能问题的初步定位，如初步定位执行时间比较慢的算子。进一步利用自定义性能分析工具在首次性能分析结果的基础上进行性能问题的深度挖掘，从而实现精确定位性能问题。示例性的，假设本地性能分析工具输出的首次性能分析结果中初步确定了执行时间较慢的拖慢算子A，则自定义性能分析工具可以在拖慢算子A的基础上，确定拖慢算子A内部导致执行效率较低的具体程序代码；或根据算子之间的调用关系确定影响拖慢算子A的更底层的拖慢算子B。由此可见，本发明实施例所提供的性能分析方法可以弥补通过目标算法库自带的性能分析工具进行性能分析导致的性能分析精确性较低的不足，实现深度定位分析算法库的性能问题，从而提高算法库性能分析的精确性。

实施例二

图3是本发明实施例二提供的一种性能分析方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了本地性能分析工具获取首次性能分析结果，以及对首次性能分析结果进行深度性能分析的多种具体可选的实现方式。相应的，如图3所示，本实施例的方法可以包括：

S210、获取目标算法库的首次性能分析结果。

在本发明的一个可选实施例中，所述本地性能分析工具具体用于：确定所述目标算法库的待分析算子和算子执行时间阈值；计算各所述待分析算子的算子执行时间；根据所述算子执行时间阈值对各所述算子执行时间进行筛选，得到第一目标拖慢算子。

其中，待分析算子可以是目标算法库中相关算法所包括的各个算子，如机器学习库中深度学习应用包括的各个算子等。算子执行时间阈值可以是本地性能分析工具预先设定的对算子的执行时间进行筛选的时间阈值。可选的，算子执行时间阈值可以根据实际需求配置和动态调整，本发明实施例并不对算子执行时间阈值的具体数值进行限定。第一目标拖慢算子可以是本地性能分析工具对目标算法库进行性能分析时初步定位的执行时间较慢的算子。拖慢算子也即延迟执行时间的算子。

具体的，目标算法库的本地性能分析工具对目标算法库进行性能分析时，可以确定目标算法库的待分析算子和算子执行时间阈值。可以理解的是，由于目标算法库通常会包括至少一种算法，因此，本地性能分析工具可以仅针对一种算法进行性能分析。也即，本地性能分析工具可以首先确定待分析的算法，进而将待分析的算法中包括的各个算子确定为待分析算子。同时，由于不同的算法可以对应不同的评价指标，因此。每一种算法可以分别对应设置相同或不同的算子执行时间阈值。相应的，在确定待分析算子之后，本地性能分析工具可以计算每个待分析算子的算子执行时间。可选的，算子执行时间可以包括算子整个的执行时间，如数据传输和数据处理时间等。进一步的，本地性能分析工具可以利用执行时间阈值对各待分析算子的算子执行时间进行筛选，将算子执行时间大于算子执行时间阈值的待分析算子确定为第一目标拖慢算子。

上述技术方案，本地性能分析工具通过利用算子执行时间阈值初步定位第一目标拖慢算子，可以实现拖慢算子定位的灵活性。

S220、根据所述首次性能分析结果确定各待分析算子之间的算子调用关系。

其中，算子调用关系也即各算子之间上下级的调用关系。

在本发明实施例中，自定义性能分析工具对首次性能分析结果进行深度性能分析时，可以首先根据首次性能分析结果确定各个待分析算子之间的算子调用关系，以便根据算子调用关系对第一目标拖慢算子进行深度分析。

S230、根据所述首次性能分析结果和所述算子调用关系确定第二目标拖慢算子。

其中，第二目标拖慢算子可以是自定义性能分析工具对第一目标拖慢算子进行深度的性能分析时精确定位的执行时间较慢的算子，也即实际影响算法性能的算子。

相应的，自定义性能分析工具确定各待分析算子之间的算子调用关系之后，可以进一步根据首次性能分析结果和算子调用关系确定第二目标拖慢算子。示例性的，自定义性能分析工具可以根据首次性能分析结果确定各待分析算子的算子执行时间，进一步利用各待分析算子之间的算子调用关系对算子执行时间进行详尽分析，从而确定最终影响第一目标拖慢算子执行时间的底层算子，并将确定的底层算子确定为第二目标拖慢算子。

可以理解的是，如果第一目标拖慢算子与其他算子之间没有调用关系，则第二目标拖慢算子可以是第一目标拖慢算子本身。

S240、计算所述第二目标拖慢算子中各算子程序的算子程序执行时间。

其中，算子程序可以是第二目标拖慢算子中的各段功能代码程序，示例性的，算子程序可以是一个具体的函数等。算子程序执行时间可以是每段功能代码程序对应的执行时间。可以理解的是，每段功能代码程序可以由至少一行代码组成。

S250、根据所述算子程序执行时间确定所述第二目标拖慢算子的目标拖慢算子程序。

其中，目标拖慢算子程序可以是主要拖慢第二目标拖慢算子的算子执行时间的功能代码段。

可以理解的是，每个算子可以包括大量的功能代码程序，对于第二目标拖慢算子来说，可能仅是算子中的部分代码段拖慢了算子执行时间。因此，为了实现更加精准的性能问题分析，可以利用自定义性能分析工具对第二目标拖慢算子的各个算子程序进行逐一分析。具体的，自定义性能分析工具可以计算第二目标拖慢算子中各算子程序的算子程序执行时间，并对各算子程序执行时间进行计算，如通过设置算子程序执行时间的阈值对各算子程序执行时间进行筛选，将大于算子程序执行时间的阈值的算子程序确定为目标拖慢算子程序，以精确定位影响第二目标拖慢算子的算子执行时间的功能代码段。

S260、对所述目标拖慢算子程序划分待分析子程序。

其中，待分析子程序可以是目标拖慢算子程序进一步细分得到的功能代码段。

S270、计算各所述待分析子程序的子程序执行时间。

其中，子程序执行时间可以是待分析子程序对应的执行时间。

S280、根据所述子程序执行时间确定目标拖慢子程序。

其中，目标拖慢子程序可以是目标拖慢算子程序中直接拖慢目标拖慢算子程序的执行时间的子程序，也即自定义性能分析工具最终输出的目标性能分析结果。

相应的，在确定目标拖慢算子程序之后，可以进一步对目标拖慢算子程序进行划分，得到多个待分析子程序。示例性的，如果目标拖慢算子程序为算法中的一个具体的函数，则可以对该函数划分为多个执行部分作为待分析子程序。进一步的，可以计算各待分析子程序计算子程序执行时间，以对各子程序执行时间进行对比分析，将执行时间最长的一个或多个子程序执行时间对应的待分析子程序确定为目标拖慢子程序。

在本发明的一个可选实施例中，所述自定义性能分析工具可以由具有日志系统功能的头文件构成；所述头文件的输出字段类型可以包括当前时间、当前文件、当前文件所在行以及当前所在算子。

可选的，自定义性能分析工具如果为自定义配置的性能分析工具，则该自定义性能分析工具可以仅包含一个头文件，该头文件可以实现日志系统功能。自定义性能分析工具只需要通过头文件就可以实现基本的日志功能，从而可以计算程序每个部分的耗时，帮助快速定位性能瓶颈问题。仅包括头文件的自定义性能分析工具没有任何其他依赖，可以使得内部代码实现更加简洁，执行速度更快，从而提高自定义性能分析工具的数据处理效率和用户体验。

可选的，自定义性能分析工具可以根据实际需求配置输出内容，可选的，为了便于用户查看性能分析结果，可以设置自定义性能分析工具输出前时间、当前文件、当前文件所在行以及当前所在算子等字段类型。可以理解的是，自定义性能分析工具输出的字段类型可以根据实际需求动态配置，本发明实施例对此并不进行限制。

可选的，为了保持自定义性能分析工具接口的使用效果，可以对接口进行优化。例如，当自定义性能分析工具采用C++语言实现时，可以保持工具接口的使用与C语言标准输出printf基本一致。

可选的，还可以使用其他开源的日志工具作为自定义性能分析工具对第二目标拖慢算子各部分程序或子程序的执行时间进行分析，比如google开源的glog等，但这些开源的日志工具需要有初始化的配置过程。而仅包括头文件的自定义性能分析工具的类型兼容目标算法库，因此无需初始化的配置过程，可以直接使用，且仅包括头文件的自定义性能分析工具属于一种轻量级的工具，因此性能分析速度更快，相对已有的日志工具其应用效果更理想。

采用上述技术方案，通过将Pytorch自带的性能分析工具profiler和本文实现的性能分析工具结合起来从而快速定位性能瓶颈，可以更加快速的定位到程序的性能瓶颈，通过该性能分析工具，不仅能够计算出更加底层算子的耗时，还能够计算出算子内部实现的各个部分的耗时，同时该性能分析工具只需要包含一个头文件，没有任何其他依赖，让代码更加简洁，大大方便了用户的使用。

实施例三

图4是本发明实施例四提供的一种性能分析系统的流程图，本实施例可适用于对算法库存在的性能问题进行精准测试优化的情况。相应的，如图4所示，该系统包括本地性能分析工具310和自定义性能分析工具320，本地性能分析工具与自定义性能分析工具之间通信连接；其中：

本地性能分析工具310用于对目标算法库进行首次性能分析，得到首次性能分析结果；

自定义性能分析工具320用于获取首次性能分析结果，并对首次性能分析结果进行深度性能分析，得到目标性能分析结果。

在本发明的一个可选实施例中，本地性能分析工具310具体用于：确定所述目标算法库的待分析算子和算子执行时间阈值；计算各所述待分析算子的算子执行时间；根据所述算子执行时间阈值对各所述算子执行时间进行筛选，得到第一目标拖慢算子。

在本发明的一个可选实施例中，自定义性能分析工具320具体用于：根据所述首次性能分析结果确定各待分析算子之间的算子调用关系；根据所述首次性能分析结果和所述算子调用关系确定第二目标拖慢算子。

在本发明的一个可选实施例中，自定义性能分析工具320具体用于：计算所述第二目标拖慢算子中各算子程序的算子程序执行时间；根据所述算子程序执行时间确定所述第二目标拖慢算子的目标拖慢算子程序；对所述目标拖慢算子程序划分待分析子程序；计算各所述待分析子程序的子程序执行时间；根据所述子程序执行时间确定目标拖慢子程序。

在本发明的一个可选实施例中，自定义性能分析工具320由具有日志系统功能的头文件构成；所述头文件的输出字段类型包括当前时间、当前文件、当前文件所在行以及当前所在算子。

实施例四

图5是本发明实施例四提供的一种性能优化方法的流程图，本实施例可适用于对算法库存在的性能问题进行精准测试优化的情况，该方法可以由性能优化装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中。相应的，如图5所示，该方法包括如下操作：

S410、获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据本发明任一实施例所述的性能分析方法输出所述目标性能分析结果。

S420、根据所述目标性能分析结果确定待优化算子。

其中，待优化算子可以是需要进行性能优化的算子。

在本发明实施例中，当利用本地性能分析工具和自定义性能分析工具完成性能分析，并由自定义性能分析工具输出目标性能分析结果之后，可以根据目标性能分析结果中包括的代码程序内容确定所在的拖慢算子，并将该拖慢算子确定为待优化算子。

或者，为了提高性能优化效率，也还可以直接将本地性能分析工具对目标算法库进行首次性能分析得到首次性能分析结果中包括的拖慢算子确定为待优化算子。

S430、根据所述待优化算子确定简化测试用例。

其中，简化测试用例可以是针对待优化算子配置的算子级别的测试用例。

S440、根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

其中，算子性能优化结果可以是对待优化算子进行优化的结果。

可以理解的是，现有技术对算法进行测试时，通常需要采用一个或多个完整的测试用例对整个算法进行测试。而待优化算子所在的算法往往比较复杂，规模也比较大。考虑到本发明实施例所提供的自定义性能分析工具可以精确定位目标算法库的性能问题，如果采用完整的测试用例对存在性能问题的算法进行测试，需要同时对不会影响性能问题的其他程序部分进行测试，则会导降低测试效率和测试精确性。

因此，为了提高测试效率和测试效果，可以仅针对待优化算子确定算子级别的简化测试用例，以简化测试程序。相应的，利用简化测试用例对待优化算子进行复现和测试优化，可以快速、精准地获取待优化算子的算子性能优化结果。

本发明实施例通过在得到目标性能分析结果之后，进一步根据目标性能分析结果确定待优化算子，从而进一步确定待优化算子的简化测试用例，进而根据简化测试用例对待优化算子进行复现和测试优化，得到待优化算子的算子性能优化结果，解决现有对算法库的整个算法应用进行测试优化存在的效率低和精确性较低等的问题，从而提高算法库测试优化的效率和精确性。

实施例五

在本发明实施例五中，以Pytorch作为目标算法库为例具体说明性能分析和优化的方法流程。

异构加速器是一种类GPU设备，能够实现GPU加速功能，目前Pytorch已经实现了在异构加速器上的移植，在GPU上能够支持的功能在异构加速器上也基本能够支持。但是由于异构加速器硬件设备的特殊性以及Pytorch框架本身的各种限制，Pytorch在异构加速器上往往优化的并不是很好，导致用户在开发一些程序的时候出现性能过慢的问题。所以在该应用场景中，如何在异构加速器上快速的进行性能分析定位到性能瓶颈从而有效的进行优化就成为了提高Pytorch的用户体验的关键。

相应的，基于Pytorch的性能分析优化可以包括如下操作：

步骤一、使用Pytorch自带性能分析工具profiler输出每个op的计算时间：当遇到一段程序性能问题的时候，首先需要使用Pytorch自带的性能分析工具profiler输出每个op的时间。这样做的目的是为了通过自带的性能分析工具初步定位哪个op比较慢，并根据该op确定对应的python端的op，以便于后续编写简化测试用例test case。

其中，profiler可以提供可视化的算子调用流程的功能。图6为profiler部分输出结果的效果示意图，如图6所示，从profiler的部分输出结果中可以清楚的看到，各个算子之间按照由上到下顺序的算子调用流程具体为：THPVariable_abs()->abs()->abs_out_out()->abs_out()。

步骤二、利用自定义性能分析工具根据profiler输出结果确定最终的目标拖慢算子：当得到profiler的输出结果之后，需要利用自定义性能分析工具对输出结果进一步分析。由于profiler的输出结果可能包含了一个op调用多个底层op，所以需要分析算子之间的调用关系以确定最终较慢的底层op作为目标拖慢算子。

步骤三、使用自定义性能分析工具分析对目标拖慢算子的每段代码的耗时进行计算和输出，从而确定算子中主要的拖慢程序内容。例如，如果确定了host_softmax()这个op比较耗时，则可以将该函数划分为多个部分，在每个部分使用自定义性能分析工具打印出程序的执行时间，从而可以确定哪段程序代码耗时最多。图7是利用自定义性能分析工具输出的host_softmax()中各个程序部分耗时的效果示意图，如图7所示，通过自定义性能分析工具输出的数据进行日志观察，可以确定host_softmax()中最耗时的部分为第693行到695行，一共耗时114us。相应的，可以由自定义性能分析工具自动标记最耗时的程序代码部分。在确定host_softmax()中第693行到695行代码的耗时之后，可以对host_softmax()中第693行到695行代码进行针对性的优化。

步骤四、编写test case(简化测试用例)复现和优化目标拖慢算子：往往出现性能问题的应用程序比较复杂，规模也比较大，不方便后面进行性能分析。在步骤本地性能分析工具初步定位到哪个op比较慢之后，或者由自定义性能分析工具确定目标拖慢算子之后，可以针对确定的算子编写一个tese case进行复现和测试优化，从而提高目标算法库的性能优化的效率和质量。

本发明实施例针对Pytorch自带的性能分析工具profiler存在的问题，结合profiler和另外一种自定义性能分析工具对Pytorch进行性能分析和测试优化，可以精确查看拖慢程序所在行的时间、行号以及算子标识等信息。为了更加便于用户使用，减少学习成本，自定义性能分析工具可以仅包含一个头文件。使用自定义性能分析工具，并结合Pytorch自带的性能分析工具profiler能够快速、精准地定位到性能瓶颈问题，从而针对性能瓶颈问题确定简化测试用户进行测试和优化，提高Pytorch的测试效率和精度。

需要说明的是，以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。

实施例六

图8是本发明实施例六提供的一种性能分析装置的示意图，该性能分析装置可以配置于自定义性能分析工具。如图8所示，性能分析装置包括：首次性能分析结果获取模块510以及首次性能分析结果深度分析模块520，其中：

首次性能分析结果获取模块510，用于获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；

首次性能分析结果深度分析模块520，用于对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

可选的，所述本地性能分析工具具体用于：确定所述目标算法库的待分析算子和算子执行时间阈值；计算各所述待分析算子的算子执行时间；根据所述算子执行时间阈值对各所述算子执行时间进行筛选，得到第一目标拖慢算子。

可选的，首次性能分析结果深度分析模块520具体用于：根据所述首次性能分析结果确定各待分析算子之间的算子调用关系；根据所述首次性能分析结果和所述算子调用关系确定第二目标拖慢算子。

可选的，首次性能分析结果深度分析模块520具体用于：计算所述第二目标拖慢算子中各算子程序的算子程序执行时间；根据所述算子程序执行时间确定所述第二目标拖慢算子的目标拖慢算子程序；对所述目标拖慢算子程序划分待分析子程序；计算各所述待分析子程序的子程序执行时间；根据所述子程序执行时间确定目标拖慢子程序。

上述性能分析装置可执行本发明任意实施例所提供的性能分析方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的性能分析方法。

由于上述所介绍的性能分析装置为可以执行本发明实施例中的性能分析方法的装置，故而基于本发明实施例中所介绍的性能分析方法，本领域所属技术人员能够了解本实施例的性能分析装置的具体实施方式以及其各种变化形式，所以在此对于该性能分析装置如何实现本发明实施例中的性能分析方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中性能分析方法所采用的装置，都属于本申请所欲保护的范围。

实施例七

图9是本发明实施例七提供的一种性能分析装置的示意图，该性能分析装置可以配置于计算机设备中。如图9所示，性能分析装置包括：目标性能分析结果获取模块610、待优化算子确定模块620、简化测试用例确定模块630、以及测试优化模块640，其中：

目标性能分析结果获取模块610，用于获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据权利要求1-5任一所述的性能分析方法输出所述目标性能分析结果；

待优化算子确定模块620，用于根据所述目标性能分析结果确定待优化算子；

简化测试用例确定模块630，用于根据所述待优化算子确定简化测试用例；

测试优化模块640，用于根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

上述性能优化装置可执行本发明任意实施例所提供的性能优化方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的性能优化方法。

由于上述所介绍的性能优化装置为可以执行本发明实施例中的性能优化方法的装置，故而基于本发明实施例中所介绍的性能优化方法，本领域所属技术人员能够了解本实施例的性能优化装置的具体实施方式以及其各种变化形式，所以在此对于该性能优化装置如何实现本发明实施例中的性能优化方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中性能优化方法所采用的装置，都属于本申请所欲保护的范围。

实施例八

图10为本发明实施例八提供的一种计算机设备的结构示意图。图10示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图10显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图10中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，实现本发明实施例所提供的性能分析方法：获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

或者，处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，实现本发明实施例所提供的性能优化方法：获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据本发明任一实施例所述的性能分析方法输出所述目标性能分析结果；根据所述目标性能分析结果确定待优化算子；根据所述待优化算子确定简化测试用例；根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

实施例九

本发明实施例九还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的性能分析方法：获取目标算法库的首次性能分析结果；其中，所述首次性能分析结果根据所述目标算法库的本地性能分析工具对所述目标算法库进行首次性能分析得到；对所述首次性能分析结果进行深度性能分析，得到目标性能分析结果。

或者，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的性能优化方法：获取自定义性能分析工具输出的目标性能分析结果；其中，所述自定义性能分析工具根据本发明任一实施例所述的性能分析方法输出所述目标性能分析结果；根据所述目标性能分析结果确定待优化算子；根据所述待优化算子确定简化测试用例；根据所述简化测试用例对待优化算子进行复现和测试优化，得到所述待优化算子的算子性能优化结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种性能分析、优化方法、装置、计算机设备及存储介质 [P] . 中国专利： CN113268404A . 2021-08-17
2. 性能分析方法、装置、计算机设备及存储介质 [P] . 中国专利： CN110807050A . 2020-02-18
3. DATA PROCESSING OPTIMIZATION METHOD AND APPARATUS, AND STORAGE MEDIUM AND COMPUTER DEVICE [P] . WO2021174691A1 . 2021-09-10

机译：数据处理优化方法和装置，以及存储介质和计算机设备
4. OPTIMIZATION METHOD AND APPARATUS FOR COMPUTATION GRAPH, COMPUTER DEVICE, AND STORAGE MEDIUM [P] . WO2021114757A1 . 2021-06-17

机译：用于计算图，计算机设备和存储介质的优化方法和装置
5. OPTIMIZATION METHOD AND APPARATUS FOR VEHICLE-MOUNTED IMAGE DISPLAY, COMPUTER DEVICE AND STORAGE MEDIUM [P] . WO2021146895A1 . 2021-07-29

机译：用于车载图像显示，计算机设备和存储介质的优化方法和装置