WO2022160863A1

WO2022160863A1 - 一种程序数据级并行分析方法、装置及相关设备

Info

Publication number: WO2022160863A1
Application number: PCT/CN2021/130179
Authority: WO
Inventors: 宋昌; 王炯; 张勇
Original assignee: 华为技术有限公司
Priority date: 2021-01-30
Filing date: 2021-11-12
Publication date: 2022-08-04
Also published as: CN114840256A

Abstract

本申请提供一种程序数据级并行分析方法，该方法包括：首先获取处理器执行的读指令，然后根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化，其中，读指令用于获取计算指令所需的参数。该方法可以快速确定应用程序中的可SIMD化代码，提高了查找可SIMD化代码的效率，节省人力和时间。

Description

一种程序数据级并行分析方法、装置及相关设备

本申请要求于2021年1月30日提交中国专利局、申请号为202110131344.6、发明名称为“一种程序数据级并行分析方法、装置及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种程序数据级并行分析方法、装置及相关设备。

背景技术

单指令多数据(single instruction multiple data，SIMD)是采用一个执行单元，同时对一组数据(又称“数据向量”)中的每一个数据分别执行相同的运算操作，从而实现数据级并行计算的技术。目前，几乎所有的处理器都集成了包括SIMD指令集的部件来提高应用程序的并行能力，从而提升处理器执行性能。但是，若要在应用程序中实现SIMD优化，需要先找出应用程序中的可SIMD化代码，然后采用SIMD指令集中对应的SIMD指令进行优化。

但是，如何提高查找应用程序中的可SIMD化代码的效率，是本领域技术人员亟待解决的技术问题。

发明内容

本申请提供了一种程序数据级并行方法、装置及相关设备，可以提高查找应用程序中的可SIMD化代码的效率，节省人力和时间。

第一方面，提供了一种程序数据级并行分析方法，所述方法包括：

获取处理器执行的读指令，所述读指令用于获取计算指令所需的参数；

根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化，其中，所述计算指令依赖所述读指令。

可以看出，本申请实施例提供的程序数据级并行分析方法可以在应用程序运行时，通过获取处理器执行的读指令，然后根据读指令和依赖读指令获取所需参数的计算指令之间的依赖关系，确定计算指令是否可SIMD化。该方法可以快速确定应用程序中的可SIMD化代码，提高了查找可SIMD化代码的效率，节省人力和时间。

另外，上述方法可以作为程序数据级并行分析装置在应用程序运行时进行的一次采样分析过程，程序数据级并行分析装置可以在每一个采样周期中仅对计算指令进行分析，确定计算指令是否可SIMD化，无需对应用程序中包括的不可能SIMD化的指令进行分析，可以减少分析过程对应用程序性能的影响以及减少分析开销。

在一种可能的实现方式中，在根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化之前，所述方法还包括：

获取所述读指令执行的连续n次读操作对应的n个地址，其中，n为大于2的自然数；

所述根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化。

可以看出，上述方法可以在根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化的基础上，获取读指令执行的连续n次读操作对应的n个地址，并根据n个地址进一步确定计算指令是否可SIMD化，可以提升确定计算指令是否可SIMD化的准确性。

在一种可能的实现方式中，所述根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系、所述n个地址和SIMD指令集，确定所述计算指令是否可SIMD化。

可以看出，上述方法可以在根据读指令和计算指令之间的依赖关系、n个地址，确定计算指令是否可SIMD化的基础上，根据SIMD指令集进一步确定计算指令是否可SIMD化，可以进一步提升确定计算指令是否可SIMD化的准确性。

在一种可能的实现方式中，所述方法还包括：

在多次获取所述处理器执行的所述读指令的情况下，获取所述计算指令被确定可SIMD化的次数；

在所述次数达到预设阈值的情况下，生成提示信息。

可以看出，上述方法可以在获取到的计算指令被确定可SIMD化的次数达到预设阈值的情况下，生成提示信息，该提示信息可以被呈现或者发送给用户对用户进行提示，便于用户尽快获知应用程序中有可SIMD化的代码段，用户可以参考该提示信息对应用程序中可SIMD化的代码段进行优化。

计算得到所述n个地址中每两个相邻的地址之间的步长；

根据所述每两个相邻的地址之间的步长是否相等且不为0，以及所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化。

在一种可能的实现方式中，所述根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系构建依赖图，其中，所述依赖图用于反映所述读指令和所述计算指令之间的依赖关系；

根据所述依赖图中是否存在依赖环，确定所述计算指令是否可SIMD化。

第二方面，提供了一种程序数据级并行分析装置，所述装置包括：

获取模块，用于获取处理器执行的读指令，所述读指令用于获取计算指令所需的参数；

确定模块，用于根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化。

在一种可能的实现方式中，在根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化之前，

所述获取模块，还用于获取所述读指令执行的连续n次读操作对应的n个地址，其中，n为大于2的自然数；

所述确定模块具体用于：

在一种可能的实现方式中，所述确定模块具体用于：

在一种可能的实现方式中，所述装置还包括：提示模块；

所述获取模块，还用于在多次获取所述处理器执行的所述读指令的情况下，获取所述计算指令被确定可SIMD化的次数；

所述提示模块，用于在所述次数达到预设阈值的情况下，生成提示信息。

在一种可能的实现方式中，所述确定模块具体用于：

计算得到所述n个地址中每两个相邻的地址之间的步长；

在一种可能的实现方式中，所述确定模块具体用于：

根据所述依赖图是否存在依赖环，确定所述计算指令是否可SIMD化。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，以实现如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

第四方面，提供了一种非瞬态计算机可读存储介质，所述非瞬态计算机可读介质存储有计算机可读指令，当所述计算机可读指令被运行时，执行如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

第五方面，一种计算机程序产品，包括计算机程序，当所述计算机程序被计算设备读取并执行时，使得所述计算设备执行如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例涉及的一种处理器指令执行流水线的结构示意图；

图2是本申请实施例提供的一种依赖图的示意图；

图3是本申请实施例提供的一种根据读指令和计算指令之间的依赖关系构建的依赖图的示意图；

图4是本申请实施例提供的另一种根据读指令和计算指令之间的依赖关系构建的依赖图的示意图；

图5是本申请实施例提供的一种程序数据级并行分析装置提供的用户界面的示意图；

图6是本申请实施例提供的一种根据n个地址确定计算指令是否满足条件2的流程示意图；

图7是本申请实施例提供的一种程序数据级并行分析方法的流程示意图；

图8是本申请实施例提供的一种程序数据级并行分析装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

下面先对本申请实施例涉及的应用场景进行简要说明。

随着软件技术的飞速发展，应用程序的规模变得越来越庞大，例如linux内核代码量已达到2700万行，开源数据库mysql代码量也已达到百万行的级别，应用程序代码量的大量增加给程序性能优化带来了新的挑战。

利用SIMD技术对应用程序进行性能优化是目前最常用的应用性能优化方法，目前，为了在处理器中实现SIMD优化功能，处理器开发人员在开发处理器时会在处理器中集成包括SIMD指令集的部件，如集成x86AVX指令集的部件，或者集成高级精简指令集机器(advanced risc machines，ARM)neon指令集的部件等。但是，在利用SIMD技术实现SIMD优化功能之前，需要程序员或者编译器先找出应用程序中的可SIMD化(也可以称为可并行化)代码，然后采用SIMD指令集中相应的SIMD指令替代应用程序中的可SIMD化代码，实现数据级并行功能。

现有技术主要通过编译器对应用程序的源静态代码进行扫描找出比较明显的可SIMD化代码，但该方法无法确定应用程序中某些隐含的可SIMD化代码，无法实现性能最优，且效率较低，或者，利用linux性能分析工具(如pref)、英特尔(intel)性能分析工具(如vtune)等工具，确定应用程序中引起性能问题的关键代码区域，由开发人员手动修改关键代码区域的代码进行相应的性能优化后，再由性能分析人员阅读关键代码区域的代码进行分析，确定可SIMD化代码，但该方法存在着在应用程序的规模较大时，需要耗费大量的人力与时间、效率低的问题。

针对上述问题，本申请实施例提供了一种程序数据级并行分析方法、装置及相关设备。

为了便于理解本申请实施例提供的程序数据级并行分析方法、装置及相关设备，下面先对本申请实施例涉及的访存指令、计算指令、处理器指令执行流水线，以及能够采用SIMD技术优化的指令需要满足的条件等概念进行解释说明。

指令按照功能进行划分，主要分为控制指令、访存指令和计算指令几种类型，其中，

控制指令一般指转移指令，是指不按程序的语句流程执行的指令，通过转移指令可以实现程序的分支转移。

访存指令包括读(load)指令和写(store)指令，访存指令可以直接访问内存，用来完成内存和数据寄存器之间的数据传输。具体地，读指令用于把内存中的数据加载到数据寄存器，写指令用于把数据寄存器中的数据写入内存。

计算指令主要包括算术指令(包括加法、减法、乘法、除法、开方、最大值、最小值、近似求倒数、求开方的倒数等等)、逻辑指令、移动指令、移位指令和位扩展指令等等。处理器在执行计算指令时，计算指令可以直接访问数据寄存器，但不能直接访问内存。但是在应用程序中，计算指令所需的参数(也可以称为计算参数、操作数或者操作对象等)通常都被存放在内存，因此需要为计算指令设计可以去内存获取参数的读指令，由读指令访问内存把计算指令所需的参数从内存加载到数据寄存器，计算指令再从数据寄存器中取出参数进行计算，在计算完成后，计算指令将计算结果写回数据寄存器，若需要将计算结果写回内存，则需要为计算指令设计可以将计算结果写回到内存的写指令，由写指令将数据寄存器中的计算结果写回内存。可以看出，计算指令的执行需要依赖读指令获取计算指令所需的参数。

处理器指令执行流水线，是为提高处理器执行指令的效率，把一条指令的操作分成多个细小的步骤，每个步骤由专门的电路模块完成的方式。其中，处理器可以为中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)或者数字信号处理器(digital signal processor，DSP)等。

如图1所示，处理器指令执行流水线通常包括：取指模块101、译码模块102、等待队列103、执行模块104、重排序缓存模块105和写回模块106，其中，

取指模块101，用于从内存中取出待执行指令放到指令寄存器中，具体地，取指模块先获取程序计数器(program counter，PC)值(即待执行指令的地址)，然后取指模块101根据PC值在内存中找到待执行指令，将待执行指令由内存取到指令寄存器中。

译码模块102，用于从指令寄存器中取出待执行指令，并对待执行指令进行译码，得到待执行指令对应的操作码和地址码。操作码表示待执行指令要执行的操作性质，即执行什么操作，或做什么，如进行读操作、写操作、加法计算、减法计算、乘法计算等。地址码指示待执行指令所需的参数的地址(指参数在数据寄存器中的位置)，如进行加法计算时，加法指令可以根据地址码在数据寄存器中找到所需的参数。计算机执行一条指定的指令时，必须首先分析这条指令的操作码和地址码是什么，根据操作码决定操作的性质和方法，以及根据地址码找到参数，然后才能控制计算机其他各部件协同完成指令表达的功能，这个分析工作由译码模块102来完成。

在译码模块102完成对待执行指令的译码得到操作码和地址码后，待执行指令进入等待队列103，等待执行资源。

在多个待执行指令之间具有先后顺序和/或依赖关系(如后一个待执行指令所需的参数为前一个待执行指令的计算结果)的情况下，在多个待执行指令进入等待队列103后，等待队列会保存多个待执行指令之间的先后顺序和/或依赖关系，便于等待队列对资源进行合理分配。

执行模块104，负责完成待执行指令所规定的各项操作，实现待执行指令的功能。例如，若多个待执行指令为读指令、计算指令1和计算指令2，其中，读指令要实现的功能是从内存中取出x0、y0和z0，计算指令1要实现的功能是将x0与y0相加得到x0+y0，计算指令2要实现的功能是将x0+y0减去z0得到x0+y0-z0，等待队列103可以先后将资源分配给读指令、计算指令1和计算指令2，也就是说执行模块104先执行读指令，从内存中取出x0、y0和z0放到数据寄存器，然后再执行计算指令1将x0与y0相加得到x0+y0，最后执行计算指令2将x0+y0减去z0得到x0+y0-z0。具体地，执行模块104可以通过算术逻辑单元(arithmetic and logic unit，ALU)实现待执行指令的功能。

重排序缓存模块105，用于在执行模块104未能按照多个待执行指令之间的先后顺序执行指令的情况下，对执行模块104执行不同的指令得到的执行结果进行重排序。

写回模块106，用于将执行模块104执行指令得到的执行结果或者将重排序缓存模块重排序后的执行结果写回数据寄存器。

在上述待执行指令执行完毕、执行结果写回之后，若无意外事件(如结果溢出等)发生，取指模块101可以接着从PC中取出下一条待执行指令的地址，开始新一轮的循环。

应理解，图1所示的处理器指令执行流水线仅仅是示意性的，根据实现需要，处理器指令执行流水线可以包括其他模块或者更多模块，图1不应视为具体限定。

能够采用SIMD技术优化的指令需要同时满足以下三个条件：

条件1、指令在不同的循环迭代之间没有依赖。

可以理解为，指令在循环迭代时，指令执行当前操作所需的参数不是指令执行历史操作的操作结果，例如，假设指令为加法指令，若指令进行第三次加法操作的参数为指令进行第一次加法操作的操作结果或者第二次加法操作的操作结果，则表明指令在不同的循环迭代之间有依赖，反之，则表示没有依赖。

由于SIMD指令是采用一个执行单元，同时对一组数据中的每一个数据分别执行相同的运算操作，从而实现数据级并行计算的技术，若指令在不同的循环迭代之间有依赖，则不能使用SIMD指令对该指令进行SIMD化。因此，若要确定一条指令是否可SIMD化，需要确定该指令在不同的循环迭代之间是否没有依赖，即确定该指令是否满足条件1。

条件2、指令执行的循环操作中每相邻两次操作访问的地址之间的步长相等且不为0。

其中，指令执行操作访问的地址，可以理解为指令执行操作所需的参数在内存中的位置，步长，可以理解为指令执行当前操作需要访问的地址与指令上一次执行操作访问的地址之间的长度，也可以理解为指令执行当前操作所需的参数的长度，还可以理解为参数在内存中所占的字节。

由于SIMD指令为单指令，程序员或者编译器在采用SIMD指令集中相应的SIMD指令替代应用程序中的可SIMD化代码时，仅给这个SIMD指令一个基地址(即该SIMD指令获取第一个数据的地址)和需要操作的一组数据的长度，其中，这组数据中的每个数据的长度相同且长度不为0，也就是说，SIMD指令不知道这组数据中其他数据的地址，因此，这组数据在内存中的位置需要是连续的，这样SIMD指令在运行时，才能从内存中同步取出这组数据进行计算，若这组数据在内存中的位置不连续，则SIMD指令在运行时，只能获取到第一个数据，不知道该去什么地址获取这组数据中的其他数据，也就无法实现并行计算。

因此，若要确定一条指令是否可SIMD化，需要确定该指令执行循环操作访问的地址是否连续，即确定该指令执行的循环操作中每相邻两次操作访问的地址之间的步长是否相等且不为0，即确定该指令是否满足条件2。

条件3、指令在SIMD指令集中有对应的SIMD指令。

目前，大多数的计算指令在SIMD指令集中都有对应的SIMD指令，例如加法、减法、乘法等计算指令，在具体实现中，可以使用SIMD指令集中对应的SIMD指令对上述计算指令进行SIMD化，控制指令和少数计算指令在SIMD指令集中没有对应的SIMD指令，因此，不可以使用SIMD指令集中的SIMD指令对这些指令进行SIMD化。

可以看出，由于并不是所有的指令在SIMD指令集中都有对应的SIMD指令，因此，若要确定一条指令是否可SIMD化，还需要确定该指令在SIMD指令集中是否有对应的SIMD指令，即确定该指令是否满足条件3。

由上述能够采用SIMD技术优化的指令需要满足的条件3可知，在应用程序中，只有大多数计算指令在SIMD指令集中有对应的SIMD指令，也就是说，只有这些指令可能被SIMD化，因此，本申请实施例提供的方法、装置及相关设备可以在应用程序运行时，仅对应用程序中包括的计算指令进行分析，通过确定计算指令是否满足上述条件1至条件3，从而确定计算指令是否是可SIMD化指令，无需对应用程序中包括的不可能被SIMD化的指令(如控制指令)进行分析，过滤掉这部分不可能被SIMD化的指令，可以提高分析效率，以及减少分析过程对应用程序性能的影响和减少分析开销。

下面对确定计算指令是否满足条件1至条件3的过程进行详细描述。

(一)确定计算指令是否满足条件1

由上文对计算指令和读指令的介绍可知，计算指令的执行依赖读指令获取计算指令所需的参数，因此，在本申请具体的实施例中，可以在应用程序运行时，获取处理器执行的读指令，然后根据读指令和依赖该读指令获取参数的计算指令(以下简称为依赖读指令的计算指令)之间的依赖关系，确定计算指令是否满足条件1，如果计算指令不满足条件1，则确定计算指令不可SIMD化，如果计算指令满足条件1，则可以进一步判断计算指令是否满足条件2和条件3，从而确定计算指令是否可SIMD化。

下面对获取处理器执行的读指令的过程，以及根据读指令和依赖读指令的计算指令之间的依赖关系，确定计算指令是否满足条件1的过程分别进行介绍。

(1)获取处理器执行的读指令的过程

可以理解，在应用程序运行时，处理器通常要执行大量指令，大量指令中通常包括多条读指令，多条读指令各自对应一个唯一的PC值，因此，可以根据PC值区分多条读指令。

在本申请具体的实施例中，程序数据级并行分析装置获取处理器执行的读指令，可以为获取上述多条读指令中的任意一条或者多条读指令，此处不作具体限定。在本实施例中，无论是获取上述多条读指令中的任意一条或者多条读指令，程序数据级并行分析装置对每一条读指令进行的后续操作过程是相似的，便于简便陈述，在接下来的实施例中，均以获取的读指令为一条为例进行描述。

在一种更具体的实施例中，程序数据级并行分析装置可以在处理器执行多条读指令时，以采样的方式获取处理器执行的一条读指令，装置的采样周期可以设置为预设时长或者为处理器执行的指令条数，此处不作具体限定。

可以理解，在程序数据级并行分析装置以采样的方式获取处理器执行的一条读指令的情况下，若处理器在一个采样周期中执行的多条读指令中包括可以循环迭代的读指令，则循环迭代的频率最快(即在当前采样周期中循环迭代的次数最多)的读指令被获取到的几率最大。

(2)根据读指令和依赖读指令的计算指令之间的依赖关系，确定计算指令是否满足条件1的过程

在本申请具体的实施例中，可以在等待队列103中获取读指令和依赖读指令的计算指令之间的依赖关系，根据读指令和依赖读指令的计算指令之间的依赖关系构建依赖图，然后根据依赖图中是否存在依赖环，确定计算指令是否满足条件1。具体地，在依赖图中不存在依赖环的情况下，确定计算指令满足条件1，在依赖图中存在依赖环的情况下，确定计算指令不满足条件1，可以理解，确定了计算指令不满足条件1，即确定了计算指令不可SIMD化。

其中，依赖图是用于反映指令之间的依赖关系的图形，在本实施例中，依赖图用于反映读指令和依赖读指令的计算指令之间的依赖关系；依赖环，若一个指令为可以循环迭代的指令，该指令在每次循环时，当前循环的执行依赖于前一个循环的执行结果，则这个指令的不同循环迭代会形成一个依赖环。

举例来讲，假设存在指令A，指令A循环迭代了m(m为大于1的自然数)次，指令A在m次循环迭代之间的依赖关系为：在指令A执行第一次操作得到第一结果之后，指令A将第一结果作为第二次操作所需的参数进行了第二次操作，在指令A得到第二结果之后，指令A又将第二结果作为第三次操作所需的参数进行了第三次操作，在指令A得到第三结果之后，以此类推，直至完成m次循环迭代，如图2所示，图2为根据上述指令A在m次循环迭代之间的依赖关系构建的依赖图，从图2可以看出，依赖图包括串联成一个环的执行第一次操作的指令A、执行第二次操作的指令A、…、执行第m次操作的指令A，该环即为依赖环。

可以理解，在读指令可以循环迭代的情况下，依赖读指令的计算指令也可以循环迭代，且计算指令循环迭代的次数与读指令循环迭代的次数相同，在应用程序运行时，若应用程序包括可以循环迭代的读指令，读指令通常至少会循环迭代2次，多则达千次、万次甚至更多。若根据读指令和依赖读指令的计算指令在全部的循环迭代之间的依赖关系，构建依赖图，则构建依赖图花费的时间较多，且构建过程占用的开销也较大。

从图2可以看出，若一个指令为可以循环迭代的指令，根据指令在部分循环迭代之间的依赖关系构建的依赖图，便可反映指令在全部循环迭代之间的依赖关系，因此，在本申请具体的实施例中，在读指令可以循环迭代的情况下，可以根据读指令和依赖读指令的计算指令在部分循环迭代之间的依赖关系，构建依赖图，然后根据该依赖图确定计算指令是否满足条件1，可以减少构建依赖图的过程花费的时间以及占用的开销。

在具体实现中，程序数据级并行分析装置可以获取一个采样周期中等待队列103包括的读指令和依赖读指令的计算指令在部分迭代之间的依赖关系。

举例来讲，假设在一个采样周期中，程序数据级并行分析装置获取到的读指令B一共循环迭代了3次，计算指令C依赖读指令B，读指令B和计算指令C在3次循环迭代之间的依赖关系为：

B1执行第一次读操作得到第一参数，将第一参数传递给C1，C1执行第一次计算操作得到第一计算结果，将第一计算结果写到数据寄存器，B2执行第二次读操作得到第二参数，将第二参数传递给C2，C2执行第二次计算操作得到第二计算结果，将第二计算结果写到数据寄存器，B3执行第三次读操作得到第三参数，将第三参数传递给C3，C3执行第三次计算操作得到第三计算结果，将第三计算结果写到数据寄存器，其中，第二参数不是第一计算结果，第三参数不是第一操作结果或者第二操作结果，B1、B2、B3对应表示执行第一次读操作的读指令B、执行第二次读操作的读指令B、执行第三次读操作的读指令B，C1、C2、C3对应表示执行第一次计算操作的计算指令C、执行第二次计算操作的计算指令C、执行第三次计算操作的计算指令C。

参见图3，图3为根据上述举例中读指令B和计算指令C在3次循环迭代之间的依赖关系构建的依赖图，从图3可以看出，依赖图包括串联成一条线的B1和C1、串联成一条线的B2和C2，以及串联成一条线的B3和C3，可以看出，依赖图中没有依赖环，在这种情况下，可以确定计算指令满足条件1。

继续以在一个采样周期中，程序数据级并行分析装置获取到的读指令C一共循环迭代了3次，计算指令C依赖读指令B为例，假设读指令B和计算指令C在3次循环迭代之间的依赖关系为：

B1执行第一次读操作得到第一参数，将第一参数传递给C1，C1执行第一次计算操作得到第一计算结果，将第一计算结果传递B2，B2将第一计算结果作为第二参数传递给C2，C2执行第二次计算操作得到第二计算结果，将第二计算结果传递给B3，B3将第二计算结果作为第三参数传递给C3，C3执行第三次计算操作得到第三计算结果。

参见图4，图4为根据上述举例中读指令B和计算指令C在3次循环迭代之间的依赖关系构建的依赖图，从图4可以看出，依赖图包括串联成一个环的B1、C1、B2、C2、B3、C3，依赖图中有依赖环，在这种情况下，可以确定计算指令不满足条件1，即确定计算指令不可SIMD化。

(二)确定计算指令是否满足条件2

在本申请具体的实施例中，可以在应用程序运行时，获取读指令执行的连续n次读操作对应的n个地址，然后根据n个地址确定依赖读指令的计算指令是否满足条件2，如果计算指令不满足条件2，则确定计算指令不可SIMD化，如果计算指令满足条件2，则可以进一步确定计算指令是否满足条件1和条件3，从而确定计算指令是否可SIMD化。其中，n为大于2的自然数。

下面对获取读指令执行的连续n次读操作对应的n个地址的过程，以及根据n个地址确定计算指令是否满足条件2的过程分别进行介绍。

(1)获取读指令执行的连续n次读操作对应的n个地址的过程

在具体实现中，n的取值可以由用户预设或者在每次获取读指令执行的连续n次读操作对应的n个地址前进行设定，例如，程序数据级并行分析装置可以提供图5所示的界面给用户，在图5所示的界面中，n默认为3，用户可以通过键盘或者触摸屏等输入设备输入一个具体的数字，对n进行预设，本申请实施例不对n的取值作具体限定。

(2)根据n个地址确定计算指令是否满足条件2的过程

如图6所示，该过程包括但不限于如下步骤：

S101、计算得到n个地址中每两个相邻的地址之间的步长。

可以理解，n的取值越大，根据n个地址确定计算指令是否满足条件2的准确性越高，但是分析所占的开销也越大，n的取值越小，根据n个地址确定计算指令是否满足条件2的准确性越低，但是分析所占的开销也越小。

在具体实现中，无论n为3、5或者8等任意值，根据n个地址确定计算指令是否满足条件2的方式是相似的，接下来以n为3为例，对计算得到n个地址中每两个相邻的地址之间的步长的过程进行详细描述，该过程可以包括如下步骤：

S1011、根据3个地址中的第一个地址和第二个地址计算得到第一步长。

其中，第一个地址为读指令执行的连续3次读操作中的第一次读操作对应的地址，第二个地址为读指令执行的连续3次读操作中的第二次读操作对应的地址。

在本申请具体的实施例中，为了便于程序数据级并行分析装置在获取到第二个地址时，根据第二个地址和第一个地址计算得到第一步长，可以在获取到第一个地址之后，记录第一个地址到预先配置好的采集表，然后在获取到第二个地址时，从采集表中查找到第一个地址，进而将第二个地址与第一个地址之间的差值确定为第一步长。

S1012、根据3个地址中的第三个地址、第一个地址和第一步长计算得到第二步长。

在本申请具体的实施例中，为了便于程序数据级并行分析装置在获取到第三个地址时，根据第三个地址、第一个地址和第一步长计算得到第二步长，可以在获取到第一步长之后，记录第一步长到采集表，然后在获取到第三个地址时，从采集表中查找到第一个地址和第一步长，进而将第三个地址与第一个地址和第一步长的和之间的差值确定为第二步长。

可以理解，在具体实现中，程序数据级并行分析装置也可以在获取到第二个地址之后，记录第二个地址到采集表，然后在获取到第三个地址时，从采集表中查找到第二个地址，进而将第三个地址与第二个地址之间的差值确定为第二步长。

在本申请具体的实施例中，由于在不同的采样周期中，程序数据级并行分析装置可能会获取到不同的读指令进行分析，为了便于对不同采样周期中获取到的不同读指令，以及不同读指令对应的第一个地址和第一步长进行区分，程序数据级并行分析装置可以在每个采样周期中，获取到处理器执行的读指令之后，在采集表中为读指令分配对应的表项，然后记录读指令的地址到读指令对应的表项，后续在获取到读指令对应的第一个地址和第一步长后，记录第一个地址和第一步长到读指令对应的表项。

请参见表1，表1为本申请实施例提供的一种示例性采集表，如表1所示，采集表包括entry1、entry2、entry3等表项，其中，entry1、entry2、entry3等表项中的每个表项可以包括读指令的地址列、基地址列和步长列等，读指令的地址列用于记录读指令的地址，基地址列用于记录第一个地址，步长列用于记录第一步长，请参见表2，表2为本申请实施例提供的一种示例性的entry1表项，假设程序数据级并行分析装置为读指令分配的表项为entry1表项，读指令的地址为地址A'，第一个地址为B'，第一步长为C'，则程序数据级并行分析装置可以在表2所示的entry1表项中记录A'、B'、C'。

表1 采集表

entry1
entry2
entry3
…

表2 entry1

读指令的地址	基地址	步长
A'	B'	C'

需要说明的是，表1和表2仅仅是作为一种示例，不应视为对采集表以及表项的具体限定。

S102、确定每两个相邻的地址之间的步长是否相等且不为0，在每两个相邻的地址之间的步长相等且不为0的情况下，执行S103，在每两个相邻的地址之间的步长不相等和/或为0的情况下，执行S104。

继续以S101中所举的n为3的例子为例，程序数据级并行分析装置可以确定第二步长与第一步长是否相等，且确定第一步长和第二步长是否均不为0，在第二步长与第一步长相等且第一步长和第二步长均不为0的情况下，执行S103，在第二步长与第一步长不相等和/或第一步长和/或第二步长为0的情况下，执行S104。

S103、确定计算指令是否满足条件1和条件3。

S104、确定计算指令不满足条件2。

在本申请具体的实施例中，在根据n个地址确定计算指令不满足条件2的情况下，即在根据n个地址确定计算指令不可SIMD化的情况下，程序数据级并行分析装置可以从采集表中删除读指令对应的表项，以减少资源占用，节省存储空间。

(三)确定计算指令是否满足条件3

在本申请具体的实施例中，程序数据级并行分析装置在获取到处理器执行的读指令之后，可以根据SIMD指令集，确定依赖读指令的计算指令是否满足条件3。

在一种可能的实施方式中，程序数据级并行分析装置中可以包括预先配置好的SIMD指令集，该指令集可以以指令的形式存储于程序数据级并行分析装置，并预先建立SIMD指令集中的每条SIMD指令与其对应的计算指令之间的对应关系，程序数据级并行分析装置在获取到计算指令后，可以查找SIMD指令集中是否存在与该计算指令有对应关系的SIMD指令，若存在有对应关系的SIMD指令，则确定计算指令满足条件3，若不存在有对应关系的SIMD指令，则确定计算指令不满足条件3，可以理解，确定计算指令不满足条件3，即确定了计算指令不可SIMD化。

在另一种可能的实施方式中，SIMD指令集可以以SIMD指令表的形式存储，SIMD指令表中可以包括SIMD指令集中的每条SIMD指令对应的关键字，例如，假设SIMD指令为可以对加法指令进行SIMD化的指令，则SIMD指令表中包括的与该SIMD指令对应的关键字可以为“add”和/或“+”等，程序数据级并行分析装置在获取到加法指令后，可以提取加法指令包括的关键字“add”和/或“+”等，在查看到SIMD指令表中有关键字“add”和/或“+”时，确定计算指令满足条件3，反之，则确定计算指令不满足条件3。

需要说明的是，上述两种SIMD指令集在程序数据级并行分析装置的存储形式仅仅是作为示例，不应视为具体限定。

可以理解，为了便于程序数据级并行分析装置一次性确定计算指令是否可SIMD化，提高分析效率，在具体实现中，程序数据级并行分析装置可以在同一个采样周期中，确定计算指令是否满足条件1、条件2和条件3，本申请实施例不对装置确定计算指令是否满足条件1、条件2和条件3的先后顺序进行限定。

还可以理解，如果程序数据级并行分析装置在一个采样周期中，确定了一条计算指令同时满足条件1、条件2和条件3，则装置可以确定该计算指令可SIMD化。

请参见图7，图7为本申请实施例提供的一种程序数据级并行分析方法的流程示意图，该方法可以应用于CPU、GPU、DSP等支持SIMD技术的处理器，此处不作具体限定。

如图7所示，该方法包括但不限于如下步骤：

S201、获取处理器执行的读指令，读指令用于获取计算指令所需的参数。

S202、根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化。

在一种可能的实施方式中，在根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化之前，还可以获取读指令执行的连续n次读操作对应的n个地址，在获取到n个地址的情况下，根据读指令和计算指令之间的依赖关系以及n个地址，确定计算指令是否可SIMD化，其中，n为大于2的自然数。

在一种可能的实施方式中，程序数据级并行分析装置中可以包括预先配置好的SIMD指令集，在根据读指令和计算指令之间的依赖关系和n个地址，确定计算指令是否可SIMD化的同时，根据SIMD指令集进一步确定计算指令是否可SIMD化。

在一种可能的实施方式中，根据读指令和计算指令之间的依赖关系和n个地址，确定计算指令是否可SIMD化的具体过程包括：

计算得到n个地址中每两个相邻的地址之间的步长；

根据每两个相邻的地址之间的步长是否相等且不为0，以及读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化。在一种可能的实施方式中，根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化的具体过程包括：

根据读指令和计算指令之间的依赖关系构建依赖图，其中，依赖图用于反映读指令和计算指令之间的依赖关系；

根据依赖图中是否存在依赖环，确定计算指令是否可SIMD化。

在本申请具体的实施例中，图7所示实施例可以作为程序数据级并行分析装置在应用程序运行时进行的一次采样分析过程，在程序数据级并行分析装置第一次确定了一条计算指令可SIMD化的情况下，可以将该计算指令被确定可SIMD化的次数统计为1，若在后续采样周期中，装置也确定了该计算指令可SIMD化，则可以对该计算指令被确定可SIMD化的次数进行累加，若在后续采样周期中，装置确定了该计算指令不可SIMD化，则可以将该计算指令被确定可SIMD化的次数依次减1，或者将该计算指令标记为不可SIMD指令，在后续采样周期中不再对该计算指令进行分析。

在本申请具体的实施例中，在程序数据级并行分析装置进行了多次采样周期后，若装置统计到的计算指令被确定可SIMD化的次数达到预设阈值，则可以生成提示信息，提示信息可以被呈现或者发送给用户对用户进行提示，便于用户尽快获知应用程序中有可SIMD化的代码段，用户可以参考该提示信息对应用程序中可SIMD化的代码段进行优化。

具体地，程序数据级并行分析装置生成的提示信息，可以为在界面上高亮显示该计算指令的地址以及该计算指令被确定可SIMD化的次数，还可以为向用户发送包括该计算指令的地址、该计算指令被确定可SIMD化的次数等信息的短信或者邮件等，此处不作具体限定；采样周期可以设置为预设时长或者为处理器执行的指令条数，此处不作具体限定。

为了简便陈述，本实施例没有对获取处理器执行的读指令的具体过程、根据读指令和依赖读指令的计算指令之间的依赖关系，确定计算指令是否可SIMD化的具体过程、根据n个地址确定计算指令是否可SIMD化的具体过程、根据SIMD指令集确定计算指令是否可SIMD化的具体过程等进行展开描述，具体请参见上文以及相关描述，此处不再展开赘述。

可以看出，本申请实施例提供的程序数据级并行分析方法可以在应用程序运行时，通过获取处理器执行的读指令，然后根据读指令和依赖读指令的计算指令之间的依赖关系，确定计算指令是否可SIMD化，可以快速确定应用程序中的可SIMD化代码，提高查找可SIMD化代码的效率，节省人力和时间。

还可以看出，本申请实施例提供的方法可以在根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化的基础上，根据读指令执行的连续n次读操作对应的n个地址和/或SIMD指令集，进一步确定计算指令是否可SIMD化，可以进一步提升确定计算指令是否可SIMD化的准确性。

另外，可以理解，上述图7所示实施例可以作为程序数据级并行分析装置在应用程序运行时进行的一次采样分析过程，程序数据级并行分析装置可以在每一个采样周期中，仅对计算指令进行分析，确定计算指令是否可SIMD化，无需对应用程序中包括的不可能SIMD化的指令进行分析，可以减少分析过程对应用程序性能的影响以及减少分析开销。

上文详细阐述了本申请实施例的一种程序数据级并行方法，基于相同的发明构思，下面继续提供本申请实施例的程序数据级并行分析装置，本申请提供的程序数据级并行分析装置可以应用于CPU、GPU、DSP等支持SIMD技术的处理器，此处不作具体限定。

参见图8，图8是本申请实施例提供的一种程序数据级并行分析装置100的结构示意图，该装置100包括：获取模块110、确定模块120和提示模块130，其中，

获取模块110，用于获取处理器执行的读指令，读指令用于获取计算指令所需的参数；

确定模块120，用于根据读指令和计算指令之间的依赖关系，确定计算指令是否可单指令多数据SIMD化。

在一种可能的实施方式中，在根据读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化之前，获取模块110，还用于获取读指令执行的连续n次读操作对应的n个地址，其中，n为大于2的自然数；

确定模块120具体用于：

根据读指令和计算指令之间的依赖关系和n个地址，确定计算指令是否可SIMD化。

在一种可能的实施方式中，确定模块120具体用于：

根据读指令和计算指令之间的依赖关系、n个地址和SIMD指令集，确定计算指令是否可SIMD化。

在一种可能的实施方式中，程序数据级并行分析装置100还包括：提示模块130；

获取模块110，还用于在多次获取处理器执行的读指令的情况下，获取计算指令被确定可SIMD化的次数；

提示模块130，用于在次数达到预设阈值的情况下，生成提示信息。

在一种可能的实施方式中，确定模块120具体用于：

计算得到n个地址中每两个相邻的地址之间的步长；

根据每两个相邻的地址之间的步长是否相等且不为0，以及读指令和计算指令之间的依赖关系，确定计算指令是否可SIMD化。在一种可能的实施方式中，确定模块120具体用于：

根据依赖图是否存在依赖环，确定计算指令是否可SIMD化。

具体地，上述程序数据级并行分析装置100执行各种操作的具体实现，可参照上述程序数据级并行方法实施例中相关内容中的描述，为了说明书的简洁，这里不再赘述。

应当理解，程序数据级并行分析装置100仅为本申请实施例提供的一个例子，并且，程序数据级并行分析装置100可具有比图8示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

本申请实施例还提供一种计算机设备200，参见图9，图9是本申请实施例提供的一种计算机设备200的结构示意图，该计算机设备200包括：处理器210、存储器220以及通信接口230，其中，处理器210、存储器220以及通信接口230之间可以通过总线240相互连接。其中，

处理器210可以读取存储器220中存储的程序代码，与通信接口230配合执行本申请上述实施例中由程序数据级并行分析装置100执行的方法的部分或者全部步骤。

处理器210可以有多种具体实现形式，例如处理器210可以为CPU或GPU，处理器910还可以是单核处理器或多核处理器。处理器210可以由CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。处理器210也可以单独采用内置处理逻辑的逻辑器件来实现，例如FPGA或DSP等。

存储器220可以存储有程序代码以及程序数据。其中，程序代码包括：获取模块110的代码、确定模块120的代码和提示模块130的代码等，程序数据包括：读指令、读指令和计算指令之间的依赖关系、读指令执行的连续n次读操作对应的n个地址、第一步长等等。

在实际应用中，存储器220可以是非易失性存储器，例如，只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。存储器220也可以是易失性存储器，易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。

通信接口230可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他计算节点或装置进行通信。当通信接口230为有线接口时，通信接口230可以采用传输控制协议/网际协议(transmission control protocol/internet protocol，TCP/IP)之上的协议族，例如，远程函数调用(remote function call，RFC)协议、简单对象访问协议(simple object access protocol，SOAP)协议、简单网络管理协议(simple network management protocol，SNMP)协议、公共对象请求代理体系结构(common object request broker architecture，CORBA)协议以及分布式协议等等。

总线240可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。所述总线240可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

上述计算机设备200用于执行上述方法实施例中执行的方法，与上述方法实施例属于同一构思，其具体实现过程详见上述方法实施例，这里不再赘述。

应当理解，计算机设备200仅为本申请实施例提供的一个例子，并且，计算机设备200可具有比图9示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

本申请实施例还提供一种非瞬态计算机可读存储介质，非瞬态计算机可读存储介质中存储有指令，当其在处理器上运行时，可以实现上述实施例中记载的程序数据级并行分析方法的部分或者全部步骤。

本本申请实施例还提供一种计算机程序产品，当计算机程序产品被计算机读取并执行时，可以实现上述方法实施例中记载的程序数据级并行分析方法的部分或者全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质、或者半导体介质等。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减；本申请实施例装置中的单元可以根据实际需要进行划分、合并或删减。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种程序数据级并行分析方法，其特征在于，所述方法包括：

获取处理器执行的读指令，所述读指令用于获取计算指令所需的参数；

根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可单指令多数据SIMD化。
根据权利要求1所述的方法，其特征在于，在根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化之前，所述方法还包括：

获取所述读指令执行的连续n次读操作对应的n个地址，其中，n为大于2的自然数；

所述根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化。
根据权利要求2所述的方法，其特征在于，所述根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系、所述n个地址和SIMD指令集，确定所述计算指令是否可SIMD化。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

在多次获取所述处理器执行的所述读指令的情况下，获取所述计算指令被确定可SIMD化的次数；

在所述次数达到预设阈值的情况下，生成提示信息。
根据权利要求2至4任一项所述的方法，其特征在于，所述根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化，包括：

计算得到所述n个地址中每两个相邻的地址之间的步长；

根据所述每两个相邻的地址之间的步长是否相等且不为0，以及所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化。
根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化，包括：

根据所述读指令和所述计算指令之间的依赖关系构建依赖图，其中，所述依赖图用于反映所述读指令和所述计算指令之间的依赖关系；

根据所述依赖图中是否存在依赖环，确定所述计算指令是否可SIMD化。
一种程序数据级并行分析装置，其特征在于，所述装置包括：

获取模块，用于获取处理器执行的读指令，所述读指令用于获取计算指令所需的参数；

确定模块，用于根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否SIMD化。
根据权利要求7所述的装置，其特征在于，在根据所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化之前，

所述获取模块，还用于获取所述读指令执行的连续n次读操作对应的n个地址，其中，n为大于2的自然数；

所述确定模块具体用于：

根据所述读指令和所述计算指令之间的依赖关系和所述n个地址，确定所述计算指令是否可SIMD化。
根据权利要求8所述的装置，其特征在于，所述确定模块具体用于：

根据所述读指令和所述计算指令之间的依赖关系、所述n个地址和SIMD指令集，确定所述计算指令是否可SIMD化。
根据权利要求9所述的装置，其特征在于，所述装置还包括：提示模块；

所述获取模块，还用于在多次获取所述处理器执行的所述读指令的情况下，获取所述计算指令被确定可SIMD化的次数；

所述提示模块，用于在所述次数达到预设阈值的情况下，生成提示信息。
根据权利要求8至10任一项所述的装置，其特征在于，所述确定模块具体用于：

计算得到所述n个地址中每两个相邻的地址之间的步长；

根据所述每两个相邻的地址之间的步长是否相等且不为0，以及所述读指令和所述计算指令之间的依赖关系，确定所述计算指令是否可SIMD化。
根据权利要求7至11任一项所述的装置，其特征在于，所述确定模块具体用于：

根据所述读指令和所述计算指令之间的依赖关系构建依赖图，其中，所述依赖图用于反映所述读指令和所述计算指令之间的依赖关系；

根据所述依赖图中是否存在依赖环，确定所述计算指令是否可SIMD化。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器用于存储指令，所述处理器用于执行所述指令以实现如权利要求1至6任一项所述的方法。
一种非瞬态计算机可读存储介质，其特征在于，所述非瞬态计算机可读介质存储有计算机可读指令，当所述计算机可读指令被运行时，执行如权利要求1至6任一项所述的方法。