WO2017107154A1

WO2017107154A1 - 一种矩阵运算的源到源转换方法及源到源编译器

Info

Publication number: WO2017107154A1
Application number: PCT/CN2015/098781
Authority: WO
Inventors: 刘明; 成玉凤; 李炜
Original assignee: 华为技术有限公司
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2017-06-29

Abstract

一种矩阵运算的源到源转换方法及源到源编译器，以至少消除现有矩阵运算过程中冗余的循环结构和内存读写操作。方法包括：接收第一源代码，所述第一源代码为用户输入的矩阵运算的源代码（S501）；解析所述第一源代码，获得对应的抽象语法树AST（S502）；根据所述AST，获取所述矩阵运算的运算类型（S503）；根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性，获得第0级中间代码（S504）；将所述第0级中间代码进行降级库内联操作，得到第1级中间代码（S505）；根据目标器件的类型，将所述第1级中间代码转换为所述目标器件所支持的第二源代码（S506）。本方法及编译器适用于通信相关领域。

Description

一种矩阵运算的源到源转换方法及源到源编译器

技术领域

本发明涉及通信相关领域，尤其涉及一种矩阵运算的源到源转换方法及源到源编译器。

背景技术

目前通信相关领域存在较多的矩阵运算，通常可以采用平台无关的领域特定语言(英文全称：domain specific languages，英文缩写：DSL)来进行描述。然而，由于DSL语言无法直接生成器件(如数字信号处理(英文全称：digital signal processing，英文缩写：DSP)芯片)上可运行的目标文件，因此需要通过源到源编译器将DSL语言转换为不同目标器件对应的源码后，才能进行目标文件的编译，如图1所示。

如何将矩阵描述的DSL源到源转换为高效的目标器件代码，一直是源到源转换的难点。现有技术中，源到源转换原理如图2所示，包含：DSL代码经过分析器(英文：parser)的词法分析、语法分析和语义分析得到对应的抽象语法树(英文全称：abstract syntax tree，英文缩写：AST)，然后将AST转换为只包含原子操作的中间代码(IR 0)；IR 0进行降级库内联(英文：inline)操作，得到1级中间代码(IR 1)；接着对降级后的1级中间代码进行编译器优化操作，最后根据不同的目标器件，将1级中间代码(IR 1)替换为目标器件支持的C语言(包含器件矢量指令)代码。其中，IR 0进行降级库内联操作，得到1级中间代码(IR1)的过程中，需要读取需要转换的原子操作语句，在降级库中查找对应的1级中间代码块，进而将该代码块替换对应的原子操作语句，对于矩阵操作，对应的1级中间代码是一个循环结构的代码块。上述过程对应的源到源转换过程示例如图3所示。

从上述过程可以看出，中间代码进行降级库内联操作会使得每一个原子操作都形成一个独立的循环结构，而每个循环结构都是一个独立的“内存读取-计算-内存写入”的操作过程，因此矩阵复合运算最终转换的代码会出现大量循环结构和冗余的内存操作，导致总线流量和系统时延增大，使得系统性能无法满足要求。

因此，如何消除现有矩阵运算过程中冗余的循环结构和内存读写操作，成为目前亟待解决的问题。

发明内容

本发明实施例提供一种矩阵运算的源到源转换方法及源到源编译器，以至少消除现有矩阵运算过程中冗余的循环结构和内存读写操作。

为达到上述目的，本发明实施例采用如下技术方案：

第一方面，提供一种矩阵运算的源到源转换方法，所述方法包括：

接收第一源代码，该第一源代码为用户输入的矩阵运算的源代码；

解析该第一源代码，获得对应的抽象语法树AST；

根据该AST，获取该矩阵运算的运算类型；

根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码；

将该第0级中间代码进行降级库内联操作，得到第1级中间代码；

根据目标器件的类型，将该第1级中间代码转换为目标器件所支持的第二源代码。

通过上述方法，由于本发明实施例可以在根据为用户输入的矩阵运算的第一源代码获得对应的AST之后，根据该AST获取矩阵运算的运算类型，进而根据该运算类型对该矩阵运算添加对应的运算属性，获得第0级中间代码后，将该第0级中间代码进行降级库内联操作，得到第1级中间代码。由于第0级中间代码为对矩阵运算添加对应的运算属性后的中间代码，而矩阵的多个运算属性可以相互作用形成合并属性，表现为矩阵的多个步骤的运算可以化解为单个步骤的运算，因此在将该第0级中间代码进行降级库内联操作时，可以利用运算属性信息对内联降级过程进行优化，将相关联的计算放在同一个循环结构中，从而避免了现有技术中将AST转换为包含原子操作的中间代码(IR 0)；在IR 0进行降级库内联操作，得到1级中间代码(IR 1)时由于每一个原子操作都形成一个独立的循环结构，而每个循环结构都是一个独立的“内存读取-计算- 内存写入”的操作过程，因此矩阵复合运算最终转换的代码会出现大量循环结构和冗余的内存操作，导致总线流量和系统时延增大，使得系统性能无法满足要求的问题，消除了现有矩阵运算过程中冗余的循环结构和内存读写操作，提升了生成代码的性能。

第二方面，提供一种源到源编译器，该源到源编译器包括：

接收单元，用于接收第一源代码，该第一源代码为用户输入的矩阵运算的源代码；

解析单元，用于解析该第一源代码，获得对应的抽象语法树AST；

获取单元，用于根据该AST，获取该矩阵运算的运算类型；

添加单元，用于根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码；

降级单元，用于将该第0级中间代码进行降级库内联操作，得到第1级中间代码；

转换单元，用于根据目标器件的类型，将该第1级中间代码转换为目标器件所支持的第二源代码。

由于本发明实施例提供的源到源编译器可以用于执行上述第一方面的方法，因此，其所能获得的技术效果可以参考上述第一方面中源到源编译器执行的矩阵运算的源到源转换方法的技术效果，此处不再赘述。

可选的，在上述第一方面中，在将该第0级中间代码进行降级库内联操作，得到第1级中间代码之后，还可以包括：

将该运算属性添加至降级库中，获得对应的降级表达式。

这样，可以使得在后续的矩阵运算的源到源转换过程中，在根据矩阵运算的运算类型，对矩阵运算添加对应的运算属性，获得第0级中间代码之后，直接匹配降级库中的降级表达式进行降级库内联操作，进一步简化了矩阵运算的源到源转换的过程，提高了矩阵运算的源到源转换的效率。

可选的，在上述第一方面中，将该第0级中间代码进行降级库内联操作，得到第1级中间代码，具体可以包括：

将该第0级中间代码与降级库中的降级表达式进行匹配；

若匹配成功，根据降级库中与该第0级中间代码匹配的降级表达式对该第0级中间代码进行降级库内联操作，得到第1级中间代码。

通过上述方法，当不是第一次接收包含该矩阵运算的源代码时，在获得第0级中间代码之后，对第0级中间代码进行降级库内联操作时，可以直接与降级库中的降级表达式进行匹配，如果匹配成功，直接根据该降级表达式进行降级库内联操作，进一步简化了矩阵运算的源到源转换的过程，提高了矩阵运算的源到源转换的效率。

可选的，在上述第一方面中，根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码，具体可以包括：

根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性；

根据该运算属性对该矩阵运算进行简化操作，获得简化后的矩阵运算；

将该简化后的矩阵运算转换为第0级中间代码。

通过上述方法，可以根据该运算属性对该矩阵运算进行简化操作，进而将简化后的矩阵运算转换为第0级中间代码，因此可以减少生成代码中冗余的内存读写操作，得到更为简洁的第0级中间代码，从而在将第0级中间代码进行降级库内联操作时，可以进一步简化操作过程，提高矩阵运算的源到源转换的效率。

可选的，在上述第二方面中，添加单元，还用于在降级单元将该第0级中间代码进行降级库内联操作，得到第1级中间代码之后，将该运算属性添加至降级库中，获得对应的降级表达式。

可选的，在上述第二方面中，降级单元具体可以用于：

将该第0级中间代码与降级库中的降级表达式进行匹配；

可选的，在上述第二方面中，添加单元可以具体用于：

将该简化后的矩阵运算转换为第0级中间代码。

第三方面，提供一种源到源编译器，该源到源编译器包括：处理器、存储器、总线和通信接口；

存储器用于存储计算机执行指令，处理器与存储器通过总线连接，当源到源编译器运行时，处理器执行述存储器存储的计算机执行指令，以使源到源编译器执行如上述第一方面或者第一方面的任意一种可选方式中所述的矩阵运算的源到源转换方法。

由于本发明实施例提供的源到源编译器用于执行上述第一方面的方法，因此，其所能获得的技术效果可以参考上述第一方面中源到源编译器执行的矩阵运算的源到源转换方法的技术效果，此处不再赘述。

第四方面，提供一种可读介质，包括计算机执行指令；其中，

当源到源编译器的处理器执行所述计算机执行指令时，该源到源编译器执行如上述第一方面或者第一方面的任意一种可选方式中所述的矩阵运算的源到源转换方法。

其中，本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

图1为现有的源到源编译框架图；

图2为现有的源到源转换原理示意图；

图3为现有的源到源转换的示例图；

图4为本发明实施例提供的矩阵运算的源到源转换原理示意图；

图5为本发明实施例提供的矩阵运算的源到源转换方法流程示意图一；

图6为本发明实施例提供的矩阵运算的源到源转换方法流程示意图二；

图7为本发明实施例提供的矩阵运算的源到源转换方法流程示意图三；

图8为本发明实施例提供的矩阵运算的源到源转换方法流程示意图四；

图9为本发明实施例提供的矩阵运算的源到源转换示例图；

图10为本发明实施例提供的源到源编译器的结构示意图一；

图11为本发明实施例提供的源到源编译器的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

需要说明的是，为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。

另外，在本发明实施例中，“示例的”、或者“比如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”或“比如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例的”、或者“比如”等词旨在以具体方式呈现概念。

本发明实施例中，“的(英文：of)”，“相应的(英文：corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

图4为本发明实施例提供的矩阵运算的源到源转换原理示意图。如图4所示，本发明实施例中，DSL代码经过分析器(英文：parser)的词法分析、语法分析和语义分析得到对应的AST，然后根据该AST，获取矩阵运算的运算类型；进而，根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码。然后对IR 0进行降级库内联(英文：inline)操作，得到1级中间代码(IR 1)；接着对降级后的 1级中间代码进行编译器优化操作，最后根据不同的目标器件，将1级中间代码(IR 1)替换为目标器件支持的C语言(包含器件矢量指令)代码。

下面将基于图4所示的矩阵运算的源到源转换原理示意图，给出本发明实施例提供的矩阵运算的源到源转换方法，如图5所示，包括步骤S501-S506：

S501、源到源编译器接收第一源代码，该第一源代码为用户输入的矩阵运算的源代码。

具体的，本发明实施例中，矩阵运算的源代码具体可以是包含矩阵操作的语言，如类matlab语言或基于C/Java的扩展语言等，本发明实施例对此不作具体限定。

S502、源到源编译器解析第一源代码，获得对应的AST。

具体的，该解析过程可以包括：对第一源代码的扩展支持，如矩阵类型、广义数据类型、新的操作、子树或模板等，本发明实施例对此不作具体限定。

S503、源到源编译器根据该AST，获取该矩阵运算的运算类型。

具体的，矩阵运算的运算类型具体可以包括：求转置、求共轭或散列方式取矩阵A的第i行数据，等等，本发明实施例在此不再一一列举。

S504、源到源编译器根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码。

具体的，在源到源编译器获取该矩阵运算的运算类型之后，将根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性。比如，运算类型包括：散列方式取矩阵A的第i行数据以及求转置，则可以对该矩阵运算添加对应的运算属性，包括：散列方式取矩阵A的第i行数据以及求转置。

S505、源到源编译器将该第0级中间代码进行降级库内联操作，得到第1级中间代码。

具体的，本发明实施例中，降级库内联操作具体用于将一种高级的表示形式转换为另一种低级的表示形式。其中，高级的表示形式是抽象化的，更贴近于人的理解；低级的表示形式是具体的，更贴近于机器的执行。

S506、源到源编译器根据目标器件的类型，将该第1级中间代码转换为该目标器件所支持的第二源代码。

具体的，第二源代码为目标器件的编译器能够编译的源代码，可配置在相应的目标器件的编译器中编译后生成该目标器件的可执行代码，本发明实施例对此不作详细阐述，具体可参考现有的实现方式。

基于本发明实施例提供的矩阵运算的源到源转换方法，由于本发明实施例可以在根据为用户输入的矩阵运算的第一源代码获得对应的AST之后，根据该AST获取矩阵运算的运算类型，进而根据该运算类型对该矩阵运算添加对应的运算属性，获得第0级中间代码后，将该第0级中间代码进行降级库内联操作，得到第1级中间代码。由于第0级中间代码为对矩阵运算添加对应的运算属性后的中间代码，而矩阵的多个运算属性可以相互作用形成合并属性，表现为矩阵的多个步骤的运算可以化解为单个步骤的运算，因此在将该第0级中间代码进行降级库内联操作时，可以利用运算属性信息对内联降级过程进行优化，将相关联的计算放在同一个循环结构中，从而避免了现有技术中将AST转换为包含原子操作的中间代码(IR 0)；在IR 0进行降级库内联操作，得到1级中间代码(IR 1)时由于每一个原子操作都形成一个独立的循环结构，而每个循环结构都是一个独立的“内存读取-计算-内存写入”的操作过程，因此矩阵复合运算最终转换的代码会出现大量循环结构和冗余的内存操作，导致总线流量和系统时延增大，使得系统性能无法满足要求的问题，消除了现有矩阵运算过程中冗余的循环结构和内存读写操作，提升了生成代码的性能。

可选的，如图6所示，本发明实施例中，在源到源编译器将该第0级中间代码进行降级库内联操作，得到第1级中间代码(步骤S505)之后，还可以包括：

S507、源到源编译器将运算属性添加至降级库中，获得对应的降级表达式。

即，当源到源编译器第一次接收包含该矩阵运算的源代码时，可以在源到源编译器将该第0级中间代码进行降级库内联操作，得到第1级中间代码之后，将运算属性添加至降级库中，获得对应的降级表达式。这样，可以使得在后续的矩阵运算的源到源转换过程中，在根据矩阵运算的运算类型，对矩阵运算添加对应的运算属性，获得第0级中间代码之后，直接匹配降级库中的降级表达式进行降级库内联操作，进一步简化了矩阵运算的源到源转换的过程，提高了矩阵运算的源到源转换的效率。

可选的，如图7所示，本发明实施例中，一种可能的实现方式中，源到源编译器将该第0级中间代码进行降级库内联操作，得到第1级中间代码(步骤S505)，具体可以包括：

S505b1、源到源编译器将第0级中间代码与降级库中的降级表达式进行匹配。

S505b2、若匹配成功，源到源编译器根据该降级库中与第0级中间代码匹配的降级表达式对第0级中间代码进行降级库内联操作，得到第1级中间代码。

即，本发明实施例中，当源到源编译器不是第一次接收包含该矩阵运算的源代码时，在获得第0级中间代码之后，对第0级中间代码进行降级库内联操作时，可以直接与降级库中的降级表达式进行匹配，如果匹配成功，直接根据该降级表达式进行降级库内联操作，进一步简化了矩阵运算的源到源转换的过程，提高了矩阵运算的源到源转换的效率。

可选的，如图8所示，本发明实施例中，源到源编译器根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性，获得第0级中间代码(步骤S504)，具体可以包括：

S504a、源到源编译器根据该矩阵运算的运算类型，对该矩阵运算添加对应的运算属性。

S504b、源到源编译器根据该运算属性对该矩阵运算进行简化操作，获得简化后的矩阵运算。

S504c、源到源编译器将简化后的矩阵运算转换为第0级中间代码。

即，本发明实施可以根据运算属性对矩阵运算进行简化操作。

比如，对于矩阵运算E＝TRAN(TRAN(A[1，2，5，7]))，A[1，2，5，7]表示散列方式取A矩阵的1，2，5，7行数据，TRAN表示求转置，则该矩阵运算对应的运算类型包括散列以及两次转置。则，根据运算属性对该矩阵运算进行简化操作后，两个TRAN属性可以相互抵消，只剩下散列取值的属性。

由于本发明实施例中可以根据该运算属性对该矩阵运算进行简化操作，进而将简化后的矩阵运算转换为第0级中间代码，因此可以减少生成代码中冗余的内存读写操作，得到更为简洁的第0级中间代码，从而在将第0级中间代码进行降级库内联操作时，可以进一步简化操作过程，提高矩阵运算的源到源转换的效率。

下面将结合一个具体示例对上述矩阵运算的源到源转换方法进行详细阐述。

示例性的，假设存在矩阵运算

E＝TRAN(TRAN(A[1，2，5，7])).*CONJ(B)+C/2-D，其中，TRAN表示求转置，CONJ表示求共轭，TRAN(TRAN(A[1，2，5，7])).右下角的“.”表示矩阵进行点乘操作，即矩阵的对应元素与矩阵的对应元素相乘，与一般的矩阵乘相区分。矩阵A、B、C、D分别如下所示：

则矩阵运算的源到源转换方法可以包括如下步骤S1-S5：

S1、在源到源编译器接收并解析第一源代码，获得对应的AST之后，根据AST获取该矩阵运算的运算类型可得，运算类型包含求散列、求转置、求共轭、以及求商。

S2、根据矩阵运算的运算类型，对矩阵运算添加对应的运算属性可得：

A：[1，2，5，7]，TRAN，TRAN；

B：CONJ；

C：1/2；

S3、根据运算属性对矩阵运算进行简化操作，获得简化后的矩阵运算。如下：

E＝A1.*B1+C1-D1，其中，矩阵A1、B1、C1、D1分别如下所示：

S4、将简化后的矩阵运算转换为第0级中间代码，并将第0级中间代码进行降级库内联操作，得到第1级中间代码，可以如下：

For(i＝0；i＜4；i++)

{

Vector Va1，Vb1，Vc1，Vd1，Ve；

Vector Va1＝load(A[1，2，5，7][i])；

Vector Vb1＝CONJ(load(B[i]))；

Vector Vc1＝load(C[i])/2；

Vector Vd1＝load(D[i])；

Vector Ve；

Ve＝Va1.*Vb1+Vc1-Vd1；，

Store(Ve，E[i])；

}

其中，当i＝0时，Va1、Vb1、Vc1、Vd1、Ve具体为：

Va1＝(2+2i，2+2i，2+2i，2+2i)；

Vb1＝(1-1i，2-2i，3-3i，4-4i)；

Vc1＝(1+1i，2+2i，4+4i，8+8i)；

Vd1＝(1+1i，3+3i，5+5i，7+7i)；

Ve＝Va1.*Vb1+Vc1-Vd1

＝(2+2i，2+2i，2+2i，2+2i).*(1-1i，2-2i，3-3i，4-4i)+(1+1i，2+2i，4+4i，8+8i)-(1+1i，3+3i，5+5i，7+7i)

＝(4+0i，8+0i，12+0i，16+0i)+(1+1i，2+2i，4+4i，8+8i)-(1+1i，3+3i，5+5i，7+7i)

＝(4+0i，7-1i，11-1i，17+1i)。

当i＝1时，Va1、Vb1、Vc1、Vd1、Ve具体为：

Va1＝(3+3i，3+3i，3+3i，3+3i)；

Vb1＝(1-1i，2-2i，3-3i，4-4i)；

Vc1＝(1+1i，2+2i，4+4i，8+8i)；

Vd1＝(2+2i，4+4i，6+6i，8+8i)；

Ve＝Va1.*Vb1+Vc1-Vd1

＝(3+3i，3+3i，3+3i，3+3i).*(1-1i，2-2i，3-3i，4-4i) +(1+1i，2+2i，4+4i，8+8i)-(2+2i，4+4i，6+6i，8+8i)；

＝(6+0i，12+0i，18+0i，24+0i)+(1+1i，2+2i，4+4i，8+8i)-(2+2i，4+4i，6+6i，8+8i)；

＝(5-1i，10-2i，16-2i，24+0i)。

当i＝2时，Va1、Vb1、Vc1、Vd1、Ve具体为：

Va1＝(6+6i，6+6i，6+6i，6+6i)；

Vb1＝(1-1i，2-2i，3-3i，4-4i)；

Vc1＝(1+1i，2+2i，4+4i，8+8i)；

Vd1＝(1+1i，3+3i，5+5i，7+7i)；

Ve＝Va1.*Vb1+Vc1-Vd1

＝(6+6i，6+6i，6+6i，6+6i).*(1-1i，2-2i，3-3i，4-4i)+(1+1i，2+2i，4+4i，8+8i)-(1+1i，3+3i，5+5i，7+7i)；

＝(12+0i，24+0i，36+0i，48+0i)+(1+1i，2+2i，4+4i，8+8i)-(1+1i，3+3i，5+5i，7+7i)；

＝(12+0i，23-1i，35-1i，49+1i)。

当i＝3时，Va1、Vb1、Vc1、Vd1、Ve具体为：

Va1＝(8+8i，8+8i，8+8i，8+8i)；

Vb1＝(1-1i，2-2i，3-3i，4-4i)；

Vc1＝(1+1i，2+2i，4+4i，8+8i)；

Vd1＝(2+2i，4+4i，6+6i，8+8i)；

Ve＝Va1.*Vb1+Vc1-Vd1

＝(8+8i，8+8i，8+8i，8+8i).*(1-1i，2-2i，3-3i，4-4i)+(1+1i，2+2i，4+4i，8+8i)-(2+2i，4+4i，6+6i，8+8i)

＝(16+0i，32+0i，48+0i，64+0i)+(1+1i，2+2i，4+4i，8+8i)-(2+2i，4+4i，6+6i，8+8i)

＝(15-1i，30-2i，46-2i，64+0i)。

S5、根据目标器件的类型，将第1级中间代码转换为目标器件所支持的第二源代码。

至此，矩阵运算的源到源转换过程结束。

其中，上述示例也可以通过如图9所示的流程图进行表征，本发明实施例在此不再赘述。

由上述示例可以看出，基于本发明实施例提供的矩阵运算的源到源转换方法，由于本发明实施例可以在根据为用户输入的矩阵运算的第一源代码获得对应的AST之后，根据该AST获取矩阵运算的运算类型，进而根据该运算类型对该矩阵运算添加对应的运算属性，获得第0级中间代码后，将该第0级中间代码进行降级库内联操作，得到第1级中间代码。由于第0级中间代码为对矩阵运算添加对应的运算属性后的中间代码，而矩阵的多个运算属性可以相互作用形成合并属性，表现为矩阵的多个步骤的运算可以化解为单个步骤的运算，因此在将该第0级中间代码进行降级库内联操作时，可以利用运算属性信息对内联降级过程进行优化，将相关联的计算放在同一个循环结构中，从而避免了现有技术中将AST转换为包含原子操作的中间代码(IR 0)；在IR 0进行降级库内联操作，得到1级中间代码(IR 1)时由于每一个原子操作都形成一个独立的循环结构，而每个循环结构都是一个独立的“内存读取-计算-内存写入”的操作过程，因此矩阵复合运算最终转换的代码会出现大量循环结构和冗余的内存操作，导致总线流量和系统时延增大，使得系统性能无法满足要求的问题，消除了现有矩阵运算过程中冗余的循环结构和内存读写操作，提升了生成代码的性能。

如图10所示，本发明实施例提供了一种源到源编译器100，该源到源编译器100用于执行以上图5至图8所示的矩阵运算的源到源转换方法。该源到源编译器100可以包括相应步骤所对应的单元，示例的，可以包括：接收单元1001、解析单元1002、获取单元1003、添加单元1004、降级单元1005和转换单元1006。其中，

接收单元1001，用于接收第一源代码，第一源代码为用户输入的矩阵运算的源代码。

解析单元1002，用于解析第一源代码，获得对应的AST。

获取单元1003，用于根据AST，获取矩阵运算的运算类型。

添加单元1004，用于根据矩阵运算的运算类型，对矩阵运算添加对应的运算属性，获得第0级中间代码。

降级单元1005，用于将第0级中间代码进行降级库内联操作，得到第1级中间代码。

转换单元1006，用于根据目标器件的类型，将第1级中间代码转换为目标器件所支持的第二源代码。

可选的，添加单元1004，还用于在降级单元1005将第0级中间代码进行降级库内联操作，得到第1级中间代码之后，将运算属性添加至降级库中，获得对应的降级表达式。

可选的，降级单元1005具体用于：

将第0级中间代码与降级库中的降级表达式进行匹配；

若匹配成功，根据降级库中与第0级中间代码匹配的降级表达式对第0级中间代码进行降级库内联操作，得到第1级中间代码。

可选的，添加单元1004具体用于：

根据矩阵运算的运算类型，对矩阵运算添加对应的运算属性；

根据运算属性对矩阵运算进行简化操作，获得简化后的矩阵运算；

将简化后的矩阵运算转换为第0级中间代码。

可以理解，本发明实施例的源到源编译器100可对应于上述图5至图8所示的矩阵运算的源到源转换方法中的源到源编译器，并且本发明实施例的源到源编译器100中的各个单元的划分和/或功能等均是为了实现上述图5至图8所示的矩阵运算的源到源转换方法流程，为了简洁，在此不再赘述。

基于本发明实施例提供的源到源编译器，由于本发明实施例提供的源到源编译器可以在根据为用户输入的矩阵运算的第一源代码获得对应的AST之后，根据该AST获取矩阵运算的运算类型，进而根据该运算类型对该矩阵运算添加对应的运算属性，获得第0级中间代码后，将该第0级中间代码进行降级库内联操作，得到第1级中间代码。由于第0级中间代码为对矩阵运算添加对应的运算属性后的中间代码，而矩阵的多个运算属性可以相互作用形成合并属性，表现为矩阵的多个步骤的运算可以化解为单个步骤的运算，因此在将该第0级中间代码进行降级库内联操作时，可以利用运算属性信息对内联降级过程进行优化，将相关联的计算放在同一个循环结构中，从而避免了现有技术中将AST转换为包含原子操作的中间代码(IR 0)；在IR 0进行降级库内联操作，得到1级中间代码(IR 1)时由于每一个原子操作都形成一个独立的循环结构，而每个循环结构都是一个独立的“内存读取-计算-内存写入”的操作过程，因此矩阵复合运算最终转换的代码会出现大量循环结构和冗余的内存操作，导致总线流量和系统时延增大，使得系统性能无法满足要求的问题，消除了现有矩阵运算过程中冗余的循环结构和内存读写操作，提升了生成代码的性能。

如图11所示，本发明实施例提供一种源到源编译器110，包括：处理器1101、存储器1102、总线1103和通信接口1104。

存储器1102用于存储计算机执行指令，处理器1101与存储器1102通过总线1103连接，当源到源编译器110运行时，处理器1101执行存储器1102存储的计算机执行指令，以使源到源编译器110执行如图5至图8所示的矩阵运算的源到源转换方法。具体的矩阵运算的源到源转换方法可参见上述如图5至图8所示的实施例中的相关描述，此处不再赘述。

其中，本发明实施例中的处理器1101可以是一个中央处理器(英文全称：central processing unit，英文缩写：CPU)，还可以为其他通用处理器、数字信号处理器(英文全称：digital signal processing，英文缩写：DSP)、专用集成电路(英文全称：application specific integrated circuit，英文缩写：ASIC)、现场可编程门阵列(英文全称：field-programmable gate array，英文缩写：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该通用处理器也可以是任何常规的处理器等。另外，该处理器1101还可以为专用处理器，该专用处理器可以包括基带处理芯片、射频处理芯片等中的至少一个。进一步地，该专用处理器还可以包括具有源到源编译器110其他专用处理功能的芯片。

存储器1102可以包括易失性存储器(英文全称：volatile memory)，例如随机存取存储器(英文全称：random-access memory，英文缩写：RAM)；存储器1102也可以包括非易失性存储器(英文全称：non-volatile memory)，例如只读存储器(英文全称：read-only memory，英文缩写：ROM)，快闪存储器(英文全称：flash memory)，硬盘(英文全称：hard disk drive，英文缩写：HDD)或固态硬盘(英文全称：solid-state drive，英文缩写：SSD)；另外，存储器1102还可以包括上述种类的存储器的组合。

总线1103可以包括数据总线、电源总线、控制总线和信号状态总线等。本发明实施例中为了清楚说明，在图11中将各种总线都示意为总线1103。

通信接口1104具体可以是源到源编译器110上的收发器。该收发器可以为无线收发器，也可以为有线收发器，本发明实施例对此不作具体限定。

在具体实现过程中，上述如图5至图8所示的方法流程中的各步骤均可以通过硬件形式的处理器1101执行存储器1102中存储的软件形式的计算机执行指令实现。为避免重复，此处不再赘述。

可选的，本发明实施例提供一种可读介质，包括计算机执行指令。其中，当源到源编译器的处理器执行该计算机执行指令时，该源到源编译器执行以上图5至图8所示的矩阵运算的源到源转换方法。具体的矩阵运算的源到源转换方法可参见上述如图5至图8所示的实施例中的相关描述，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种矩阵运算的源到源转换方法，其特征在于，所述方法包括：

接收第一源代码，所述第一源代码为用户输入的矩阵运算的源代码；

解析所述第一源代码，获得对应的抽象语法树AST；

根据所述AST，获取所述矩阵运算的运算类型；

根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性，获得第0级中间代码；

将所述第0级中间代码进行降级库内联操作，得到第1级中间代码；

根据目标器件的类型，将所述第1级中间代码转换为所述目标器件所支持的第二源代码。
根据权利要求1所述的方法，其特征在于，在所述将所述第0级中间代码进行降级库内联操作，得到第1级中间代码之后，还包括：

将所述运算属性添加至所述降级库中，获得对应的降级表达式。
根据权利要求1所述的方法，其特征在于，所述将所述第0级中间代码进行降级库内联操作，得到第1级中间代码，包括：

将所述第0级中间代码与所述降级库中的降级表达式进行匹配；

若匹配成功，根据所述降级库中与所述第0级中间代码匹配的降级表达式对所述第0级中间代码进行降级库内联操作，得到第1级中间代码。
根据权利要求1)3任一项所述的方法，其特征在于，所述根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性，获得第0级中间代码，包括：

根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性；

根据所述运算属性对所述矩阵运算进行简化操作，获得简化后的矩阵运算；

将所述简化后的矩阵运算转换为第0级中间代码。
一种源到源编译器，其特征在于，所述源到源编译器包括：

接收单元，用于接收第一源代码，所述第一源代码为用户输入的矩阵运算的源代码；

解析单元，用于解析所述第一源代码，获得对应的抽象语法树AST；

获取单元，用于根据所述AST，获取所述矩阵运算的运算类型；

添加单元，用于根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性，获得第0级中间代码；

降级单元，用于将所述第0级中间代码进行降级库内联操作，得到第1级中间代码；

转换单元，用于根据目标器件的类型，将所述第1级中间代码转换为所述目标器件所支持的第二源代码。
根据权利要求5所述的源到源编译器，其特征在于，

所述添加单元，还用于在所述降级单元将所述第0级中间代码进行降级库内联操作，得到第1级中间代码之后，将所述运算属性添加至所述降级库中，获得对应的降级表达式。
根据权利要求5所述的源到源编译器，其特征在于，所述降级单元具体用于：

将所述第0级中间代码与所述降级库中的降级表达式进行匹配；

若匹配成功，根据所述降级库中与所述第0级中间代码匹配的降级表达式对所述第0级中间代码进行降级库内联操作，得到第1级中间代码。
根据权利要求5)7任一项所述的源到源编译器，其特征在于，所述添加单元具体用于：

根据所述矩阵运算的运算类型，对所述矩阵运算添加对应的运算属性；

根据所述运算属性对所述矩阵运算进行简化操作，获得简化后的矩阵运算；

将所述简化后的矩阵运算转换为第0级中间代码。
一种源到源编译器，其特征在于，所述源到源编译器包括：处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述源到源编译器运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述源到源编译器执行如权利要求1)4 任一项所述的矩阵运算的源到源转换方法。
一种可读介质，其特征在于，包括计算机执行指令；其中，

当源到源编译器的处理器执行所述计算机执行指令时，所述源到源编译器执行如权利要求1)4任一项所述的矩阵运算的源到源转换方法。