WO2022041015A1

WO2022041015A1 - 神经网络模型优化方法及装置

Info

Publication number: WO2022041015A1
Application number: PCT/CN2020/111529
Authority: WO
Inventors: 焦建兵; 张卫兵
Original assignee: 华为技术有限公司
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-03-03
Also published as: CN115956247A8; CN115956247A

Abstract

本申请提供一种神经网络模型优化方法及装置，涉及人工智能技术领域，用于提高神经网络模型的计算性能，降低执行计算任务时间。该方法包括：获取神经网络模型的第一计算图；根据预设规则，以及第一计算图，生成第二计算图；其中，针对同样的输入数据，第二计算图计算该输入数据的时间，少于第一计算图计算该输入数据的时间；预设规则包括以下至少一项：数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则；输出第二计算图。这样，将神经网络模型的第一计算图，优化为计算性能更强，执行计算任务时所需计算时间更少的第二计算图。从而提高了神经网络模型执行计算任务时的计算速度，降低了执行计算任务时间。

Description

神经网络模型优化方法及装置

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种神经网络模型优化方法及装置。

背景技术

在神经网络模型中，通常用计算图(Graph)表征神经网络模型的计算过程。神经网络模型的计算图是一种将神经网络模型中的各个神经元拆分为面向张量数据的算子后得到的计算图。该计算图能够表征各个算子的数学表达以及算子之间的连接关系，也即能够表征神经网络模型的神经元的数学表达，以及神经元之间的连接关系。

由于神经网络结构通常比较复杂，在将神经网络模型映射为计算图之后，计算图的拓扑也将比较复杂，计算复杂度较高，执行计算任务时，所需的计算时间比较长。

发明内容

本申请提供一种神经网络模型优化方法及装置，解决了现有技术中通过神经网络模型执行计算任务时，所需的计算时间较长的问题。

为解决上述问题，本申请采用如下技术方案：

第一方面，提供一种神经网络模型优化方法，包括：获取神经网络模型的第一计算图；根据预设规则，以及第一计算图，生成第二计算图；其中，利用第二计算图计算第一输入数据的时间，少于利用第一计算图计算第一输入数据的时间；预设规则包括以下至少一项：数学融合规则，数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则；输出第二计算图。

基于上述技术方案，本申请提供的神经网络模型优化方法，能够将神经网络模型的第一计算图，优化为计算性能更强，执行计算任务时所需计算时间更少的第二计算图。从而提高了神经网络模型执行计算任务时的计算速度，降低了神经网络模型执行计算任务所需的时间。

相应的，在配置有神经网络模型的终端设备(以下简称终端设备)调用神经网络模型执行计算任务时，采用本申请实施例提供的神经网络模型优化方法对神经网络模型进行优化，可以提高终端设备的计算性能，节省终端设备的计算时间。

结合上述第一方面，在一种可能的实现方式中，数学融合规则为：将多个第一计算节点，融合为一个第二计算节点；其中，第二计算节点对应的数学表达式为：对多个第一计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用多个第一计算节点计算第二输入数据的时间，大于利用第二计算节点计算第二输入数据的时间。

基于此，神经网络模型优化装置采用数学融合规则对第一计算图进行融合之后，得到的计算图的计算节点数量更少，计算图的拓扑结构更加简单，同时计算图的计算能力更强，计算数据所需的时间更少。因此，神经网络模型优化装置采用数学融合规则对神经网络模型的计算图进行优化时，可以提升神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需的计算时间。

结合上述第一方面，在一种可能的实现方式中，数学拆分规则为：数学拆分规则为：将一个第三计算节点拆分为多个第四计算节点；其中，第三计算节点对应的数学表达式为：对多个第四计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用第三计算节点计算第三输入数据的时间，大于利用多个第四计算节点计算第三输入数据的时间。

基于此，神经网络模型优化装置采用数学拆分规则，将一个计算节点拆分为多个计算节点之后，由于拆分后的多个计算节点执行计算任务的时间，小于拆分前的一个计算节点执行计算任务的时间。因此，神经网络模型优化装置采用数学拆分规则对神经网络模型的计算图进行优化同样可以提高神经网络模型计算图的计算性能，降低神经网络模型计算图计算数据所需的时间。

结合上述第一方面，在一种可能的实现方式中，指令融合规则为：根据接收到的节点融合指令，将多个第五计算节点融合为一个第六计算节点；其中，节点融合指令用于指示将多个第五计算节点融合为一个第六计算节点；利用多个第五计算节点计算第四输入数据的时间，大于利用第六计算节点计算第四输入数据的时间。

基于此，神经网络模型优化装置采用指令融合规则对第一计算图进行融合之后，得到的计算图的计算节点数量更少，计算图的拓扑结构更加简单，同时计算图的计算能力更强，计算数据所需的时间更少。因此，神经网络模型优化装置采用指令融合规则对神经网络模型的计算图进行优化时，可以提升神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需的计算时间。

此外，指令融合规则中的节点融合指令可以为人工输入的指令。此时，神经网络模型优化装置可以根据人工输入的指令对神经网络模型计算图中的节点进行融合，提升了神经网络模型优化方法的适用场景。

结合上述第一方面，在一种可能的实现方式中，指令拆分规则用于：根据接收到的节点拆分指令，将一个第七计算节点拆分为多个第八计算节点；其中，节点拆分指令用于指示将一个第七计算节点拆分为多个第八计算节点；利用第七计算节点计算第五输入数据的时间，大于利用多个第八计算节点计算第五输入数据的时间。

基于此，神经网络模型优化装置采用指令拆分规则，将一个计算节点拆分为多个计算节点之后，由于拆分后的多个计算节点执行计算任务的时间，小于拆分前的一个计算节点执行计算任务的时间。因此，神经网络模型优化装置采用指令拆分规则对神经网络模型的计算图进行优化同样可以提高神经网络模型计算图的计算性能，降低神经网络模型计算图计算数据所需的时间。

此外，指令融合规则中的节点拆分指令可以为人工输入的指令。此时，神经网络模型优化装置可以根据人工输入的指令对神经网络模型计算图中的节点进行拆分，提升了神经网络模型优化方法的适用场景。

结合上述第一方面，在一种可能的实现方式中，硬件融合规则为：第九计算节点采用第一传输路径向第十计算节点传输数据；其中，第九计算节点采用第一传输路径向第十节点传输数据的时间小于第九计算节点采用第二传输路径向第十节点传输数据的时间；第二传输路径为第一计算图中第九计算节点向第十节点传输数据的传输路径。

基于此，神经网络模型可以通过优化数据在节点中的传输路径，达到提高神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需时间的目的。

第二方面，提供一种神经网络模型优化装置，包括：通信单元和处理单元。通信单元，用于获取神经网络模型的第一计算图；处理单元，用于根据预设规则，以及第一计算图，生成第二计算图；第二计算图计算第一输入数据的时间，少于第一计算图计算第一输入数据的时间；预设规则包括以下至少一项：数学融合规则，数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则；通信单元，还用于输出第二计算图。

结合上述第二方面，在一种可能的实现方式中，数学融合规则为：将多个第一计算节点，融合为一个第二计算节点；其中，第二计算节点对应的数学表达式为：对多个第一计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用多个第一计算节点计算第二输入数据的时间，大于第二计算节点计算第二输入数据的时间。

结合上述第二方面，在一种可能的实现方式中，数学拆分规则为：将一个第三计算节点拆分为多个第四计算节点；其中，第三计算节点对应的数学表达式为：对多个第四计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用第三计算节点计算第三输入数据的时间，大于多个第四计算节点计算第三输入数据的时间。

结合上述第二方面，在一种可能的实现方式中，指令融合规则为：根据接收到的节点融合指令，将多个第五计算节点融合为一个第六计算节点；其中，节点融合指令，用于指示将多个第五计算节点融合为一个第六计算节点；利用多个第五计算节点计算第四输入数据的时间，大于第六计算节点计算第四输入数据的时间。

结合上述第二方面，在一种可能的实现方式中，指令拆分规则用于：根据接收到的节点拆分指令，将一个第七计算节点拆分为多个第八计算节点；其中，节点拆分指令，用于指示将一个第七计算节点拆分为多个第八计算节点；利用第七计算节点计算第五输入数据的时间，大于多个第八计算节点计算第五输入数据的时间。

结合上述第二方面，在一种可能的实现方式中，硬件融合规则为：第九计算节点采用第一传输路径向第十计算节点传输数据；其中，第九计算节点采用第一传输路径向第十节点传输数据的时间小于第九计算节点采用第二传输路径向第十节点传输数据的时间；第二传输路径为第一计算图中第九计算节点向第十节点传输数据的传输路径。

第三方面，本申请提供了一种神经网络模型优化装置，包括：处理器和存储介质；存储介质包括指令，处理器用于运行指令，以实现如第一方面和第一方面的任一种可能的实现方式中所描述的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当该指令在神经网络模型优化装置上运行时，使得神经网络模型优化装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的方法。

第五方面，本申请提供一种包含指令的计算机程序产品，当该计算机程序产品在神经网络模型优化装置上运行时，使得神经网络模型优化装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的方法。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请实施例提供的一种系统架构的结构示意图；

图2为本申请实施例体用的一种卷积神经网络结构示意图；

图3为本申请实施例提供的一种神经网络模型的计算图的结构示意图；

图4为本申请实施例提供的现有技术中的软件栈的架构示意图；

图5为本申请实施例提供的一种神经网络模型优化方法的流程示意图；

图6为本申请实施例提供的一种改进后的软件栈的架构示意图；

图7为本申请实施例提供的一种采用数学融合规则进行节点优化的示意图；

图8为本申请实施例提供的一种采用数学拆分规则进行节点优化的示意图；

图9a为本申请实施例提供的现有技术中计算节点执行计算任务的流程示意图；

图9b为本申请实施例提供的采用硬件融合规则优化后的计算节点执行计算任务的流程示意图；

图10为本申请实施例提供的一种神经网络模型优化装置的结构示意图；

图11为本申请实施例提供的另一种神经网络模型优化装置的结构示意图；

图12为本申请实施例提供的一种神经网络模型优化装置的硬件结构示意图；

图13为本申请实施例提供的又一种神经网络模型优化装置的硬件结构示意图。

具体实施方式

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请提供的神经网络模型可以为任意一种人工神经网络模型，例如卷积神经网络模型，反向传播(back propagation，BP)神经网络模型等，本申请实施例对此不做具体限定。

图1是本申请实施例提供的一种系统架构100。在图1中，数据采集设备160用于采集训练数据。以用于图像处理的目标模型101为例来说，训练数据可以包括训练图像以及训练图像对应的分类结果，其中，训练图像的结果可以是人工预先标注的结果。目标模型101也可以称为目标规则101。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型101进行描述，训练设备120对输入的原始图像进行处理，将输出的图像与原始图像进行对比，直到训练设备120输出的图像与原始图像的差值小于一定的阈值，从而完成目标模型101的训练。

本申请实施例中的目标模型101具体可以为神经网络。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型101可以应用于不同的系统或设备中，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)AR/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。

训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型101，该相应的目标模型101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

根据训练设备120训练得到目标模型101，可以是CNN，深度卷积神经网络(deep convolutional neural networks,DCNN)，循环神经网络(recurrent neural network，RNNS)等等。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，图1中所示设备、器件、模块等之间的位置关系、训练数据的类型以及神经网络的类型或功能不构成任何限制。例如，在图1中，模型转换器110可以置于客户设备140中。又如，其中的训练数据也可以是文本、语音或其他类型的数据。又如，模型转换器也可以有其他名称，例如模型编译器等等，只要能实现与模型转换器110类似功能的设备或装置都可理解为本申请中的模型转换器。

训练设备120训练的目标模型101模型文件是平台无关的(即经过编译可运行在不同的硬件平台上)，如果想在客户设备140上应用目标模型101，则训练设备120训练好的目标模型101需要经过模型转换器110的处理，将目标模型101的模型文件从当前格式编译到客户设备支持的格式。

例如，目标模型101是TensorFlow框架下开发得到的模型，则需要将目标模型101的模型文件输入模型转换器110，模型转换器110对目标模型101进行编译，得到客户设备140支持的模型文件，然后再将编译得到的模型文件部署到客户设备140上。通常来说，模型转换器110对目标模型101的转换处理，也可以称为编译。

为了编译成功，自定义算子开发者还需要向模型转换器110提供模型中的各层包括的算子的参数定义函数、参数解析函数、输出张量(shape)大小的推导函数、实现函数以及调用(forward)函数等内容。

又如，目标模型101是TensorFlow框架下开发得到的模型，且目标模型101中部分或全部层中的算子是开发者自定义的，即不属于TensorFlow框架的AI软件栈中的算子的情况下，开发者在将目标模型101的模型文件输入模型转换器110，以通过模型转换器110编译得到可以运行在客户设备上的模型文件时，还需要向模型转换器110提供自定义算子的参数定义函数、参数解析函数、输出大小(shape)的推导函数、实现函数以及调用(forward)函数等内容。

本申请实施例中的神经网络的结构可以如图2所示。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

为了便于理解本申请实施例提供的技术方案，首先对本申请实施例中的部分用语进行解释说明。

1、神经网络模型

神经网络模型是由大量处理单元(记为神经元)互相连接组成的信息处理系统，神经网络模型中的神经元中包含有相应的数学表达式。数据输入神经元之后，神经元运行其包含的数学表达式，对输入数据进行计算，生成输出数据。其中，每个神经元的输入数据为与其连接的上一个神经元的输出数据；每个神经元的输出数据为与其连接的下一个神经元的输入数据。

在神经网络模型中，输入数据之后，神经网络模型根据自身的学习训练，为输入数据选择相应的神经元，并根据这些神经对对输入数据进行计算，确定并输出最终的运算结果。同时，神经网络在数据运算过程中还可以不断学习进化，根据对运算结果的反馈不断优化自身的运算过程，神经网络模型运算训练次数越多，得到的结果反馈越多，计算的结果越准确。神经网络模型的神经元的数量通常是固定的，但是每个神经元中的数学表达式，或者神经元对应的权重值可以根据神经网络模型的不断训练而不断变化。

2、计算图(Graph)

计算图用于以直观的形式表达神经网络模型执行计算任务时的计算过程，使神经网络模型执行计算任务时的计算过程更加清晰明了。

在终端设备调用神经网络模型执行计算任务时，终端设备根据计算任务调用相应的神经网络模型，并将该神经网络转换为相应的计算图。在此之后，终端设备将该计算图进一步拆分为单个算子的形式，以芯片能够识别的下层语言形式下发给芯片，之后芯片运行各个算子，达到根据神经网络模型执行计算任务的目的。

一种示例，如图3所示，为本申请实施例提供的一种神经网络模型的计算图的结构。其中abc代表三个输入，节点1、节点2和节点3分别表征计算图的三个计算节点，节点之间的连接关系以带箭头的线段示出，其中，箭头的指向记为数据的传输方向。如图3所示的计算图的计算过程为：终端设备将3个输入数据：a＝4，b＝6，c＝3输入到神经网络模型的计算图中。首先，将数据b＝6和c＝3输入到计算节点1中，执行计算节点1中的计算过程，得到的输出数据为u＝18。其次，将数据a＝4和计算节点1中的输出数据u＝18，输入到计算节点2中，执行计算节点2中的计算过程，得到的输出数据为v＝22。最终，将计算节点2中的输出数据v＝22，输入到计算节点3中，得到最终的输出结果j＝66。

需要指出的是，图3仅为示例性说明，实际运用中的计算图可能更为复杂。

3、算子

算子用于表征计算图中，每个计算节点的计算过程。例如上述图3中，计算节点1中的数学表达式：u＝b×c，记为节点1中的算子。

4、使芯片和神经网络模型结合的软件栈

为了使芯片和神经网络模型更好的结合，以更好的发挥出芯片和神经网络模型的计算性能，提出了一种如图4所示的使芯片和神经网络模型结合的软件栈。

如图4所示，该软件栈包括以下四部分：用户程序层，计算框架层，算子层，芯片层。

其中，用户程序层为神经网络模型的上层语言表达，例如，使用python语言表达的神经网络模型。

计算框架层用于将上层语言表达的神经网络模型，转化为通用的或者特定的计算图的表达形式。

算子层用于拆分计算框架的计算图中的各个计算节点，并将这些计算节点转换为芯片能够识别的下层语言，并将转换后的计算节点下发给芯片。

芯片层用于运行下发的各个计算节点，达到使用该神经网络模型计算数据的效果。

以上是对本申请涉及到的部分内容以及概念所作的简单介绍。

为了解决现有技术中，神经网络模型的计算图拓扑复杂，计算复杂度较高，执行计算任务时，所需的计算时间比较长的问题，本申请实施例提供的一种神经网络模型优化方法，神经网络模型优化装置在将获取神经网络模型的第一计算图之后；根据预设规则，以及第一计算图，生成第二计算图；其中，针对同样的输入数据，第二计算图计算该输入数据的时间，少于第一计算图计算该输入数据的时间；在此之后，神经网络模型优化装置输出第二计算图。

相应的，在终端设备调用神经网络模型执行计算任务时，采用本申请实施例提供的神经网络模型优化方法对神经网络模型进行优化，可以提高终端设备的计算性能，节省终端设备的计算时间。

以下，对本申请提供的神经网络模型优化方法进行详细描述。如图5所示，本申请实施例提供的神经网络模型优化方法包括：

S501、神经网络模型优化装置获取神经网络模型的第一计算图。

其中，第一计算图为终端设备根据上述神经网络模型的拓扑结构，直接生成的计算图。第一计算图中的计算节点的个数与神经网络模型中的神经元的数量相同或相近。

需要指出的是，在当前的终端设备(例如手机)中，通常会为不同的应用预置不同的神经网络模型，在终端执行不同的应用的计算任务时，通过调用该应用对应的神经网络模型执行计算任务。

例如，终端设备预先为相机应用配置了进行图像处理的神经网络模型(记为第一神经网络模型)，终端设备预先为语音助手配置了语音识别神经网络模型(记为第二神经网络模型)。

在终端设备的相机应用被打开，并执行完拍摄动作之后。终端设备调用第一神经网络模型对拍摄的图像进行优化处理，生成拍摄后的图像。

在终端设备的语音助手应用被打开，并检测到语音助手应用的语音输入之后，终端设备调用第二神经网络模型，对用户输入的语音进行处理，确定用户的语音输入。终端设备根据用户的语音输入执行相应的操作。

需要说明的是，本申请实施例中所记载的神经网络模型优化装置，可以是终端设备，也可以是终端设备中的一个模块或单元，或者是集成在终端设备中的装置。

S502、神经网络模型优化装置根据预设规则，以及第一计算图，生成第二计算图。

其中，利用第二计算图计算第一输入数据的时间，少于利用第一计算图计算第一输入数据的时间。

一种可能的实现方式中，该预设规则用于对神经网络模型的计算图进行优化，以得到计算性能更好，执行计算任务所需时间更少的计算图。因此，针对同样的输入数据，第二计算图计算输入数据的时间，少于第一计算图计算输入数据的时间。

具体来说，神经网络模型优化装置分别采用第一计算图和第二计算图，计算相同的输入数据。神经网络模型优化装置根据第一计算图计算该输入数据的时间，以及第二计算图计算该输入数据的时间，确定第二计算图的计算输入数据的时间是否少于第一计算图计算输入数据的时间。

S503、神经网络模型优化装置输出第二计算图。

一种可能的实现方式中，神经网络模型优化装置在获取到神经网络模型优化装置输出的第二计算图之后，将第二计算图拆分为相应的多个算子，并将算子转换为芯片能够理解的下层表达，下发给芯片，以使得芯片根据下发的算子，运行该神经网络模型。

一种可能的实现方式中，结合上述图4所示出的软件栈，如图6所示，在本申请实施例中，可以将软件栈修改为5层，即在图4中示出的计算框架层和算子层之间，增加计算图优化层；该计算图优化层用于实现本申请实施例中所记载的神经网络模型的优化方法。

具体来说，终端设备根据如图6所示的软件栈执行计算任务时，可以通过如下步骤实现：

步骤1、终端设备接收到计算任务之后，调用相应的用户程序层，确定执行该计算任务的神经网络模型。

需要指出的是，终端设备中可以预置多种用于执行不同计算任务的神经网络模型；例如，用于进行图像处理的神经网络模型，用于进行语音识别的神经网络模型，用于进行数据处理的神经网络模型等。在终端接收到计算任务之后，可以根据该计算任务的类型，选择对应的神经网络模型来执行该计算任务。

一种示例，终端设备接收到的计算任务为图像处理计算任务，则终端设备确定使用用于进行图像处理的神经网络模型执行该计算任务。

再一种示例，终端设备接收到的计算任务为语音识别计算任务，则终端设备确定使用用于进行语音识别的神经网络模型执行该计算任务。

又一种示例，终端设备接收到的计算任务为数据处理计算任务，则终端设备确定使用用于进行数据处理的神经网络模型执行该计算任务。

步骤2、终端设备调用计算框架层，将神经网络模型转换为第一计算图。

步骤3、终端设备指示神经网络模型优化装置调用计算图优化层，将第一计算图优化为第二计算图。

具体来说，终端设备可以指示神经网络模型优化装置通过执行本申请实施例所记载的神经网络模型的优化方法，将第一计算图优化为第二计算图。

步骤4、终端设备调用算子层，拆分第二计算图中的每个计算节点；终端设备将每个计算节点转换为芯片能够识别的下层语言，下发至芯片层。

步骤5、终端设备指示芯片根据下发的计算节点，执行该计算任务。

又一种可能的实现方式中，结合上述图4所示出的软件栈，在本申请实施例中，可以仍旧保持该软件栈的4层结构，将计算图优化层复用在计算框架层中，以实现本申请实施例所记载的神经网络模型的优化方法。

在该情况下，终端调用神经网络模型执行计算任务的具体实现过程与上述步骤1-步骤5类似。区别之处在于，终端设备将步骤2和步骤3合并，在终端设备调用计算框架层时，依次实现步骤2和步骤3中所记载的内容。

另一种可能的实现方式中，结合上述图4所示出的软件栈，在本申请实施例中，可以仍旧保持该软件栈的4层结构，将计算图优化层复用在计算框架层中，以实现本申请实施例所记载的神经网络模型的优化方法。

在该情况下，终端调用神经网络模型执行计算任务的具体实现过程与上述步骤1-步骤5类似。区别之处在于，终端设备将步骤3和步骤4合并，在终端设备调用算子层时，依次实现步骤3和步骤4中所记载的内容。

一种可能的实现方式中，结合上述S502，本申请实施例所记载的预设规则包括以下至少一项：数学融合规则，数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则。以下分别对上述五种预设规则进行说明。

Ⅰ、数学融合规则

数学融合规则为：将多个第一计算节点，融合为一个第二计算节点；其中，第二计算节点对应的数学表达式为：对多个第一计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用多个第一计算节点计算第二输入数据的时间，大于利用第二计算节点计算第二输入数据的时间。

需要指出的是，利用多个第一计算节点计算第二输入数据的时间，大于利用第二计算节点计算第二输入数据的时间；指的是终端设备调用多个第一计算节点计算第二输入数据的时间之和，大于终端设备调用第二计算节点计算第二输入数据的时间。

一种可能的实现方式中，神经网络模型优化装置根据数学融合规则，将多个第一计算节点，融合为一个第二计算节点，具体可以实现为：

神经网络模型优化装置遍历第一计算图中的计算节点，在连续多个第一计算节点对应的数学表达式能够推导为一个数学表达式的情况下，神经网络模型装置将该多个第一计算节点融合为第二计算节点。其中，第二计算节点对应的数学表达式为根据多个第一计算节点对应的数学表达式推导出的一个数学表达式。

一种具体的实现方式中，神经网络模型优化装置中具有将多个数学表达式融合为一个数学表达式的模板。在神经网络模型优化装置确定多个第一节点中对应的数学表达式之后，将该多个数学表达式与神经网络模型优化装置中的数学融合模板进行匹配，在匹配到相应的数学融合模板之后，根据该数学融合模板，确定该多个数学表达式对应的融合后的数学表达式。

举例来说，如图7所示，第一计算图中包括计算节点1和计算节点2，其中，计算节点1为计算节点2的上联节点，数据依次经过计算节点1和计算节点2进行计算。

计算节点1对应的数学表达式为如下公式1所示：

a×x ₁+b 公式1

其中，a和b为计算节点1中的数学表达式的固定参数，a和b的值为固定值；x ₁为计算节点1的输入数据(即节点1的上联节点输出的数据)。

计算节点2对应的数学表达式为如下公式2所示：

c×x ₂+d 公式2

其中，c和d为计算节点2中的数学表达式的固定参数，c和d的值为固定值；x ₂为计算节点2的输入数据(即计算节点1的上联节点输出的数据)。

神经网络模型优化装置对上述公式1和公式2进行推导，得到如下公式3：

e×x ₃+f 公式3

其中，e＝a×c，f＝b×c+d，x ₃为计算节点1的输入数据(即节点1的上联节点输出的数据)，公式3中a和b的值为与公式1中a和b的值相同，公式3中c和d的值为与公式2中c和d的值相同。

神经网络模型优化装置将计算节点1和计算节点2融合为计算节点3，计算节点3对应的数学表达式为上述公式3。

这样，神经网络模型优化装置可以将计算节点1和计算节点2融合为计算节点3，从而提升神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需的计算时间。此外，神经网络模型优化装置还减少了神经网络模型计算图的节点数量，降低了计算图的复杂度。

Ⅱ、数学拆分规则

数学拆分规则为：将一个第三计算节点拆分为多个第四计算节点；其中，第三计算节点对应的数学表达式为：对多个第四计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用第三计算节点计算第三输入数据的时间，大于利用多个第四计算节点计算第三输入数据的时间。

在神经网络模型的计算图中，对于计算图中的某一个计算节点，可能会存在以下情况：该计算节点执行计算任务的时间，大于将该计算节点拆分为多个计算节点后由拆分后的多个计算节点依次执行计算任务所需的时间。

例如，当一个计算节点中的数学表达式过于复杂时，该数学表达式的计算复杂度可能会超过该计算节点的计算能力。这将导致计算节点的计算性能下降，由该节点执行计算任务时耗费较长的时间。

又例如，一个计算节点计算复杂数学表达式的能力较弱，而将该计算节点拆分为多个计算节点，有多个计算节点计算该复杂数学表达式的一部分时，多个计算节点的计算能力反而增强。

针对这种情况，神经网络模型优化装置可以通过数学拆分规则，将该一个计算节点，拆分为多个计算节点，以提升神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需的时间。

举例来说，如图8所示，计算节点4对应的数学表达式如下公式4所示：

g×x ₄+h ² 公式4

其中，g和h为计算节点4中的数学表达式的固定参数，g和h的值为固定值，x ₄为计算节点4的输入数据(即计算节点4的上联节点输出的数据)。

针对公式4，神经网络模型优化装置可以将公式4拆分为如下公式5和公式6两个计算公式：

g×x ₅ 公式5

其中，g的值与上述公式4中g的值相同，x ₅为计算节点4的输入数据(即计算节点4的上联节点输出的数据)。

x ₆+h ² 公式6

其中，h的值与上述公式4中h的值相同，x ₆为根据公式5进行运算后确定的输出数据(即计算节点5的输出数据，计算节点6的输入数据)。

神经网络模型优化装置确定计算节点根据公式4执行计算任务的时间，大于计算节点5根据公式5执行计算任务的时间与计算节点6根据公式6执行计算任务的时间。也即是说，针对同一个输入数据，计算节点4计算该输入数据的时间，大于计算节点5和计算节点6依次计算该输入数据的时间。

此时，神经网络模型优化装置将上述计算节点4拆分为计算节点5和计算节点6，计算节点5对应的数学表达式为公式5，计算节点6对应的数学表达式为公式6。

Ⅲ、指令融合规则

指令融合规则为：根据接收到的节点融合指令，将多个第五计算节点融合为一个第六计算节点；其中，节点融合指令用于指示将多个第五计算节点融合为一个第六计算节点；利用多个第五计算节点计算第四输入数据的时间，大于利用第六计算节点计算第四输入数据的时间。

其中，该指令融合规则中的融合指令，可以是工作人员通过编译器等下发的，也可以是与神经网络模型优化装置交互的其他装置下发的。

以下，以工作人员通过编译器向神经网络模型下发为例进行详细说明。

神经网络模型优化装置根据数学融合规则，数学拆分规则，以及硬件融合规则中的一种或多种规则，对第一计算图进行优化，得到第三计算图。此时工作人员可以对第三计算图进行人工审核，确定第三计算图中是否存在可以进行节点融合的节点。若工作人员确定第三计算图中存在可以进行节点融合的节点，则工作人员确定该节点的融合方式，并通过编译器下发节点融合指令。编译器将节点融合指令下发至神经网络模型优化装置。神经网络模型优化装置根据收到的指令对对应的节点进行优化。

需要指出的是，在工作人员通过编译器下发节点融合指令时，工作人员在编译器中输入该节点融合指令对应的上层语音编写的程序代码；编译器将该上层语音编写的程序代码编译为神经网络模型优化装置能够识别的下层语言，并下发至神经网络模型优化装置。

基于上述技术方案，神经网络模型优化装置采用指令融合规则对第一计算图进行融合之后，得到的计算图的计算节点数量更少，计算图的拓扑结构更加简单，同时计算图的计算能力更强，计算数据所需的时间更少。因此，神经网络模型优化装置采用指令融合规则对神经网络模型的计算图进行优化时，可以提升神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需的计算时间。

Ⅳ、指令拆分规则

指令拆分规则为：根据接收到的节点拆分指令，将一个第七计算节点拆分为多个第八计算节点；其中，节点拆分指令用于指示将一个第七计算节点拆分为多个第八计算节点；利用第七计算节点计算第五输入数据的时间，大于利用多个第八计算节点计算第五输入数据的时间。

需要说明的是，与上述指令融合规则相反，指令拆分规则用于指示将一个节点拆分为多个节点。

指令拆分规则的具体实现方式，与上述指令融合规则相似，只需将其中的节点融合相关内容替换为节点拆分内容即可，其具体实现可以参照上述对节点融合规则的描述，此处不再赘述。

Ⅴ、硬件融合规则

需要说明的是，硬件融合规则为：第九计算节点采用第一传输路径向第十计算节点传输数据；其中，第九计算节点采用第一传输路径向第十节点传输数据的时间小于第九计算节点采用第二传输路径向第十节点传输数据的时间；第二传输路径为第一计算图中第九计算节点向第十节点传输数据的传输路径。

以针对存储设备的硬件融合为例，对硬件融合规则进行详细说明：

在现有技术中，终端设备调用计算节点执行计算任务时，通常以“片外存储-片上计算-片外存储”的模式进行。

如图9a所示，终端设备在调用计算图中的两个相连的计算节点(计算节点7和计算节点8，其中计算节点7为计算节点8的上联节点)执行计算任务的流程为：

步骤Ⅰ、计算节点7从存储设备中读取第一数据(相当于计算节点7的输入数据)。

步骤Ⅱ、计算节点7计算第一数据，生成第二数据(相当于计算节点7的输出数据，或者计算节点8的输入数据)。

步骤Ⅲ、计算节点7将第二数据存储在存储设备中。

步骤Ⅳ、计算节点8从存储设备中读取第二数据。

步骤Ⅴ、计算节点8计算第二数据，生成第三数据。

步骤Ⅵ、计算节点8将第三数据存储在存储设备中。

基于上述过程可知，终端设备采用现有技术调用神经网络模型执行计算任务时，针对每个计算节点都需要进行两次读写过程。例如，计算节点7所执行的步骤Ⅰ和步骤Ⅲ；计算节点8所执行的步骤Ⅳ和步骤Ⅵ。

在计算图中的计算节点数量较多的情况下，终端设备需要进行大量的读写过程。受限于存储设备的读写性能，终端设备在调用神经网络模型执行计算任务时，需要花费大量的时间进行数据的读写。

针对上述情况，本申请实施例中，对计算图中的计算节点进行改进，使得计算图中的全部或者部分计算节点之间可以互相传输数据。这样，可以使得计算节点减少与存储设备的交互次数，从而提升神经网络模型的计算图的计算性能，降低神经网络模型的计算图执行计算任务所需的时间。

举例来说，计算节点7和计算节点8之间可以互相传输数据，终端设备在调用计算节点7和计算节点8执行计算任务的过程，如图9b所示：

步骤Ⅶ、计算节点7从存储设备中读取第一数据。

步骤Ⅷ、计算节点7计算第一数据，生成第二数据。

步骤Ⅸ、计算节点7向计算节点8发送第二数据。相应的，计算节点8接收来自计算节点7的第二数据。

步骤Ⅹ、计算节点8计算第二数据，生成第三数据。

步骤Ⅺ、计算节点8将第三数据存储在存储设备中。

基于上述过程可知，在神经网络模型优化装置根据硬件融合规则，对计算图进行优化后，减少了计算节点与硬件设备的交互次数。计算图中的各个计算节点之间可以以更加合理，快捷的传输路径传输数据。从而，达到提高神经网络模型计算图的计算性能，降低神经网络模型计算图执行计算任务所需时间的目的。

需要说明的是，在硬件融合规则中，还可以通过将原本的低速存储设备替换为高速存储设备，提升神经网络模型访问存储设备的带宽中的至少一种方式，实现对神经网络模型计算图的硬件融合。

需要指出的是，在本申请实施例中，神经网络模型优化装置分别采用优化前的算子和优化后的算子，计算相同的输入数据。神经网络模型优化装置根据优化前的算子计算该输入数据的时间，以及优化后的算子计算该输入数据的时间，确定优化后的算子计算输入数据的时间，是否少于优化前的算子计算输入数据的时间。

本申请上述实施例中的各个方案在不矛盾的前提下，均可以进行结合。

上述主要从各个网元之间交互的角度对本申请实施例的方案进行了介绍。可以理解的是，各个网元，例如，神经网络模型优化装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和软件模块中的至少一个。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对神经网络模型优化装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在一种可能的设计中，如图10所示，神经网络模型优化装置1000包括：北向接口1001、南向接口1002，以及以下一项或者多项：数学融合模块1003，数学拆分模块1004，硬件融合模块1005，指令融合模块1006，以及指令拆分模块1007。

其中，北向接口1001用于与上一层计算框架层对接。在计算框架根据神经网络模型生成对应的第一计算图之后，神经网络模型优化装置1000通过北向接口1001从计算框架中获取第一计算图。

南向接口1002用于与下一层的算子层对接。在神经网络模型优化装置1000对第一计算图进行优化，生成第二计算图之后，神经网络模型优化装置1000通过南向接口1002向算子层下发第二计算图，以使得算子层对第二计算图做拆分，将第二计算图的各个计算节点下发至芯片中。

数学融合模块1003，用于根据上述实施例中所记载的数学融合规则，对第一计算图进行优化。

数学拆分模块1004，用于根据上述实施例中所记载的数学拆分规则，对第一计算图进行优化。

硬件融合模块1005，用于根据上述实施例中所记载的硬件融合规则，对第一计算图进行优化。

指令融合模块1006，用于根据上述实施例中所记载的指令融合规则，对第一计算图进行优化。

指令拆分模块1007，用于根据上述实施例中所记载的指令拆分规则，对第一计算图进行优化。

需要指出的是，上述北向接口1001和南向接口1002可以集成在一个单元中实现。例如，将北向接口1001和南向接口1002集成在通信单元中实现。

上述数学融合模块1003，数学拆分模块1004，硬件融合模块1005，指令融合模块1006，以及指令拆分模块1007中的一项或者多项，也可以集成在一个单元中实现。例如，将数学融合模块1003，数学拆分模块1004，硬件融合模块1005，指令融合模块1006，以及指令拆分模块1007中的一项或者多项集成在处理单元中实现。

在采用集成的单元的情况下，图11示出了上述实施例中所涉及的神经网络模型优化装置(记为神经网络模型优化装置1100)的又一种可能的结构示意图，该神经网络模型优化装置1100包括处理单元1101和通信单元1102，还可以包括存储单元1103。图11所示的结构示意图可以用于示意上述实施例中所涉及的神经网络模型优化装置的结构。

当图11所示的结构示意图用于示意上述实施例中所涉及的神经网络模型优化装置的结构时，处理单元1101用于对网络设备的动作进行控制管理，例如，控制神经网络模型优化装置执行图5中的S501、S502、以及S503，和/或本申请实施例中所描述的其他过程中的神经网络模型优化装置执行的动作。处理单元1101可以通过通信单元1102与其他装置通信。存储单元1103用于存储神经网络模型优化装置的程序代码和数据。

当图11所示的结构示意图用于示意上述实施例中所涉及的神经网络模型优化装置的结构时，神经网络模型优化装置1100可以是神经网络模型优化装置，也可以是神经网络模型优化装置内的芯片。

其中，当神经网络模型优化装置1100为神经网络模型优化装置时，处理单元1101可以是处理器或控制器，通信单元1102可以是通信接口、收发器、收发机、收发电路、收发装置等。其中，通信接口是统称，可以包括一个或多个接口。存储单元1103可以是存储器。当神经网络模型优化装置1100为神经网络模型优化装置或神经网络模型优化装置内的芯片时，处理单元1101可以是处理器或控制器，通信单元1102可以是输入接口和/或输出接口、管脚或电路等。存储单元1103可以是该芯片内的存储单元(例如，寄存器、缓存等)，也可以是神经网络模型优化装置或神经网络模型优化装置内的位于该芯片外部的存储单元(例如，只读存储器(read-onlymemory，简称ROM)、随机存取存储器(random access memory，简称RAM)等)。

其中，通信单元也可以称为收发单元。神经网络模型优化装置1100中的具有收发功能的天线和控制电路可以视为神经网络模型优化装置1100的通信单元1102，具有处理功能的处理器可以视为神经网络模型优化装置1100的处理单元1101。可选的，通信单元1102中用于实现接收功能的器件可以视为通信单元，通信单元用于执行本申请实施例中的接收的步骤，通信单元可以为接收机、接收器、接收电路等。通信单元1102中用于实现发送功能的器件可以视为发送单元，发送单元用于执行本申请实施例中的发送的步骤，发送单元可以为发送机、发送器、发送电路等。

图11中的集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者神经网络模型优化装置等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。存储计算机软件产品的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

图11中的单元也可以称为模块，例如，处理单元可以称为处理模块。

本申请实施例还提供了一种神经网络模型优化装置(记为神经网络模型优化装置1200)的硬件结构示意图，参见图12或图13，该神经网络模型优化装置1200包括处理器1201，可选的，还包括与处理器1201连接的存储器1202。

在第一种可能的实现方式中，参见图12，神经网络模型优化装置1200还包括收发器1203。处理器1201、存储器1202和收发器1203通过总线相连接。收发器1203 用于与其他设备或通信网络通信。可选的，收发器1203可以包括发射机和接收机。收发器1203中用于实现接收功能的器件可以视为接收机，接收机用于执行本申请实施例中的接收的步骤。收发器1203中用于实现发送功能的器件可以视为发射机，发射机用于执行本申请实施例中的发送的步骤。

基于第一种可能的实现方式，图12所示的结构示意图可以用于示意上述实施例中所涉及的神经网络模型优化装置或神经网络模型优化装置的结构。

当图12所示的结构示意图用于示意上述实施例中所涉及的神经网络模型优化装置的结构时，处理器1201用于对神经网络模型优化装置的动作进行控制管理，例如，处理器1201用于支持神经网络模型优化装置执行图5中的S501、S502、以及S503，和/或本申请实施例中所描述的其他过程中的神经网络模型优化装置执行的动作。处理器1201可以通过收发器1203与其他网络实体通信。存储器1202用于存储神经网络模型优化装置的程序代码和数据。

在第二种可能的实现方式中，处理器1201包括逻辑电路以及输入接口和输出接口中的至少一个。其中，输出接口用于执行相应方法中的发送的动作，输入接口用于执行相应方法中的接收的动作。

基于第二种可能的实现方式，参见图13，图13所示的结构示意图可以用于示意上述实施例中所涉及的神经网络模型优化装置的结构。

当图13所示的结构示意图用于示意上述实施例中所涉及的神经网络模型优化装置的结构时，处理器1201用于对神经网络模型优化装置的动作进行控制管理，例如，处理器1201用于支持神经网络模型优化装置执行图5中的S501、S502、以及S503，和/或本申请实施例中所描述的其他过程中的神经网络模型优化装置执行的动作。处理器1201可以通过输入接口和输出接口中的至少一个与其他网络实体通信。存储器1202用于存储神经网络模型优化装置的程序代码和数据。

其中，图12和图13也可以示意神经网络模型优化装置中的系统芯片。该情况下，上述神经网络模型优化装置执行的动作可以由该系统芯片实现，具体所执行的动作可参见上文，在此不再赘述。图12和图13也可以示意神经网络模型优化装置中的系统芯片。该情况下，上述神经网络模型优化装置执行的动作可以由该系统芯片实现，具体所执行的动作可参见上文，在此不再赘述。

在实现过程中，本实施例提供的方法中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请中的处理器可以包括但不限于以下至少一种：中央处理单元(central processing unit，CPU)、微处理器、数字信号处理器(DSP)、微控制器(microcontroller unit，MCU)、或人工智能处理器等各类运行软件的计算设备，每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。该处理器可以是个单独的半导体芯片，也可以跟其他电路一起集成为一个半导体芯片，例如，可以跟其他电路(如编解码电路、硬件加速电路或各种总线和接口电路)构成一个SoC(片上系统)，或者也可以作为一个ASIC的内置处理器集成在所述ASIC当中，该集成了处理器的ASIC可以单独封装或者也可以跟其他电路封装在一起。该处理器除了包括用于执行软件指令以进行运算或处理的核外，还可进一步包括必要的硬件加速器，如现场可编程门阵列(field programmable gate array，FPGA)、PLD(可编程逻辑器件)、或者实现专用逻辑运算的逻辑电路。

本申请实施例中的存储器，可以包括如下至少一种类型：只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically erasable programmabler-only memory，EEPROM)。在某些场景下，存储器还可以是只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述任一方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一方法。

本申请实施例还提供了一种芯片，该芯片包括处理器和接口电路，该接口电路和该处理器耦合，该处理器用于运行计算机程序或指令，以实现上述方法，该接口电路用于与该芯片之外的其它模块进行通信。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，简称SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种神经网络模型优化方法，其特征在于，包括：

获取神经网络模型的第一计算图；

根据预设规则，以及所述第一计算图，生成第二计算图；其中，利用所述第二计算图计算第一输入数据的时间，少于利用所述第一计算图计算所述第一输入数据的时间；所述预设规则包括以下至少一项：数学融合规则，数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则；

输出所述第二计算图。
根据权利要求1所述的方法，其特征在于，所述数学融合规则为：将多个第一计算节点，融合为一个第二计算节点；其中，所述第二计算节点对应的数学表达式为：对所述多个第一计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用所述多个第一计算节点计算第二输入数据的时间，大于利用所述第二计算节点计算所述第二输入数据的时间。
根据权利要求2所述的方法，其特征在于，所述数学拆分规则为：将一个第三计算节点拆分为多个第四计算节点；其中，所述第三计算节点对应的数学表达式为：对所述多个第四计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用所述第三计算节点计算第三输入数据的时间，大于利用所述多个第四计算节点计算所述第三输入数据的时间。
根据权利要求2或3所述的方法，其特征在于，所述指令融合规则为：根据接收到的节点融合指令，将多个第五计算节点融合为一个第六计算节点；其中，所述节点融合指令用于指示将所述多个第五计算节点融合为所述一个第六计算节点；利用所述多个第五计算节点计算第四输入数据的时间，大于利用所述第六计算节点计算所述第四输入数据的时间。
根据权利要求2-4任一项所述的方法，其特征在于，所述指令拆分规则用于：根据接收到的节点拆分指令，将一个第七计算节点拆分为多个第八计算节点；其中，所述节点拆分指令用于指示将所述一个第七计算节点拆分为所述多个第八计算节点；利用所述第七计算节点计算第五输入数据的时间，大于利用所述多个第八计算节点计算所述第五输入数据的时间。
根据权利要求2-5任一项所述的方法，其特征在于，所述硬件融合规则为：第九计算节点采用第一传输路径向第十计算节点传输数据；其中，所述第九计算节点采用第一传输路径向第十节点传输数据的时间小于所述第九计算节点采用第二传输路径向第十节点传输数据的时间；所述第二传输路径为所述第一计算图中第九计算节点向第十节点传输数据的传输路径。
一种神经网络模型优化装置，其特征在于，包括：通信单元和处理单元；

所述通信单元，用于获取神经网络模型的第一计算图；

所述处理单元，用于根据预设规则，以及所述第一计算图，生成第二计算图；所述第二计算图计算第一输入数据的时间，少于所述第一计算图计算第一输入数据的时间；所述预设规则包括以下至少一项：数学融合规则，数学拆分规则，指令融合规则，指令拆分规则，以及硬件融合规则；

所述通信单元，还用于输出所述第二计算图。
根据权利要求7所述的装置，其特征在于，所述数学融合规则为：将多个第一计算节点，融合为一个第二计算节点；其中，所述第二计算节点对应的数学表达式为：对所述多个第一计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用所述多个第一计算节点计算第二输入数据的时间，大于所述第二计算节点计算第二输入数据的时间。
根据权利要求8所述的装置，其特征在于，所述数学拆分规则为：将一个第三计算节点拆分为多个第四计算节点；其中，所述第三计算节点对应的数学表达式为：对所述多个第四计算节点对应的数学表达式进行数学推导后所确定的数学表达式；利用所述第三计算节点计算第三输入数据的时间，大于所述多个第四计算节点计算第三输入数据的时间。
根据权利要求8或9所述的装置，其特征在于，所述指令融合规则为：根据接收到的节点融合指令，将多个第五计算节点融合为一个第六计算节点；其中，所述节点融合指令，用于指示将所述多个第五计算节点融合为所述一个第六计算节点；利用所述多个第五计算节点计算第四输入数据的时间，大于所述第六计算节点计算第四输入数据的时间。
根据权利要求8-10任一项所述的装置，其特征在于，所述指令拆分规则用于：根据接收到的节点拆分指令，将一个第七计算节点拆分为多个第八计算节点；其中，所述节点拆分指令，用于指示将所述一个第七计算节点拆分为所述多个第八计算节点；利用所述第七计算节点计算第五输入数据的时间，大于所述多个第八计算节点计算第五输入数据的时间。
根据权利要求8-11任一项所述的装置，其特征在于，所述硬件融合规则为：第九计算节点采用第一传输路径向第十计算节点传输数据；其中，所述第九计算节点采用第一传输路径向第十节点传输数据的时间小于所述第九计算节点采用第二传输路径向第十节点传输数据的时间；所述第二传输路径为所述第一计算图中第九计算节点向第十节点传输数据的传输路径。
一种神经网络模型优化装置，其特征在于，所述装置包括处理器和存储介质，所述存储介质包括指令，所述指令被所述处理器运行时，使得所述装置执行如权利要求1至6任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1至6任一项所述的方法。