WO2020107264A1

WO2020107264A1 - 神经网络架构搜索的方法与装置

Info

Publication number: WO2020107264A1
Application number: PCT/CN2018/117957
Authority: WO
Inventors: 蒋阳; 赵丛; 张李亮
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-06-04
Also published as: CN111406263A

Abstract

提供一种神经网络架构搜索的方法与装置，该方法包括：获取待进行网络架构搜索的神经网络模型；确定神经网络模型的搜索空间，搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作；为搜索空间中的每个操作层上的多种操作配置结构参数；利用基于梯度信息的优化算法，对神经网络模型进行网络架构搜索，获得优化后的结构参数，其中，网络架构搜索所使用的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。可以在计算资源有限的场景下，有效提高神经网络模型的性能。

Description

神经网络架构搜索的方法与装置

版权申明

技术领域

本申请涉及机器学习领域，并且更为具体地，涉及一种神经网络架构搜索的方法与装置。

背景技术

随着技术发展，神经网络模型被设计的越来越复杂，需要人工考虑的因素越来越多，人工设计神经网络模型变得越来越困难，需要专家级别的算法工程师经过大量的调试才有可能得到较好性能的模型。利用算法自动化设计神经网络模型成为一个重要的研究课题。

机器学习算法在检测/跟踪等任务中占据核心的位置，通常，移动端是这类任务的重要应用场景之一，例如手机、无人机或自动驾驶汽车等。由于场景限制，移动端的计算资源有限，而机器学习算法，尤其深度学习算法往往需要大量的计算资源才能保证算法性能。

如何在计算资源有限的条件下，最大限度地提升神经网络模型的性能，是当前网络架构搜索技术需要克服的问题。目前已有的网络架构搜索方法，均无法较好地兼顾神经网络模型的计算量与模型性能。

发明内容

本申请提供一种神经网络架构搜索的方法与装置，可以在计算资源有限的场景下，有效提高神经网络模型的性能，即可以较好地兼顾神经网络模型的计算量与模型性能。

第一方面，提供一种神经网络架构搜索的方法，该方法包括：获取待进行网络架构搜索的神经网络模型；确定神经网络模型的搜索空间，搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作；为搜索空间中定义的每个操作层上的多种操作配置结构参数；利用基于梯度信息的优化算法，对神经网络模型进行网络架构搜索，获得优化后的结构参数，其中，网络架构搜索所使用的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

第二方面，提供一种神经网络架构搜索的方法，该方法包括：获取待进行架构搜索的神经网络；对神经网络进行可差分网络架构搜索，获得神经网络的结构参数，其中，可差分网络架构搜索使用的优化目标函数中包括第一正则项，第一正则项表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

第三方面，提供一种网络架构搜索的装置，该装置包括如下单元。

获取单元，用于获取待进行网络架构搜索的神经网络模型。

确定单元，用于确定神经网络模型的搜索空间，搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作。

配置单元，用于为搜索空间中定义的每个操作层上的多种操作配置结构参数。

优化单元，用于利用基于梯度信息的优化算法，对神经网络模型进行网络架构搜索，获得优化后的结构参数，其中，网络架构搜索所使用的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

第四方面，提供一种网络架构搜索的装置，该装置包括如下单元。

获取单元，用于获取待进行架构搜索的神经网络。

优化单元，用于对神经网络进行可差分网络架构搜索，获得神经网络的结构参数，其中，可差分网络架构搜索使用的优化目标函数中包括第一正则项，第一正则项表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

第五方面，提供一种神经网络处理装置，该神经网络处理装置包括存储器和处理器，存储器用于存储指令，处理器用于执行所述存储器存储的指令，并且对存储器中存储的指令的执行使得处理器执行第一方面或第二方面提供的方法。

第六方面，提供一种芯片，该芯片包括处理模块与通信接口，处理模块用于控制通信接口与外部进行通信，处理模块还用于实现第一方面或第二方面提供的方法。

第七方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机执行时使得所述计算机实现第一方面或第二方面提供的方法。

第八方面，提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机实现第一方面或第二方面提供的方法。

综上所述，本申请通过利用梯度信息优化网络架构搜索过程，可以提高神经网络模型的性能，通过在目标优化函数中包括神经网络模型的计算量与计算设备的计算资源之间的差异，可以有效约束神经网络模型的计算量，从而可以实现，在计算资源有限的场景下，有效提高神经网络模型的性能。

附图说明

图1是神经网络架构搜索的场景示意图。

图2是本申请实施例提供的神经网络架构搜索的方法的示意性流程图。

图3、图4和图5是神经网络架构搜索的示意图。

图6是本申请实施例提供的神经网络架构搜索的装置的示意性框图。

图7是本申请另一实施例提供的神经网络架构搜索的装置的示意性框图。

图8是本申请实施例提供的神经网络处理装置的示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

为了便于理解本申请提供的方案，下文首先介绍神经网络架构搜索的概念。

网络架构搜索(NAS)是一种利用算法自动化设计神经网络模型的技术。顾名思义，网络架构搜索就是要搜索出神经网络模型的架构。

作为示例，待进行架构搜索的神经网络模型如图1所示，已知该神经网络模型包括4个节点(node)(如图1中所示的节点0、1、2与3)，每两个节点之间的操作(operation)是未知的(如图1中问号“？”所指示)。在图1的例子中，网络架构搜索要解决的问题就是确定节点0、1、2与3之间的操作。节点0、1、2与3之间的操作的不同组合对应不同的网络架构。

本文中提及的节点，即神经网络模型中的节点，可以理解为神经网络模型中的特征层。例如，在图1中，神经网络模型包括一个输入特征层，两个中间特征层，一个输出特征层。其中，节点0表示输入特征层，节点1和节点2表示中间特征层，节点3表示输出特征层。应理解，在本例中，节点0上包括输入特征层上的特征数据(特征向量或特征矩阵，如下类似)，节点1上包括第一个中间特征层上的特征数据，节点2上包括第二个中间特征层上的特征数据，节点3上包括输出特征层上的特征数据。

两个节点之间的操作指的是，其中一个节点上的特征数据变换为另一个节点上的特征数据所需的操作。在图1的示例中，节点0与节点1之间的操作指的是，可以实现输入特征数据为节点0上的特征数据、输出特征数据为节点1上的特征数据的操作；节点1与节点3之间的操作指的是，可以实现输入特征数据为节点1上的特征数据、输出特征数据为节点3上的特征数据的操作。本文提及的操作可以为卷积操作、池化操作、或全连接操作等其他神经网络操作。

网络架构搜索要解决的问题就是，确定如图1所示的各个节点之间的操作。

可以认为两个节点之间的操作构成这两个节点之间的操作层。例如，在图1中，节点0和节点1之间具有一个操作层，节点0和节点2之间具有一个操作层，节点0与节点3之间具有一个操作层，节点1和节点2之间具有一个操作层，节点1和节点3之间具有一个操作层，节点2与节点3之间具有一个操作层。即图1所示神经网络模型具有6个操作层。

通常，两个节点之间的操作层上具有多个可供搜索的操作，即具有多个候选操作。例如，两个节点之间的操作层具有卷积操作、池化操作和全连接操作。网络架构搜索的目的就是在每个操作层上确定一个操作。

目前，较为常用的网络架构搜索方法有随机搜索、进化算法、强化学习、贝叶斯优化和可差分网络架构搜索(Differentiable Architecture Search，DARTS)。网络架构搜索方法可以得到比人工设计网络性能更好、更新颖的网络架构。

前文已述，当前技术中，移动端已经成为应用神经网络模型的重要应用场景。由于场景限制，移动端上的计算资源有限，所以，要想在移动端上应用神经网络模型，需要限制神经网络模型的计算量。

当前已有的几种网络架构搜索方法，均无法较好地兼顾神经网络模型的计算量与模型性能。

针对此，本申请提出一种神经网络架构搜索方法与装置，可以较好地兼顾神经网络模型的计算量与模型性能，换言之，可以在有限的计算资源条件下，充分利用计算资源，且可以最大程度提高神经网络模型的性能。

图2为本申请实施例提供的神经网络架构搜索的方法200的示意性流程图。该方法200包括如下步骤。

210，获取待进行网络架构搜索的神经网络模型。

在该神经网络模型中，节点(即特征层)已知，节点之间的操作未知。

例如，该神经网络模型如图1所示。

220，确定神经网络模型的搜索空间，搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作。

以待进行网络架构搜索的神经网络模型如图1所示为例，步骤220的示例如图3所示。在图3中，为每个操作层定义了3个操作，如图3中所示的3种不同虚线表示操作1、操作2和操作3。例如，3个操作是卷积操作、池化操作和全连接。在图3中，对于一个操作层，网络架构搜索的目的就是从3个操作中选择一个操作作为该操作层的操作。

应理解，搜索空间定义了网络架构搜索的范围。

230，为搜索空间中定义的每个操作层上的多种操作配置结构参数。

针对每个操作层，为其上的每个操作配置一个结构参数。

可选地，针对每个操作层，为其上的各个操作配置取值相同的结构参数。

可选地，针对每个操作层，为其上的各个操作配置的结构参数可以不完全相同。

步骤230执行的动作，可以看作是将网络架构量化为一组结构参数。例如，以步骤210中的神经网络模型如图1所示，步骤220的动作如图2所示为例，在步骤230中，可以认为是将该神经网络模型的网络架构量化为6个3维的结构参数，或者，可以认为是将该神经网络模型的网络架构量化为一个6行3列的结构参数矩阵。

240，利用基于梯度信息的优化算法，对神经网络模型进行网络架构搜索，获得优化后的结构参数，其中，网络架构搜索所使用的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

目标优化函数中至少包括两部分，其中一部分是神经网络模型的损失函数，另一部分是采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。采用优化过程中每次迭代的结构参数的神经网络模型的计算量，指的是，在结构参数的优化过程中，每次迭代的结构参数所对应的神经网络模型的计算量。

应理解，由于目标优化函数中包括神经网络模型的损失函数，因此，优化目的之一是提高神经网络模型的性能。由于目标优化函数中包括采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异，因此，另一个优化目的是减小采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异，即将神经网络模型的计算量限制在计算设备的计算资源范围内。

本文利用基于梯度信息的优化算法，对目标优化函数进行优化。应理解，利用梯度信息优化网络架构搜索过程，具有高效、且不易于收敛至局部最优解的优点。

基于梯度信息的优化算法为现有技术，本文对此不做详述。在本申请提供的方案中，可以采用任意可行的基于梯度信息的优化方法作为网络架构搜索过程的优化方法。

此外，由于目标优化函数中包括采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异，所以可以有效保证优化得到的神经网络模型的计算量在计算设备的计算资源范围内。

因此，在本申请提供的方案中，通过利用梯度信息优化网络架构搜索过程，可以提高神经网络模型的性能，通过在目标优化函数中包括神经网络模型的计算量与计算设备的计算资源之间的差异，可以有效约束神经网络模型的计算量，从而可以实现，在计算资源有限的场景下，有效提高神经网络模型的性能。

例如，步骤240的优化结果如图4所示，每个操作层上的具有一个取值最大的结构参数。在图4中，在每一个操作层上，最粗的虚线表示的结构参数为取值最大的结构参数。

在通过步骤240获得优化结果之后，可以将每一个操作层上取值最大的结构参数所对应的操作作为所选择的操作，舍弃其余操作。

例如，在图4的基础上，在每一个操作层上，保留取值最大的结构参数所对应的操作，删除其余操作，结果如图5所示。至此，通过网络架构搜索，获得最终的神经网络模型，例如，如图5所示的神经网络模型。

可选地，在结构参数的优化过程中，每次迭代的每个操作层上的结构参数被归一化。

采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异，可以看作为目标优化函数的正则项。

为了描述的简洁，下文有些地方会将“采用优化过程中每次迭代的结构参数的神经网络模型的计算量”简单记为“神经网络模型的计算量”。

应理解，在网络架构搜索过程中，确定的神经网络模型的计算量与结构参数有关。在优化过程中，不同次迭代获得的结构参数对应不同的计算量。

下文将描述在网络架构搜索过程中，如何确定神经网络模型的计算量。

待进行网络架构搜索的神经网络模型中的节点之间的操作层上的操作可以是提前设计好的，因此，可以很容易计算出每一个操作的计算量。

采用优化过程中每次迭代的结构参数的神经网络模型的计算量，可以根据这个神经网络模型中每个操作层的计算量获得。

可选地，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据神经网络模型中所有操作层的计算量累加得到，其中，每个操作层的计算量根据每个操作层上的结构参数以及每个操作层上各个操作的计算量获得。

例如，根据如下公式，计算神经网络模型的计算量FLOPS：

其中，(i,j)中的i,j分别表示神经网络模型中同一个操作层的输入节点和输出节点，神经网络模型中节点的总数量为(M+1),FLOPS ^(i,j)表示输入节点i与输出节点j之间的操作层上的计算量，Ο表示输入节点i与输出节点j之间的操作层上的候选操作集合，

表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的结构参数，

表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的计算量。

需要说明的是，公式(1)仅为示例而非限定。实际应用中，可以根据实际需要定义神经网络模型的计算量的获取方式。例如，神经网络模型的计算量可以根据该神经网络模型中部分操作层的计算量累加得到。

获取使用神经网络模型的计算设备的计算资源的方法可以多种。

作为一种情况，已知将要应用神经网络模型的计算设备，则可以通过相同评估手段，估计该计算设备的计算资源量。将该计算设备的计算资源量作为本申请实施例中的“用神经网络模型的计算设备的计算资源”。

作为另一种情况，将要应用神经网络模型的计算设备还未知，这时，可以根据经验或者具体需求，设置一个用于约束神经网络模型的计算量的阈值，将该阈值作为本申请实施例中的“用神经网络模型的计算设备的计算资源”。

还可以将表述“使用神经网络模型的计算设备的计算资源”替换为“神经网络模型的计算量阈值”。

如前文描述，本申请实施例中的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

例如，作为第一种实现方式，目标优化函数为如下公式所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值，L _val(w ^*(α),α)由α与w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数，λ ₁(M-FLOPS)表示神经网络模型的计算量与计算资源的差异。FLOPS可以通过公式(1)计算得到，也可以通过其它可行方式获得。

λ ₁(M-FLOPS)可以看作是目标优化函数中的正则项。

通过在目标优化函数中包括神经网络模型的计算量与计算设备的计算资源之间的差异，可以有效约束神经网络模型的计算量。

可选地，在一些实施例中，目标优化函数中除了包括神经网络模型的损失函数，以及神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异之外，还包括结构参数的1范数。

需要说明的是，结构参数的1范数可以使得每个操作层上的结构参数的取值尽量稀疏。

例如，作为第二种实现方式，目标优化函数为如下公式所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值，L _val(w ^*(α),α)由α与w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数，λ ₁(M-FLOPS)表示神经网络模型的计算量与计算资源的差异。FLOPS可以通过公式(1)计算得到，也可以通过其它可行方式获得。‖α‖ ₁表示α的1范数。‖α‖ ₁可以使得每个操作层上的结构参数的取值尽量稀疏。

换言之，式(3)中的‖α‖ ₁可以使每个操作层的结构参数非0即1。

通过上文结合图1至图5的描述可知，完成网络架构搜索后，针对每个操作层，会将该操作层上取值最大的结构参数所对应的操作作为该操作层的操作，而将该操作层上的其余操作舍弃。换言之，实际投入使用的神经网络模型中的每个操作层上只保留一个操作，那么，该神经网络模型的计算量等于所有操作层上的操作的计算量之和。即只要保证该神经网络模型中所有操作层上的操作的计算量之和小于计算设备的计算资源即可。

但是，从上文结合公式(1)的描述可知，在网络架构搜索过程中确定的神经网络模型的计算量，与实际投入使用的神经网络模型的计算量之间有一些出入。例如，在完成网络架构搜索时，某一个操作层(记为操作层X)上的三个结构参数的取值为0.1、0.2与0.7，按照上文公式(1)，操作层X的计算量等于0.1×flops1+0.2×flops2+0.7×flops3，其中，flops1、flops1与flops1分别表示操作层X上的三个候选操作的计算量。但在完成网络架构搜索之后，在操作层X上，只会选用取值为0.7的结构参数所对应的操作，即，在投入实际使用的神经网络模型中，操作层X的计算量应该等于0.7×flops3，而非0.1×flops1+0.2×flops2+0.7×flops3。

而本申请实施例通过在目标优化函数中加入结构参数的1范数，且结构参数的1范数可以使得每个操作层上的结构参数的取值尽量稀疏，从而可以在一定程度上，减小在网络架构搜索过程中确定的神经网络模型的计算量，与实际投入使用的神经网络模型的计算量之间的差距。

因此，本申请实施例，通过在目标优化函数中加入结构参数的1范数，可以使得每一个操作层的多个结构参数的取值尽量稀疏，从而使得在优化过程中使用的神经网络模型的计算量较为接近实际应用中神经网络模型的计算量，不仅可以在一定计算量限制条件下，提高申请网络模型的性能，还可以进一步提高对计算资源的利用率。

可选地，在一些实施例中，目标优化函数中除了包括神经网络模型的损失函数，以及神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异之外，还包括结构参数的0范数。

需要说明的是，结构参数的0范数可以使得每个操作层上的结构参数中只有一个结构参数的取值为1，其余为0。

例如，作为第三种实现方式，目标优化函数为如下公式所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值，L _val(w ^*(α),α)由α与w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数，λ ₁(M-FLOPS)表示神经网络模型的计算量与计算资源的差异。FLOPS可以通过公式(1)计算得到，也可以通过其它可行方式获得。b是一个辅助变量，当α<λ ₂时，b等于0，当α≥λ ₂时，b等于α。‖b‖ ₀表示b的0范数，λ ₂为常数。

‖b‖ ₀可以使得每一个操作层上的结构参数中只有一个取值为1，其余取值均为0。还应理解，本申请实施例通过在目标优化函数中加入结构参数的0范数，且结构参数的0范数可以使得每一个操作层上的结构参数中只有一个取值为1，其余取值均为0，从而可以更进一步地，减小在网络架构搜索过程中确定的神经网络模型的计算量，与实际投入使用的神经网络模型的计算量之间的差距。

因此，本申请实施例，通过在目标优化函数中加入结构参数的0范数，可以使得每一个操作层上的结构参数中只有一个取值为1，其余取值均为0，从而使得在优化过程中使用的神经网络模型的计算量最大程度地接近实际应用中神经网络模型的计算量，不仅可以在一定计算量限制条件下，提高申请网络模型的性能，还可以有效提高对计算资源的利用率。

作为一种实现方式，本申请提供的方案可以通过在现有的可差分网络架构搜索(DARTS)方法的基础上实现。

可选地，本申请实施例还提供一种神经网络架构搜索的方法，该方法包括如下步骤。

第一步，获取待进行架构搜索的神经网络。

第二步，对所述神经网络进行可差分网络架构搜索，获得所述神经网络的结构参数，其中，所述可差分网络架构搜索使用的优化目标函数中包括第一正则项，所述第一正则项表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

例如，优化目标函数如下所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值。L _train(w,α)表示训练集上的损失值。L _train(w,α)与L _val(w ^*(α),α)均由结构参数α与网络权重w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数。s.t.是subject to的缩写，表示需要满足s.t.后面的条件，即公式(5)中的第一个公式需要在满足公式(5)的第二个公式的情况下计算。

基于公式(5)定义的优化问题的优化目标是找到在满足w ^*(α)＝argmin _wL _train(w,α)的前提下，找到使得L _val(w ^*(α),α)+λ ₁|M-FLOPS|最小的结构参数。

应理解，在第二步中，可以采用DARTS中使用的基于梯度信息的优化算法，基于目标优化函数进行优化，从而获得优化后的结构参数。

例如，基于公式(5)的优化流程如下：

步骤1)固定w，优化α；

步骤2)固定α，优化w；

重复步骤1)和步骤2)，直至收敛。

因此，本申请实施例通过提出一种带有约束的可差分网络架构搜索方法，从而可以实现在计算资源有限的场景下自动化设计高性能的神经网络模型。

可选地，在本实施例中，目标优化函数中还包括结构参数的1范数。

例如，优化目标函数如下所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值。L _train(w,α)表示训练集上的损失值。L _train(w,α)与L _val(w ^*(α),α)均由结构参数α与网络权重w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数。‖α‖ ₁表示α的1范数，‖α‖ ₁使得神经网络模型的每一个操作层上的结构参数的取值较为稀疏。

基于公式(6)定义的优化问题的优化目标是找到在满足w ^*(α)＝argmin _wL _train(w,α)的前提下，找到使得L _val(w ^*(α),α)+λ ₁(M-FLOPS)+‖α‖ ₁最小的结构参数。

例如，基于公式(6)的优化流程如下：

步骤1)固定w，优化α；

步骤2)固定α，优化w；

重复步骤1)和步骤2)，直至收敛。

本申请实施例，通过在目标优化函数中加入结构参数的1范数，可以使得每一个操作层的多个结构参数的取值尽量稀疏，从而使得在优化过程中使用的神经网络模型的计算量较为接近实际应用中神经网络模型的计算量，不仅可以在一定计算量限制条件下，提高申请网络模型的性能，还可以进一步提高对计算资源的利用率。

可选地，在本实施例中，目标优化函数中还包括结构参数的0范数。

例如，优化目标函数如下所示：

其中，α表示结构参数。w表示网络权重。L _val(w ^*(α),α)表示验证集上的损失值。L _train(w,α)表示训练集上的损失值。L _train(w,α)与L _val(w ^*(α),α)均由结构参数α与网络权重w决定。M表示计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数。b是一个辅助变量，相当于模板，当α<λ ₂时，b等于0，当α≥λ ₂时，b等于α。‖b‖ ₀表示b的0范数，λ ₂为常数。应理解，‖b‖ ₀也可以看作是α的0范数。

‖b‖ ₀可以使得每一个操作层上的结构参数中只有一个取值为1，其余取值均为0。例如，合适的λ ₂可以实现每一个操作层上的结构参数α中，只有一个取值为1，其余取值均为0。

基于公式(7)定义的优化问题的优化目标是找到在满足w ^*(α)＝argmin _wL _train(w,α)的前提下，找到使得L _val(w ^*(α),α)+λ ₁(M-FLOPS)+‖b‖ ₀+λ ₂∑(b-α) ²最小的结构参数。

例如，基于公式(7)的优化流程如下：

步骤1)给定α，由如下式子得到b；

步骤2)得到b的值后，固定w，优化α；

步骤3)固定α，优化w；

重复步骤1)至步骤2)，直至收敛。

本申请实施例，通过在目标优化函数中加入结构参数的0范数，可以使得每一个操作层上的结构参数中只有一个取值为1，其余取值均为0，从而使得在优化过程中使用的神经网络模型的计算量最大程度地接近实际应用中神经网络模型的计算量，不仅可以在一定计算量限制条件下，提高申请网络模型的性能，还可以有效提高对计算资源的利用率。

本申请实施例提出一种带有约束的可差分网络架构搜索方法，一方面，由于可差分网络架构搜索方法使用的是基于梯度信息的优化算法，因此，可以提高神经网络模型的性能，另一方面，通过在可差分网络架构搜索方法使用的目标优化函数中纳入计算量约束，可以有效约束神经网络模型的计算量，从而可以实现，在计算资源有限的场景下，有效提高神经网络模型的性能。

应理解，图1、图3、图4和图5仅为示例而非限定。还应理解，本文中提及的公式(1)至公式(7)也仅表示一种可能的实现，实际应用中可以进行相应的变形，例如，例如公式(2)至公式(7)中系数的设置可以有多种变形。本领域技术人员在本文提供的公式的基础上合乎逻辑推断出的变形方式，也落入本申请保护范围内。

应理解，本申请提出的网络架构搜索方案可以应用于带有计算量约束的网络架构优化的问题。

上文结合图1至图5，详细描述了本申请的方法实施例，下面结合图6、图7和图8，详细描述本发明的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

如图6所示，本申请实施例提供一种神经网络架构搜索的装置600，该装置600包括如下单元。

获取单元610，用于获取待进行网络架构搜索的神经网络模型。

确定单元620，用于确定神经网络模型的搜索空间，搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作。

配置单元630，用于为搜索空间中定义的每个操作层上的多种操作配置结构参数。

优化单元640，用于利用基于梯度信息的优化算法，对神经网络模型进行网络架构搜索，获得优化后的结构参数，其中，网络架构搜索所使用的目标优化函数包括神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

例如，目标优化函数可以如前文描述的公式(2)或公式(5)所示。

可选地，作为一个实施例，目标优化函数还包括结构参数的1范数。

例如，目标优化函数可以如前文描述的公式(3)或公式(6)所示。

可选地，作为一个实施例，目标优化函数还包括结构参数的0范数。

例如，目标优化函数可以如前文描述的公式(4)或公式(7)所示。

可选地，在上述一些或全部实施例中，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据神经网络模型中每个操作层的计算量得到。

例如，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据神经网络模型中所有操作层的计算量累加得到，其中，每个操作层的计算量根据每个操作层上的结构参数以及每个操作层上各个操作的计算量获得。

例如，采用优化过程中每次迭代的结构参数的神经网络模型的计算量FLOPS根据前文描述的公式(1)获得。

可选地，在上述一些或全部实施例中，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据神经网络模型中部分操作层的计算量累加得到，其中，每个操作层的计算量根据每个操作层上的结构参数以及每个操作层上各个操作的计算量获得。

应理解，本实施例中的获取单元610、确定单元620、配置单元630和优化单元640均可以由处理器或处理器相关电路实现。

如图7所示，本申请实施例还提供一种网络架构搜索的装置700，该装置700包括如下单元。

获取单元710，用于获取待进行架构搜索的神经网络。

优化单元720，用于对神经网络进行可差分网络架构搜索，获得神经网络的结构参数，其中，可差分网络架构搜索使用的优化目标函数中包括第一正则项，第一正则项表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用神经网络模型的计算设备的计算资源之间的差异。

本申请通过提出一种带有约束的可差分网络架构搜索方法，可以实现在计算资源有限的场景下自动化设计高性能的神经网络模型。

例如，目标优化函数可以如前文描述的公式(5)所示。

例如，目标优化函数可以如前文描述的公式(6)所示。

例如，目标优化函数可以如前文描述的公式(7)所示。

应理解，本实施例中的获取单元710和优化单元720均可以由处理器或处理器相关电路实现。

如图8所示，本申请实施例还提供一种神经网络处理装置800。该神经网络处理装置800包括处理器810和存储器820，存储器820用于存储指令，处理器810用于执行存储器820中存储的指令，且对存储器820中存储的指令的执行使得，处理器810用于执行上文方法实施例。

神经网络处理装置800还可以对应于上文实施例提供的装置600或装置700。

可选地，神经网络处理装置800还可以包括通信接口830，用于将神经网络处理装置800处理完成的数据输出，和/或，从外部设备输入神经网络处理装置800将要处理的数据。

例如，处理器810用于控制通信接口830输入和/输出数据。

本申请实施例还提供一种计算机存储介质，其上存储有计算机程序，计算机程序被计算机执行时使得，计算机执行上文方法实施例。

本申请实施例还提供一种包含指令的计算机程序产品，其特征在于，指令被计算机执行时使得计算机执行上文方法实施例。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种神经网络架构搜索的方法，其特征在于，包括：

获取待进行网络架构搜索的神经网络模型；

确定所述神经网络模型的搜索空间，所述搜索空间定义了所述神经网络模型中每两个节点之间的操作层上的多种操作；

为所述搜索空间中定义的每个操作层上的多种操作配置结构参数；

利用基于梯度信息的优化算法，对所述神经网络模型进行网络架构搜索，获得优化后的所述结构参数，其中，所述网络架构搜索所使用的目标优化函数包括所述神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用所述神经网络模型的计算设备的计算资源之间的差异。
根据权利要求1所述的方法，其特征在于，所述目标优化函数还包括所述结构参数的1范数。
根据权利要求1所述的方法，其特征在于，所述目标优化函数还包括所述结构参数的0范数。
根据权利要求1所述的方法，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示所述采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数。
根据权利要求2所述的方法，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示所述采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数，‖α‖ ₁表示α的1范数。
根据权利要求2所述的方法，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示所述采用优化过程中每次迭代的结构参数的神经网络模型的计算量，‖b‖ ₀表示b的0范数，λ ₁,λ ₂为常数。
根据权利要求1至6中任一项所述的方法，其特征在于，所述采用优化过程中每次迭代的结构参数的神经网络模型的计算量，根据所述神经网络模型中每个操作层的计算量获得。
根据权利要求7所述的方法，其特征在于，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据所述神经网络模型中所有操作层的计算量累加得到，其中，每个操作层的计算量根据所述每个操作层上的结构参数以及所述每个操作层上各个操作的计算量获得。
根据权利要求8所述的方法，其特征在于，采用优化过程中每次迭代的结构参数的神经网络模型的计算量FLOPS根据如下公式获得：

其中，(i,j)中的i,j分别表示所述神经网络模型中同一个操作层的输入节点和输出节点，所述神经网络模型中节点的总数量为(M+1),FLOPS ^(i,j)表示输入节点i与输出节点j之间的操作层上的计算量，Ο表示输入节点i与输出节点j之间的操作层上的候选操作集合，
表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的结构参数，
表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的计算量。
一种网络架构搜索的装置，其特征在于，包括：

获取单元，用于获取待进行网络架构搜索的神经网络模型；

确定单元，用于确定所述神经网络模型的搜索空间，所述搜索空间定义了所述神经网络模型中每两个节点之间的操作层上的多种操作；

配置单元，用于为所述搜索空间中定义的每个操作层上的多种操作配置结构参数；

优化单元，用于利用基于梯度信息的优化算法，对所述神经网络模型进行网络架构搜索，获得优化后的所述结构参数，其中，所述网络架构搜索所使用的目标优化函数包括所述神经网络模型的损失函数，以及采用优化过程中每次迭代的结构参数的神经网络模型的计算量与使用所述神经网络模型的计算设备的计算资源之间的差异。
根据权利要求10所述的装置，其特征在于，所述目标优化函数还包括所述结构参数的1范数。
根据权利要求10所述的装置，其特征在于，所述目标优化函数还包括所述结构参数的0范数。
根据权利要求10所述的装置，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数。
根据权利要求11所述的装置，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，λ ₁为常数，‖α‖ ₁表示α的1范数。
根据权利要求12所述的装置，其特征在于，所述目标优化函数如下：

其中，α表示所述结构参数，w表示网络权重，L _val(w ^*(α),α)表示验证集上的损失值，M表示所述计算设备的计算资源，FLOPS表示采用优化过程中每次迭代的结构参数的神经网络模型的计算量，‖b‖ ₀表示b的0范数，λ ₁,λ ₂为常数。
根据权利要求10至15中任一项所述的装置，其特征在于，所述采用优化过程中每次迭代的结构参数的神经网络模型的计算量，根据所述神经网络模型中每个操作层的计算量获得。
根据权利要求16所述的装置，其特征在于，采用优化过程中每次迭代的结构参数的神经网络模型的计算量根据所述神经网络模型中所有操作层的计算量累加得到，其中，每个操作层的计算量根据所述每个操作层上的结构参数以及所述每个操作层上各个操作的计算量获得。
根据权利要求17所述的装置，其特征在于，采用优化过程中每次迭代的结构参数的神经网络模型的计算量FLOPS根据如下公式获得：

其中，(i,j)中的i,j分别表示所述神经网络模型中同一个操作层的输入节点和输出节点，所述神经网络模型中节点的总数量为(M+1),FLOPS ^(i,j)表示输入节点i与输出节点j之间的操作层上的计算量，Ο表示输入节点i与输出节点j之间的操作层上的候选操作集合，
表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的结构参数，
表示输入节点i与输出节点j之间的操作层上的候选操作集合Ο中的候选操作o的计算量。
一种神经网络处理装置，其特征在于，包括：存储器与处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得，所述处理器用于执行如权利要求1 至9中任一项所述的方法。
一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机执行时使得，所述计算机执行如权利要求1至9中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，所述指令被计算机执行时使得计算机执行如权利要求1至9中任一项所述的方法。