WO2021254498A1

WO2021254498A1 - 一种图像预测方法、设备和存储介质

Info

Publication number: WO2021254498A1
Application number: PCT/CN2021/100993
Authority: WO
Inventors: 栗伟清; 韩炳涛; 屠要峰; 王永成; 高洪
Original assignee: 南京中兴软件有限责任公司
Priority date: 2020-06-19
Filing date: 2021-06-18
Publication date: 2021-12-23
Also published as: CN113822307A

Abstract

一种图像预测方法、设备和存储介质，属于深度学习技术领域。该方法包括：获取待测图像（S110）；将待测图像输入预设神经网络模型，得到待测图像的预测类别（S120），其中，预设神经网络模型每层的权重通过分层自适应学习速率训练得到。

Description

一种图像预测方法、设备和存储介质

交叉引用

本申请基于申请号为“202010568970.7”、申请日为2020年06月19日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请涉及深度学习技术领域，尤其涉及一种图像预测方法、设备和存储介质。

背景技术

目前深度学习模型特别是神经网络得到了广泛的应用，神经网络模型的训练过程是构建一个实际可用的网络中最为耗时的过程，为了提升训练效率和缩短耗时，目前人工智能(Artificial Intelligence，AI)平台为用户提供多图形处理器(Graphics processing unit，GPU)并行训练的过程，但在多GPU并行训练的过程中为了提升资源的利用率会相应的增加每个GPU上的Batch Size即样本批处理量，当Batch Size比较大的情况下，会影响模型的精度，并且现有的神经模型训练过程中通常采用全局唯一的学习速率来确定每层的权重，从而影响模型的精度，因此采用现有的训练方式所获得神经网络模型在进行图像预测的过程中会显著影响图像的预测精度。

发明内容

本申请实施例提供了一种图像预测方法，所述方法包括：获取待测图像；将待测图像输入预设神经网络模型，得到所述待测图像的预测类别，其中，所述预设神经网络模型每层的权重通过分层自适应学习速率训练得到。

本申请实施例还提出了一种图像预测的设备，所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现前述方法。

本申请提供了一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法。

附图说明

图1是本申请实施例一提供的图像预测方法的流程图；

图2是本申请实施例二提供的图像预测方法的流程图；

图3是本申请实施例二提供的训练过程运行交互图；

图4是本申请实施第二提供的图像预存方法的步骤S220的流程图；

图5是本申请实施例二提供的权重衰减参数的动态变化示意图；

图6是本申请实施例三提供的图像预测方法的流程图；

图7是本申请实施例四提供的图像预测的设备结构框图。

具体实施方式

本申请实施例的主要目的在于提出一种图像预测方法、设备和存储介质，旨在实现通过分层自适应学习速率训练得到预设神经网络模型来实现图像的精准预测。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

实施例一

如图1所示，本实施例提供了一种图像预测方法的流程图，包括：

步骤S110：获取待测图像。

其中，待测图像具体可以是通过拍摄所获取的，也可以是从数据库中通过筛选所获取的，本实施方式中并不限定获取待测图像的具体方式，并且图像预测的目的具体可以是确定待测图像的类别，例如，确定待测图像为动物、风景、建筑或者人物等，当然本实施方式中仅是举例说明，而并不限定类别的具体内容。

需要说明的是，在获取待测图像后，为了使预测结果更加准确，可以在输入预设模型之前对待测图像进行预处理，其中，预处理具体包括图像去噪、图像增强或图像填充等，以将待测图像中的干扰因素进行排除，从而使得预测结果更加准确。

步骤S120：将待测图像输入预设神经网络模型，得到待测图像的预测类型。

其中，预设神经网络网络模型每层的权重通过分层自适应学习速率训练得到，分层自适应学习速率训练，指的是在通过样本对神经网络训练的过程中针对每层分别设置匹配的学习速率，而在计算每层的权重时，采用本层所对应的学习速率进行确定，因此相对于相关技术中针对所有层全部采用全局唯一的学习速率进行各层权重的确定方式，权重的确定要更加准确，因此所确定出的预设神经网络模型要更加准确。

在一种示例中，将待测图像输入预设神经网络模型，得到待测图像的预测类别，可以包括：将待测图像输入预设神经网络模型，获得类型概率集合，其中，类型概率集合中包含每个类别与概率值的对应关系；确定概率集合中最大的概率值所对应的类别；将最大的概率值所对应的类别作为待测图像的预测类别。

例如，将待测图像1输入预设神经网络模型，并且在待测图像1中包含猫，通过预设神经网络模型对输入的待测图像1进行预测，分别获得类型概率集合{动物98％，人物1％，风景1％}，通过类型概率集合可以得出其中最大的概率值为98％，并且最大的概率值所对应的类别为动物，从而可以确定待测图像的预测类别为动物。

在一种示例中，将待测图像输入预设神经网络模型之前，还可以包括：采用多个图形处理器GPU对样本图像并行训练获得所述预设神经网络模型。

在一种示例中，采用多个图形处理器GPU对样本图像并行训练获得所述预设神经网络模型，可以包括：每个GPU根据所述样本图像确定初始神经网络模型每层的初始梯度；根据各层的初始梯度得到所述初始神经网络模型每层的聚合梯度和层学习速率；根据每层的当前权重、所述层学习速率、权重衰减参数以及所述初始神经网络模型的全局学习速率确定每层的预设权重；根据每层的预设权重得到所述预设神经网络模型。

本申请实施所提供的图像预测方法，通过将获取的待测图像输入预设神经网络模型，由于预设神经网络模型每层的权重是通过分层自适应学习速率训练所获得的，每层的权重更加准确，从而确定出的预设神经网络模型更加精准，因此在将待测图像输入预设神经网络时，能够准确的获取待测图像的预测类别。

实施例二

图2为本申请实施例二提供的一种图像预测方法的流程图，本实施例以上述实施例为基础，在本实施例中，在将待测图像输入预设神经网络模型之前，还包括：采用多个图形处理器GPU对样本图像并行训练获得预设神经网络模型。相应的，本实施例的方法具体包括如下操作：

步骤S210：获取待测图像。

步骤S220：采用多个图形处理器GPU对样本图像并行训练获得预设神经网络模型。

需要说明的是，本实施方式中在将待测图像输入预设神经网络模型之前，需要通过样本图像进行训练获得预设神经网络模型，在人工智能(Artificial Intelligence，AI)平台涉及到四个应用程序，分别是应用管理器、资源管理器、作业调度器和执行器，并通过四个应用程序之间的运行交互实现预设神经网络模型的训练，如图3所示为训练运行交互图：

其中，应用管理器运行在高性能计算(High Performance Computing，HPC)集群上，在接收到用户提交的模型训练作业时，会向资源管理模块发送申请资源请求；资源管理器会根据申请资源请求为用户提交的训练作业在HPC集群上分配相应的资源，例如，GPU等，并向应用管理器发送申请成功指令；应用管理器在获取到申请成功指令时，会向作业调度器发送启动作业指令，其中，每个训练任务分别对应一个作业调度器；作业调度器在接收到启动作业指令后会向执行器发送启动指令，执行器负责执行分配到集群中每个节点上的神经网络模型的训练任务，在训练完成的情况下会通过作业调度器向应用管理器发送训练作业完成指令；应用管理器在接收到训练作业完成的情况下会向资源管理器发送释放资源指令，以使资源管理器针对所分配的资源进行回收。而执行器的执行数据并行训练的过程对应本实施例的步骤S220，因此下面对步骤S220的过程进行具体说明。

如图3所示，步骤S220具体包括如下步骤：

步骤S221：每个GPU根据样本图像确定初始神经网络模型每层的初始梯度。

在一种示例中，每个GPU根据样本图像确定初始神经网络模型每层的初始梯度之前，还可以包括：获取模型构建指令，并根据模型构建指令在每个GPU上生成原始神经网络模型；确定指定GPU上所包含的原始神经网络模型的参数，将指定GPU上所包含的原始神经网络模型作为初始神经网络模型；将指定GPU上所包含的原始神经网络模型的参数广播给剩余GPU，以使剩余GPU根据广播的参数对自身的原始神经网络模型进行参数更新，获得初始神经网络模型。

在一个具体实现中，所分配的资源为三个GPU，即采用三个GPU并行进行训练，在获取到模型构建指令时，会根据模型构建指令在每个GPU上生成原始神经网络模型，由于每个GPU上分别是随机生成原始神经网络模型的参数，因此所生成的每个原始神经网络模型的参数肯定是不一样的，为了保持一致性，可以指定一个GPU，例如，每个GPU分别具有一个编号，指定编号为0的GPU上所包含的原始神经网络模型作为初始神经网络模型，并将编号为0的GPU上所包含的原始神经网络模型的参数广播给剩余的两个GPU，剩余的两个GPU会根据广播的参数对本身的原始神经网络模型进行参数更新，从而使得每个GPU上都包含参数相同的初始神经网络模型。

其中，本实施方式中在每个GPU上执行样本图像的读取，并执行初始神经网络模型的运算，得出每个GPU初始神经网络模型每层的初始梯度，例如，针对初始神经网络模型的第一层，确定该层所对应的当前权重为w ^l,其中，l表示层标号，此时l为1，并且第一个GPU通过计算确定初始梯度为D1(w ¹)，第二个GPU上通过计算确定初始梯度为D2(w ¹)，第三个GPU上通过计算确定初始梯度为D3(w ¹)。

步骤S222：根据各层的初始梯度得到初始神经网络模型每层的聚合梯度和层学习速率。

在一种示例中，根据各层的初始梯度得到初始神经网络模型每层的聚合梯度和层学习速率可以包括：将各层的初始梯度相加获得各层的梯度和；将各层的梯度和与各层初始梯度个数的比值作为每层的聚合梯度；根据每层的聚合梯度获得每层的层学习速率。

在一种示例中，根据每层的聚合梯度获得每层的层学习速率包括：确定学习速率的上边界值和下边界值，以及每层的当前权重与聚合梯度的比值；在确定当前权重与聚合梯度的比值位于下边界值和上边界值之间时，则将当前权重与聚合梯度的比值作为每层的层学习速率；在确定当前权重与聚合梯度的比值大于上边界值时，则将上边界值作为每层的层学习速率；在确定当前权重与聚合梯度的比值小于下边界值时，则将下边界值作为每层的层学习速率。

具体的说，在本实施方式中，针对初始神经网络模型中第一层来说，在确定第一个GPU通过计算确定初始梯度为D1(w ¹)，第二个GPU上通过计算确定初始梯度为D2(w ¹)，第三个GPU上通过计算确定初始梯度为D3(w ¹)时，具体可以将各层的梯度和与各层初始梯度个数的比值作为每层的聚合梯度，则针对第一层的聚合梯度为

当然，本实施方式中仅是以第一层为例进行的举例说明，对于其它层确定聚合梯度的方式与此大致相同，因此本实施方式中不再进行赘述。

其中，在获得每层的聚合梯度之后，具体可以采用如下公式(1)获得每层的层学习速率：

其中，λ ^l为初始神经网络模型中l层的层学习率，l为层标号，η为权重梯度比的扩展系数，ε为可选项，w ^l为l层的当前权重，

为l层的聚合梯度，T _m为学习速率的上边界值，T _n为学习速率的下边界值。

需要说明的是，η、ε、T _m和T _n需要在训练之前进行设置，并且具体数值用户可以根据实际情况进行限定，本实施方式中并不限定取值的大小。

clip公式的含义是：在确定出

的比值为q时，当T _m<q<T _n时，则层学习速率λ ^l＝q；当q<T _m时，则层学习速率λ ^l＝T _m；当q>T _n时，则λ ^l＝T _n。因此通过clip操作，可以将层学习速率始终控制在上边界值和下边界值之间，不会出现过大的情况。并且通过每一层分别定义层学习速率，使得初始神经网络模型参数更新更加的高效合理，加速训练的过程。

步骤S223：根据每层的当前权重、层学习速率、权重衰减参数以及初始神经网络模型的全局学习速率确定每层的预设权重。

其中，在获得每层的层学习速率之后，具体可以通过如下公式(2)确定每层的预设权重

其中，

表示l层的预设权重，λ ^l为初始神经网络模型中l层的层学习率,t表示当前迭代次数，

为l层的当前权重，γ为全局学习速率，

为l层的聚合梯度，β为权重衰减参数。并且从公式(2)中可以得出学习速率与权重衰减参数是可以单独进行调整了，从而实现了两者的解耦。

需要说明的是，本实施方式中的权重衰减参数β是动态变化的，并且具体应用了1Cycle调整策略，如图5所示为采用1Cycle调整策略所确定的权重衰减参数的动态变化示意图，从图中可以获知权重衰减参数β在训练的前13个迭代中，从0.0005线性增加到0.01，然后在接下来的14个迭代中，从0.01再线性递减到0.0005，最后一个迭代中保持常量0.0005。当然，本实施方式中仅是示例说明，并不限定变化的临界迭代次数，以及迭代终止次数，用户可以根据实际情况进行限定。

步骤S224：根据每层的预设权重得到预设神经网络模型。

其中，通过循环执行上述步骤S221至步骤S223，直到达到所设定的迭代次数，在最终迭代次数中，当每层的预设权重都已经确定的情况下，预设神经网络模型每层的参数就是已知的，因此根据所确定的参数得到预设神经网络模型。

步骤S230：将待测图像输入预设神经网络模型，得到待测图像的预测类型。

本申请实施所提供的图像预测方法，通过将获取的待测图像输入预设神经网络模型，由于预设神经网络模型每层的权重是通过分层自适应学习速率训练所获得的，每层的权重更加准确，从而确定出的预设神经网络模型更加精准，因此在将待测图像输入预设神经网络时，能够准确的获取待测图像的预测类别。并且在神经网络训练过程中，由于可以针对每一层确定层学习速率，并实现了学习速率和权重衰减参数的解耦，从而能够在超大Batch Size训练时，使得训练过程更加高效，由于每个GPU上处理的样本Batch Size更大，因此进一步提高了整体的资源利用率。

实施例三

图6为本申请实施例三提供的一种图像预测方法的流程图，本实施例以上述实施例为基础，在本实施例中，在将待测图像输入预设神经网络模型，得到待测图像的预测类别之后，还包括：对预测结果进行检测，在确定预测结果异常的情况下发出报警提示。

步骤S310:获取待测图像。

步骤S320：将待测图像输入预设神经网络模型，得到待测图像的预测类型。

步骤S330：对预测结果进行检测。

具体的说，在对预测结果进行检测时，具体可以是检测预测结果是否存在明显错误的情况，例如，对预测结果进行识别，判断是否存在乱码或内容为空的情况。

步骤S340：在确定预测结果异常的情况下发出报警提示。

在确定预测结果为乱码或者内容为空的情况下，则确定预测结果异常，在预测结果异常的情况下会发出报警提示，报警提示的方式具体可以是文字提示、语音提示或灯光提示，例如，在确定预测结果为乱码的情况下，会进行语音提示“预测结果错误，请进行查看”。由于出现故障的原因可能是设备故障、通信终端或者神经网络模型本身参数配置错误，因此通过发出报警提示，可以通知用户及时采取相应的措施，例如进行设备更换或者在确定设备正常的情况下通过调整参数配置重新进行预测。

本申请实施所提供的图像预测方法，通过将获取的待测图像输入预设神经网络模型，由于预设神经网络模型每层的权重是通过分层自适应学习速率训练所获得的，每层的权重更加准确，从而确定出的预设神经网络模型更加精准，因此在将待测图像输入预设神经网络时，能够准确的获取待测图像的预测类别。通过对预测结果进行检测，并在预测结果异常的情况下发出报警提示，从而提示用户及时进行设备维护，以进一步提高预测结果的准确性。

实施例四

如图7所示，本申请实施例四提出一种图像预测的设备，该设备包括存储器720、处理器710、存储在该存储器上并可在该处理器上运行的程序以及用于实现处理器710和存储器720之间的连接通信的数据总线，该程序被该处理器执行时，以实现本申请实施例中的图像预测方法：

获取待测图像；将待测图像输入预设神经网络模型，得到待测图像的预测类别，其中，预设神经网络模型每层的权重通过分层自适应学习速率训练得到。

终端中的处理器710、存储器720可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器720作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例时域资源确定方法对应的程序指令/模块。存储器720可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可包括相对于处理器710远程设置的存储器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本申请实施例五提出一种可读存储介质，该可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现本申请实施例中的图像预测方法：

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本申请的范围。因此，本申请的恰当范围将根据权利要求确定。

Claims

一种图像预测方法，包括：

获取待测图像；

将待测图像输入预设神经网络模型，得到所述待测图像的预测类别，其中，所述预设神经网络模型每层的权重通过分层自适应学习速率训练得到。
根据权利要求1所述的方法，其中，所述将待测图像输入预设神经网络模型之前，还包括：

采用多个图形处理器GPU对样本图像并行训练获得所述预设神经网络模型。
根据权利要求2所述的方法，其中，所述采用多个图形处理器GPU对样本图像并行训练获得所述预设神经网络模型包括：

每个GPU根据所述样本图像确定初始神经网络模型每层的初始梯度；

根据各层的初始梯度得到所述初始神经网络模型每层的聚合梯度和层学习速率；

根据每层的当前权重、所述层学习速率、权重衰减参数以及所述初始神经网络模型的全局学习速率确定每层的预设权重；

根据每层的预设权重得到所述预设神经网络模型。
根据权利要求3所述的方法，其中，所述每个GPU根据所述样本图像确定初始神经网络模型每层的初始梯度之前，还包括：

获取模型构建指令，并根据所述模型构建指令在每个所述GPU上生成原始神经网络模型；

确定指定GPU上所包含的原始神经网络模型的参数，将指定GPU上所包含的原始神经网络模型作为所述初始神经网络模型；

将指定GPU上所包含的原始神经网络模型的参数广播给剩余GPU，以使所述剩余GPU根据广播的参数对自身的原始神经网络模型进行参数更新，获得所述初始神经网络模型。
根据权利要求3所述的方法，其中，所述根据各层的初始梯度得到所述初始神经网络模型每层的聚合梯度和层学习速率包括：

将各层的所述初始梯度相加获得各层的梯度和；

将各层的梯度和与各层初始梯度个数的比值作为每层的聚合梯度；

根据每层的聚合梯度获得每层的所述层学习速率。
根据权利要求5所述的方法，其中，所述根据每层的聚合梯度获得每层的所述层学习速率包括：

确定学习速率的上边界值和下边界值，以及每层的所述当前权重与所述聚合梯度的比值；

在确定所述当前权重与所述聚合梯度的比值位于所述下边界值和所述上边界值之间时，则将所述当前权重与所述聚合梯度的比值作为每层的所述层学习速率；

在确定所述当前权重与所述聚合梯度的比值大于所述上边界值时，则将所述上边界值作为每层的所述层学习速率；

在确定所述当前权重与所述聚合梯度的比值小于所述下边界值时，则将所述下边界值作为每层的所述层学习速率。
根据权利要求1至6中任一项所述的方法，其中，所述将待测图像输入预设神经网络模型，得到所述待测图像的预测类别包括：

将待测图像输入所述预设神经网络模型，获得类型概率集合，其中，所述类型概率集合中包含每个类别与概率值的对应关系；

确定所述概率集合中最大的概率值所对应的类别；

将最大的概率值所对应的类别作为所述待测图像的预测类别。
根据权利要求1至7中任一项所述的方法，其中，所述将待测图像输入预设神经网络模型，得到所述待测图像的预测类别之后，还包括：

对预测结果进行检测；

在确定所述预测结果异常的情况下发出报警提示。
一种图像预测的设备，所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1-8任一项所述的图像预测方法的步骤。
一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至8中任一项所述的图像预测方法的步骤。