WO2021102762A1

WO2021102762A1 - 一种感知网络及图像处理方法

Info

Publication number: WO2021102762A1
Application number: PCT/CN2019/121373
Authority: WO
Inventors: 谭文伟; 邓鹏�; 许占
Original assignee: 华为技术有限公司
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-06-03
Also published as: CN114467121A

Abstract

本申请公开了一种感知网络及图像处理方法，涉及图像处理，解决了共用一个全连接层时导致多任务的输出结果的精度较低的问题。所述感知网络包括主干网络、卷积网络和全连接网络，卷积网络包括N个卷积子网，全连接网络包括N个全连接子网，主干网络与N个卷积子网连接，N个卷积子网与N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1，N]。首先，通过主干网络先对第一图像进行卷积处理得到M个初始化图像，再通过第i卷积子网对M个初始化图像进行卷积池化处理得到第i类特征的图像，第i全连接子网再对第i类特征的图像进行分类处理得到第i类特征的分类结果。

Description

一种感知网络及图像处理方法

技术领域

本申请实施例涉及图像处理领域，尤其涉及一种感知网络及图像处理方法。

背景技术

在机器学习中，卷积神经网络(Convolutional Neural Network，CNN)是一种深度前馈人工神经网络，已广泛地应用于图像处理和视觉任务中，比如人脸检测、人脸识别、图像分类、自动驾驶和医疗影像诊断等。

目前，可以根据任务类型在深度神经网络的全连接层(fully connected layer，FC layer)设置多种类型的输出层，输出不同类型的任务的结果。如图1所示，为多任务神经网络的架构示意图。但是，不同类型的任务的优化目标特性差异大，共用一个全连接层对不同类型的任务的数据进行训练，无法保证每个任务的输出结果最优，输出结果的精度较低。

发明内容

本申请提供一种感知网络及图像处理方法，解决了共用一个全连接层时导致多任务的输出结果的精度较低的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供了一种感知网络，该感知网络包括主干网络、卷积网络和全连接网络，卷积网络包括N个卷积子网，全连接网络包括N个全连接子网，主干网络与N个卷积子网连接，N个卷积子网与N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1,N]。其中，所述主干网络用于对第一图像进行卷积处理以得到M个初始化图像，并将M个初始化图像输出至N个卷积子网中的每个卷积子网，M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数；所述第i卷积子网用于对M个初始化图像进行卷积池化处理以得到第i类特征的图像，并将第i类特征的图像输出至第i全连接子网；所述第i全连接子网用于对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

本申请提供的感知网络包括了多个卷积子网，以及与卷积子网连接的全连接子网，由于每个卷积子网和与该卷积子网连接的全连接子网共同处理一种特征类型的图像，因此，对于不同类型的任务的数据可以分别进行训练，保证了每个任务的输出结果最优，有效地提高了输出结果的精度。

在一种可能的实现方式中，主干网络包括至少1层卷积层(convolutional layer)，主干网络用于根据第1层卷积层至第K层卷积层对第一图像进行卷积处理以得到M个初始化图像，K为大于或等于1的整数。示例的，K的取值为3或5。通过选取前N层卷积层对第一图像进行卷积处理，能够最大程度地保留高分辨率的特征图像，有利于提高处理图像的精度。

在另一种可能的实现方式中，第i卷积子网包括K _i层卷积层和L _i层池化层(pooling layer)，K _i和L _i均为大于或等于1的整数；第i卷积子网用于对M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到第i类特征的图像。由于不同的卷积子网包含了不同个数的卷积层和池化层，通过不同卷积子网对相同的图像进行不同次数的卷积池化处理以得到不同类型特征的图像，从而，保持较高分辨率的卷积特征图，有效地提高处理图像的精度。

在另一种可能的实现方式中，第i全连接子网包括R _i个全连接层，R _i为大于或等于2的整数。由于不同的全连接子网包含了不同个数的全连接层，通过不同的全连接子网对不同特征图像进行分类处理以得到相应特征的分类结果，从而，确保较高分辨率的卷积特征图的分类处理，有效地提高了分类处理的精度。

示例的，N＝3，第一卷积子网包括第一卷积层、第二卷积层和第一池化层，第二卷积子网包括第三卷积层和第二池化层，第三卷积子网包括第四卷积层、第五卷积层和第三池化层，第一全连接子网包括第一全连接层、第二全连接层和第三全连接层，第二全连接子网包括第四全连接层和第五全连接层，第三全连接子网包括第六全连接层、第七全连接层和第八全连接层；其中，主干网络与第一卷积层连接，第一卷积层与第二卷积层连接，第二卷积层与第一池化层连接，第一池化层与第一全连接层连接，第一全连接层与第二全连接层连接，第二全连接层与第三全连接层连接；主干网络与第三卷积层连接，第三卷积层与第二池化层连接，第二池化层与第四全连接层连接，第四全连接层与第五全连接层连接；主干网络与第四卷积层连接，第四卷积层与第三池化层连接，第三池化层与第五卷积层连接，第五卷积层与第六全连接层连接，第六全连接层分别与第七全连接层和第八全连接层连接。其中，第一卷积子网的卷积核的取值T为128、256或512；第二卷积子网的卷积核的取值为0.5*T；第三卷积子网的卷积核的取值为2*T；第一全连接层的维度值为1024、2048或4096；第二全连接层的维度值为1024、2048或4096；第三全连接层的维度值为1024、2048或4096；第四全连接层的维度值为1024、2048或4096；第五全连接层的维度值为1024、2048或4096；第六全连接层的维度值为1024、2048或4096；第七全连接层的维度值为1024、2048或4096；第八全连接层的维度值为1024、2048或4096。

第二方面，本申请提供了一种图像处理方法，所述方法可应用于终端设备，或者该方法可应用于可以支持终端设备实现该方法的通信装置，例如该通信装置包括芯片系统。该终端设备上设置有感知网络，该感知网络包括主干网络、卷积网络和全连接网络，卷积网络包括N个卷积子网，全连接网络包括N个全连接子网，主干网络与N个卷积子网连接，N个卷积子网与N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1,N]。所述方法包括：首先，通过主干网络对第一图像进行卷积处理以得到M个初始化图像，并将M个初始化图像输出至N个卷积子网中的每个卷积子网，M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数。每个卷积子网处理M个初始化图像可以参考如下对第i卷积子网的阐述。第i卷积子网对M个初始化图像进行卷积池化处理以得到第i类特征的图像，并将第i类特征的图像输出至第i全连接子网；第i全连接子网对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

在一种可能的实现方式中，主干网络包括至少1层卷积层，主干网络对第一图像进行卷积处理以得到M个初始化图像，包括：根据第1层卷积层至第K层卷积层对第一图像进行卷积处理以得到M个初始化图像，K为大于或等于1的整数。示例的，K的取值为3或5。通过选取前N层卷积层对第一图像进行卷积处理，能够最大程度地保留高分辨率的特征图像，有利于提高处理图像的精度。

在另一种可能的实现方式中，第i卷积子网包括K _i层卷积层和L _i层池化层，K _i和L _i均为大于或等于1的整数；第i卷积子网对M个初始化图像进行卷积池化处理以得到第i类特征的图像，包括：第i卷积子网对M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到第i类特征的图像；第i全连接子网包括R _i个全连接层，R _i为大于或等于2的整数。通过多个卷积层对初始化图像进行卷积处理，从而，保持较高分辨率的卷积特征图，有利于提高处理图像的精度。

示例的，N＝3，第一卷积子网包括第一卷积层、第二卷积层和第一池化层，第二卷积子网包括第三卷积层和第二池化层，第三卷积子网包括第四卷积层、第五卷积层和第三池化层，第一全连接子网包括第一全连接层、第二全连接层和第三全连接层，第二全连接子网包括第四全连接层和第五全连接层，第三全连接子网包括第六全连接层、第七全连接层和第八全连接层；其中，主干网络与第一卷积层连接，第一卷积层与第二卷积层连接，第二卷积层与第一池化层连接，第一池化层与第一全连接层连接，第一全连接层与第二全连接层连接，第二全连接层与第三全连接层连接；主干网络与第三卷积层连接，第三卷积层与第二池化层连接，第二池化层与第四全连接层连接，第四全连接层与第五全连接层连接；主干网络与第四卷积层连接，第四卷积层与第三池化层连接，第三池化层与第五卷积层连接，第五卷积层与第六全连接层连接，第六全连接层分别与第七全连接层和第八全连接层连接。

其中，第一卷积子网的卷积核的取值T为128、256或512；第二卷积子网的卷积核的取值为0.5*T；第三卷积子网的卷积核的取值为2*T；第一全连接层的维度值为1024、2048或4096，第二全连接层的维度值为1024、2048或4096；第四全连接层的维度值为1024、2048或4096，第五全连接层的维度值为1024、2048或4096；第六全连接层的维度值为1024、2048或4096，第七全连接层的维度值为1024、2048或4096。

第三方面，本申请实施例还提供了一种通信装置，有益效果可以参见第二方面的描述此处不再赘述。所述通信装置具有实现上述第二方面的方法实例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述通信装置包括：收发单元和处理单元。所述处理单元，用于获取第一图像。所述处理单元，用于通过主干网络对第一图像进行卷积处理以得到M个初始化图像，并将M个初始化图像输出至N个卷积子网中的每个卷积子网，M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数，所述处理单元，还用于通过第i卷积子网对M个初始化图像进行卷积池化处理以得到第i类特征的图像，并将第i类特征的图像输出至第i全连接子网；所述处理单元，还用于通过第i全连接子网对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

第四方面，提供了一种通信装置，该通信装置可以为上述方法实施例中的终端设备，或者为设置在终端设备中的芯片。该通信装置包括通信接口以及处理器，可选的，还包括存储器。其中，该存储器用于存储计算机程序或指令，处理器与存储器、通信接口耦合，当处理器执行所述计算机程序或指令时，使通信装置执行上述方法实施例中由终端设备所执行的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码并运行时，使得上述各方面中由终端设备执行的方法被执行。

第六方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于实现上述各方面的方法中终端设备的功能。在一种可能的设计中，所述芯片系统还包括存储器，用于保存程序指令和/或数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

第七方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当该计算机程序被运行时，实现上述各方面中由终端设备执行的方法。

本申请中，终端设备和通信装置的名字对设备本身不构成限定，在实际实现中，这些设备可以以其他名称出现。只要各个设备的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

附图说明

图1为一实施例提供的多任务神经网络的架构示意图；

图2为一实施例提供的感知网络的架构示意图；

图3为一实施例提供的感知网络的架构示意图；

图4为一实施例提供的俯仰角、偏航角和翻滚角的示意图；

图5为一实施例提供的一种图像处理的结果示意图；

图6为一实施例提供的一种图像处理方法的流程图；

图7为一实施例提供的一种图像处理装置的组成示意图；

图8为一实施例提供的一种图像处理装置的组成示意图。

具体实施方式

本申请说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理。二维卷积神经网络常应用于图像类文本的识别。三维卷积神经网络主要应用于医学图像以及视频类数据识别。卷积神经网络包括数据输入层(Input layer)、卷积层、激励层(ReLU layer)、池化层和全连接层。

1、数据输入层

数据输入层主要是对原始图像的数据(如：像素值)进行预处理。预处理可以包括去均值、归一化和主成分分析(principal component analysis，PCA)/白化。

去均值是将输入数据的各个维度均中心化为0，其目的就是将样本的中心拉回到坐标系原点上。

归一化是将幅度归一化到同样的范围，即减少各维度数据取值范围的差异而带来的干扰。比如，有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，归一化是将A和B的数据都变为0到1的范围。

主成分分析是在利用降维的思想，将多指标转化为少数几个综合指标。白化是对数据各个特征轴上的幅度归一化。

2、卷积层

卷积层是卷积神经网络最重要的一个层次，也是“卷积神经网络”的名字来源。卷积运算的目的是提取原始图像的不同特征。

在一些实施例中，卷积神经网络可以包括多个卷积层。第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级。更多层的卷积层能从低级特征中迭代提取更复杂的特征。

卷积层可以包括至少一个卷积核。通过卷积核获取原始图像的特征。例如，可以利用卷积核在原始图像上滑动，将卷积核内的参数与原始图像的像素值进行卷积运算获得原始图像的特征。

卷积核的参数可以是通过反向传播算法最佳化得到的。

卷积核的尺寸越大，得到的图像的细节越少，卷积层输出的图像的尺寸也更小。反之，卷积核的尺寸越小，得到的图像的细节越多，卷积层输出的图像的尺寸也更大。

卷积核滑动的幅度可以根据需求设置。例如，卷积核滑动的幅度为1或2。卷积核滑动的幅度越大，卷积层输出的图像包含的图像特征越少。

卷积核的个数也可以称为深度。卷积核的个数决定了卷积层输出的图像的个数。卷积核的参数不同，卷积层输出的图像包含的图像特征不同。

3、激励层

激励层是将卷积层输出结果做非线性映射。在一些实施例中，卷积神经网络采用的激励函数一般为修正线性单元(The Rectified Linear Unit，ReLU)。ReLU的特点是收敛快，求梯度简单，但较脆弱。

4.池化层

池化层位于连续的卷积层中间。池化层用于压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。池化层具有以下优点：

(1)特征不变性：在图像处理中经常提到的特征的尺度不变性，池化操作就是对图像的大小(resize)的操作。一张狗的图像被缩小了一倍后，还可以认为这是一张狗的照片，这说明这张图像中仍保留着狗最重要的特征，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。

(2)特征降维：一幅图像含有的信息是很大的，特征也很多，但是有些信息对于做图像任务时没有太多用途或者有重复，可以将这类冗余信息去除，将最重要的特征抽取出来，这也是池化操作的一大作用。

(3)在一定程度上防止过拟合，更方便优化。

池化层的方法包括最大池化(Max pooling)和平均池化(average pooling)。最大池化为常用的池化方法。

5、全连接层

全连接是指下一层的每个神经元与上一层的神经元全部连接。两层之间所有神经元都有权重连接。全连接层和输出层对池化层输出的图像进行分类，得到分类结果。

关于卷积神经网络的具体的计算过程可以参考现有技术的阐述，不予赘述。

为了解决共用一个全连接层时导致多任务的输出结果的精度较低问题，本申请实施例提供了一种感知网络，该感知网络包括了多个卷积子网，以及与卷积子网连接的全连接子网，由于每个卷积子网和与该卷积子网连接的全连接子网共同处理一种特征类型的图像，因此，对于不同类型的任务的数据可以分别进行训练，保证了每个任务的输出结果最优，有效地提高了输出结果的精度。

接下来，结合附图对本申请实施例的实施方式进行详细描述。

图2为一实施例提供的感知网络的架构示意图。如图2所示，该感知网络200包括主干网络210、卷积网络220和全连接网络230。卷积网络220包括N个卷积子网(如图2中所示的第一卷积子网221至第n卷积子网22n)，N为大于或等于2的整数。全连接网络230包括N个全连接子网(如图2中所示的第一全连接子网231至第n全连接子网23n)。主干网络210分别与N个卷积子网连接。N个卷积子网与N个全连接子网连接，即第一卷积子网221连接第一全连接子网231，第二卷积子网222连接第二全连接子网232，第i卷积子网22i连接第i全连接子网23i，第n卷积子网22n连接第n全连接子网23n。

其中，所述主干网络210用于对获取到的第一图像进行卷积处理以得到M个初始化图像，并将M个初始化图像输出至N个卷积子网中的每个卷积子网，M为大于或等于1的整数。

在一些实施例中，主干网络可以包含具备图像分类功能的神经网络。例如，VGG16或ResNet50。主干网络可以包括至少1层卷积层，选取主干网络中的第1层卷积层至第K层卷积层，利用第1层卷积层至第K层卷积层对第一图像进行卷积处理以得到M个初始化图像，K为大于或等于1的整数。

示例的，当K＝3时，选取主干网络中的第1层卷积层、第2层卷积层和第3层卷积层，利用第1层卷积层的权值指示的参数、第2层卷积层的权值指示的参数和第3层卷积层的权值指示的参数对第一图像进行卷积处理以得到M个初始化图像。当K＝5时，选取主干网络中的第1层卷积层、第2层卷积层、第3层卷积层、第4层卷积层和第5层卷积层，利用第1层卷积层的权值指示的参数、第2层卷积层的权值指示的参数、第3层卷积层的权值指示的参数、第4层卷积层的权值指示的参数和第5层卷积层的权值指示的参数对第一图像进行卷积处理以得到M个初始化图像。

需要说明的是，权值指示的参数包括与卷积核相关的参数，如卷积核的大小、卷积核的移动步数和卷积核的个数。M个初始化图像中每个初始化图像的特征不同。M的取值可以由卷积核的个数确定。M个初始化图像的特征可以由卷积核的取值确定。例如，初始化图像可以第一图像的轮廓特征的图像、第一图像的浮雕特征的图像或第一图像的锐化特征的图像等。

从而，通过选取前N层卷积层对第一图像进行卷积处理，能够最大程度地保留高分辨率的特征图像，有利于提高处理图像的精度。

N个卷积子网中的每个卷积子网均对M个初始化图像进行卷积池化处理得到不同类型特征的图像。示例的，所述第i卷积子网22i用于对M个初始化图像进行卷积池化处理以得到第i类特征的图像，i为整数，i∈[1,N]。可理解的，当i取1至N中不同的值时，表示N个卷积子网中的不同卷积子网。例如，当i＝1时，表示第一卷积子网；当i＝2时，表示第二卷积子网；当i＝3时，表示第三卷积子网；当i＝n时，表示第n卷积子网。

在一些实施例中，N个卷积子网中的每个卷积子网具有不同的结构。通过不同结构的卷积子网分别对M个初始化图像进行卷积池化处理以得到不同类型特征的图像。

示例的，第i卷积子网包括K _i层卷积层和L _i层池化层，K _i和L _i均为大于或等于1的整数。第i卷积子网用于对M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到第i类特征的图像。

可选的，当i取1至N中不同的值时，不同卷积子网包括的卷积层的个数可以相同也可以不同。同理，当i取1至N中不同的值时，不同卷积子网包括的池化层的个数可以相同也可以不同。由于不同的卷积子网包含了不同个数的卷积层和池化层，通过不同卷积子网对相同的图像进行不同次数的卷积池化处理以得到不同类型特征的图像，从而，保持较高分辨率的卷积特征图，有效地提高处理图像的精度。

可选的，经过卷积子网卷积池化处理得到的图像的包括但不限于以下特征，例如，细节特征、轮廓特征和方向特征。

可理解的，不同结构的卷积子网分别对M个初始化图像进行卷积池化处理可以认为是不同的任务。

在另一些实施例中，卷积子网可以对初始化图像中的至少一个区域进行卷积池化处理，可以得到至少一个区域的卷积池化处理后的特征图像。对初始化图像中的至少一个区域进行卷积池化处理可以认为是不同的任务。

在本文中，卷积子网输出的图像可以称为特征图像、卷积特征图、卷积池化特征图或类型特征图。

在N个卷积子网中的每个卷积子网均对M个初始化图像进行卷积池化处理得到不同类型特征的图像(如：卷积特征图)后，将不同类型特征的图像输出至与卷积子网相连接的全连接子网。在N个全连接子网中的每个全连接子网对接收到的特征图像进行分类处理以得到相应特征的分类结果。

示例的，所述第i全连接子网23i用于对第i类特征的图像进行分类处理以得到第i类特征的分类结果，i为整数，i∈[1,N]。可理解的，当i取1至N中不同的值时，表示N个全连接子网中的不同全连接子网。例如，当i＝1时，表示第一全连接子网；当i＝2时，表示第二全连接子网；当i＝3时，表示第三卷积子网；当i＝n时，表示第n全连接子网。

在一些实施例中，N个全连接子网中的每个全连接子网具有不同的结构。通过不同结构的全连接子网分别对接收到的特征图像进行分类处理以得到相应特征的分类结果。

示例的，第i全连接子网包括R _i个全连接层，R _i为大于或等于2的整数。在第i卷积子网对M个初始化图像进行卷积池化处理以得到第i类特征的图像后，将第i类特征的图像输出至第i全连接子网23i。第i全连接子网23i为与第i卷积子网22i相连接的全连接子网。第i全连接子网23i用于对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

可选的，当i取1至N中不同的值时，不同全连接子网包括的全连接层的个数可以相同也可以不同。由于不同的全连接子网包含了不同个数的全连接层，通过不同的全连接子网对不同特征图像进行分类处理以得到相应特征的分类结果，从而，确保较高分辨率的卷积特征图的分类处理，有效地提高了分类处理的精度。

可选的，不同结构的全连接子网可以并行连接。不同结构的全连接子网可以并行处理接收到的特征图像。

可选的，全连接子网接收到的特征图像的包括但不限于以下特征，例如，细节特征、轮廓特征和方向特征。

可理解的，不同结构的全连接子网分别对接收到的特征图像进行分类处理可以认为是不同的任务。

需要说明的是，本申请实施例提供的图像处理过程中的卷积处理、池化处理和分类处理的具体计算过程可以参考现有技术的阐述，不予赘述。本申请实施例提供的感知网络包括了多个卷积子网，以及与卷积子网连接的全连接子网，由于每个卷积子网和与该卷积子网连接的全连接子网共同处理一种特征类型的图像，因此，对于不同类型的任务的数据可以分别进行训练，保证了每个任务的输出结果最优，有效地提高了输出结果的精度。

下面通过具体示例对感知网络进行举例说明。如图3所示，为一实施例提供的感知网络的架构示意图。假设N＝3，感知网络300包括主干网络310、卷积网络320和全连接网络330。卷积网络320包括3个卷积子网。全连接网络330包括3个全连接子网。

主干网络310与3个卷积子网连接。3个卷积子网与3个全连接子网连接，即第一卷积子网321连接第一全连接子网331，第二卷积子网322连接第二全连接子网332，第三卷积子网323连接第三全连接子网333。

在一些实施例中，当i＝1时，假设K _i＝2，L _i＝1，第一卷积子网321包括2层卷积层和1层池化层，即第一卷积子网321包括第一卷积层、第二卷积层和第一池化层。

当i＝2时，假设K _i＝1，L _i＝1，第二卷积子网322包括1层卷积层和1层池化层，即第二卷积子网322包括第三卷积层和第二池化层。

当i＝3时，假设K _i＝2，L _i＝1，第三卷积子网323包括2层卷积层和1层池化层，即第三卷积子网323包括第四卷积层、第五卷积层和第三池化层。

当i＝1时，假设R _i＝3，第一全连接子网331包括第一全连接层、第二全连接层和第三全连接层。

当i＝2时，假设R _i＝2，第二全连接子网332包括第四全连接层和第五全连接层。

当i＝3时，假设R _i＝3，第三全连接子网333包括第六全连接层、第七全连接层和第八全连接层。

其中，主干网络310与第一卷积层连接，第一卷积层与第二卷积层连接，第二卷积层与第一池化层连接，第一池化层与第一全连接层连接，第一全连接层与第二全连接层连接，第二全连接层与第三全连接层连接。

主干网络310与第三卷积层连接，第三卷积层与第二池化层连接，第二池化层与第四全连接层连接，第四全连接层与第五全连接层连接。

主干网络310与第四卷积层连接，第四卷积层与第三池化层连接，第三池化层与第五卷积层连接，第五卷积层与第六全连接层连接，第六全连接层分别与第七全连接层和第八全连接层连接。

可选的，第一卷积子网的卷积核的取值T可以为128、256或512。第二卷积子网的卷积核的取值可以为0.5*T。第三卷积子网的卷积核的取值可以为2*T。

可选的，第一全连接层的维度值为1024、2048或4096；第二全连接层的维度值为1024、2048或4096；第三全连接层的维度值为1024、2048或4096；第四全连接层的维度值为1024、2048或4096；第五全连接层的维度值为1024、2048或4096；第六全连接层的维度值为1024、2048或4096；第七全连接层的维度值为1024、2048或4096；第八全连接层的维度值为1024、2048或4096。

主干网络310用于对获取到的第一图像进行卷积处理以得到M个初始化图像，并将M个初始化图像输出至3个卷积子网中的每个卷积子网，M为大于或等于1的整数。

第一卷积子网321用于对M个初始化图像进行卷积池化处理以得到细节特征的图像。

第一全连接子网331用于对细节特征的图像进行分类处理以得到细节特征的分类结果。

在一些实施例中，细节特征的图像可以是初始化图像的细节特征图像，也可以是初始化图像中的一个区域的细节特征图像。例如，感知网络300进行人脸识别时，初始化图像可以是一个人脸图像，左眼部位、右眼部位、鼻子部位、眉毛部位和嘴部位可以是初始化图像中的一个区域。

第一卷积子网321可以对初始化图像中的左眼部位进行卷积池化处理以得到左眼部位的细节特征的图像。第一全连接子网331可以对左眼部位的细节特征的图像进行分类处理以得到左眼部位的细节特征的分类结果。

第一卷积子网321可以对初始化图像中的右眼部位进行卷积池化处理以得到右眼部位的细节特征的图像。第一全连接子网331可以对右眼部位的细节特征的图像进行分类处理以得到右眼部位的细节特征的分类结果。

第一卷积子网321可以对初始化图像中的鼻子部位进行卷积池化处理以得到鼻子部位的细节特征的图像。第一全连接子网331可以对鼻子部位的细节特征的图像进行分类处理以得到鼻子部位的细节特征的分类结果。

第一卷积子网321可以对初始化图像中的眉毛部位进行卷积池化处理以得到眉毛部位的细节特征的图像。第一全连接子网331可以对眉毛部位的细节特征的图像进行分类处理以得到眉毛部位的细节特征的分类结果。

第一卷积子网321可以对初始化图像中的嘴部位进行卷积池化处理以得到嘴部位的细节特征的图像。第一全连接子网331可以对嘴部位的细节特征的图像进行分类处理以得到嘴部位的细节特征的分类结果。

第二卷积子网322用于对M个初始化图像进行卷积池化处理以得到轮廓特征的图像。

第二全连接子网332用于对轮廓特征的图像进行分类处理以得到轮廓特征的分类结果。

在一些实施例中，感知网络300进行人脸识别时，初始化图像可以是一个人脸图像。第二卷积子网322可以对脸部轮廓区域进行卷积池化处理以得到脸部轮廓特征的图像。第二全连接子网332可以对脸部轮廓特征的图像进行分类处理以得到脸部轮廓特征的分类结果。

第三卷积子网323用于对M个初始化图像进行卷积池化处理以得到方向特征的图像。

第三全连接子网333用于对方向特征的图像进行分类处理以得到方向特征的分类结果。

在一些实施例中，感知网络300进行人脸识别时，初始化图像可以是一个人脸图像。第三卷积子网323可以对脸部方向特征的图像进行卷积池化处理以得到脸部方向特征的图像。第三全连接子网333可以对脸部方向特征的图像进行分类处理以得到脸部方向特征的分类结果。可选的，方向特征的分类结果可以是根据第七全连接层的分类结果和第八全连接层的分类结果共同确定的。

在一些实施例中，方向特征可以采用三维空间的右手笛卡尔坐标中的俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)来表示。示例的，如图4所示，俯仰角围绕X轴旋转的。偏航角围绕Y轴旋转。翻滚角围绕Z轴旋转。俯仰角、偏航角和翻滚角的具体解释可以参考现有技术，不予赘述。

从而，通过感知网络300包括的主干网络310、卷积网络320和全连接网络330对脸部不同的区域的细节特征、脸部的轮廓特征和脸部的方向特征进行卷积池化处理和分类处理，可以获得高精度的脸部关键点和姿态，有效地提高了处理图像的精度。平均误差(mean error)越小表示精度越高，效果越好。

如表1所示，多任务神经网络和本申请实施例所述的感知网络处理图像后的平均误差。

表1

	多任务神经网络	感知网络
标准化平均误差	8.6	7.2

如图5中的(a)所示，为多任务神经网络对图像处理后的结果，由图可以看出，识别出的脸部关键点较少，因此，脸部图像识别的准确率较低，平均误差较大。如图 5中的(b)所示，为感知网络对图像处理后的结果，由图可以看出，识别出的脸部关键点较多，因此，脸部图像识别的准确率较高，平均误差较小。

图6为本申请实施例提供的一种图像处理方法的流程图。该方法应用于感知网络，感知网络包括主干网络、卷积网络和全连接网络，卷积网络包括N个卷积子网，全连接网络包括N个全连接子网，主干网络与N个卷积子网连接，N个卷积子网与N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1,N]。关于感知网络的详细解释可以参考上述感知网络300的阐述，不予赘述。如图6所示，该方法可以包括：

S601、主干网络对第一图像进行卷积处理以得到M个初始化图像。

在一些实施例中，主干网络包括至少1层卷积层。主干网络可以根据第1层卷积层至第K层卷积层对第一图像进行卷积处理以得到M个初始化图像，K为大于或等于1的整数。示例的，K的取值为3或5。从而，通过选取前N层卷积层对第一图像进行卷积处理，能够最大程度地保留高分辨率的特征图像，有利于提高处理图像的精度。

S602、主干网络将M个初始化图像输出至N个卷积子网中的每个卷积子网。

M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数。

S603、第i卷积子网对M个初始化图像进行卷积池化处理以得到第i类特征的图像。

在一些实施例中，第i卷积子网包括K _i层卷积层和L _i层池化层，K _i和L _i均为大于或等于1的整数。第i卷积子网对M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到第i类特征的图像。由于不同的卷积子网包含了不同个数的卷积层和池化层，通过不同卷积子网对相同的图像进行不同次数的卷积池化处理以得到不同类型特征的图像，从而，保持较高分辨率的卷积特征图，有效地提高处理图像的精度。

S604、第i卷积子网将第i类特征的图像输出至第i全连接子网。

S605、第i全连接子网对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

在一些实施例中，第i全连接子网包括R _i个全连接层，R _i为大于或等于2的整数。由于不同的全连接子网包含了不同个数的全连接层，通过不同的全连接子网对不同特征图像进行分类处理以得到相应特征的分类结果，从而，确保较高分辨率的卷积特征图的分类处理，有效地提高了分类处理的精度。

关于图像处理过程中的其他解释可以参考上述关于感知网络300处理图像的阐述，不予赘述。

可以理解的是，为了实现上述实施例中功能，图像处理装置包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

图7和图8为本申请的实施例提供的可能的图像处理装置的结构示意图。这些图像处理装置可以用于实现上述方法实施例中主干网络、卷积网络和全连接网络的功能，因此也能实现上述方法实施例所具备的有益效果。在本申请的实施例中，该图像处理装置可以是终端设备，还可以是应用于终端设备的模块(如芯片)。终端设备可以是进行图像处理、人脸识别、图像分类等设备。例如，可穿戴设备、增强现实(augmented reality，AR)设备或虚拟现实(virtual reality，VR)设备。

可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

如图7所示，图像处理装置700包括处理单元710和收发单元720。图像处理装置700用于实现上述图6中所示的方法实施例中主干网络、卷积网络和全连接网络的功能。

当图像处理装置700用于实现图6所示的方法实施例中主干网络的功能时：收发单元720用于接收第一图像，并将M个初始化图像输出至N个卷积子网中的每个卷积子网，即执行S602；处理单元710用于对第一图像进行卷积处理以得到M个初始化图像，即执行S601。

当图像处理装置700用于实现图6所示的方法实施例中卷积网络的功能时：收发单元720用于接收M个初始化图像，并将第i类特征的图像输出至第i全连接子网，即执行S604；处理单元710用于对M个初始化图像进行卷积池化处理以得到第i类特征的图像，即执行S603。

当图像处理装置700用于实现图6所示的方法实施例中全连接网络的功能时：收发单元720用于接收第i类特征的图像；处理单元710用于对第i类特征的图像进行分类处理以得到第i类特征的分类结果。

有关上述处理单元710和收发单元720更详细的描述可以直接参考图6所示的方法实施例中相关描述直接得到，这里不加赘述。

如图8所示，图像处理装置800包括处理器810和接口电路820。处理器810和接口电路820之间相互耦合。可以理解的是，接口电路820可以为收发器或输入输出接口。可选的，图像处理装置800还可以包括存储器830，用于存储处理器810执行的指令或存储处理器810运行指令所需要的输入数据或存储处理器810运行指令后产生的数据。

当图像处理装置800用于实现图6所示的方法时，处理器810用于执行上述处理单元710的功能，接口电路820用于执行上述收发单元720的功能。

当上述图像处理装置为应用于终端设备的芯片时，该终端设备芯片实现上述方法实施例中终端设备的功能。该终端设备芯片从终端设备中的其它模块(如网卡、端口或摄像头)接收信息，该信息是图像信息。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(Central Processing Unit，CPU)，图形处理器(Graphics Processing Unit，GPU)、还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备或终端设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，SSD)。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。在本申请的文字描述中，字符“/”，一般表示前后关联对象是一种“或”的关系；在本申请的公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

Claims

一种感知网络，其特征在于，所述感知网络包括主干网络、卷积网络和全连接网络，所述卷积网络包括N个卷积子网，所述全连接网络包括N个全连接子网，所述主干网络与所述N个卷积子网连接，所述N个卷积子网与所述N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1,N]；

所述主干网络用于对第一图像进行卷积处理以得到M个初始化图像，并将所述M个初始化图像输出至所述N个卷积子网中的每个卷积子网，所述M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数；

所述第i卷积子网用于对所述M个初始化图像进行卷积池化处理以得到第i类特征的图像，并将所述第i类特征的图像输出至所述第i全连接子网；

所述第i全连接子网用于对所述第i类特征的图像进行分类处理以得到所述第i类特征的分类结果。
根据权利要求1所述的感知网络，其特征在于，所述主干网络包括至少1层卷积层，所述主干网络用于：

根据第1层卷积层至第K层卷积层对所述第一图像进行卷积处理以得到所述M个初始化图像，K为大于或等于1的整数。
根据权利要求2所述的感知网络，其特征在于，K的取值为3或5。
根据权利要求1-3中任一项所述的感知网络，其特征在于，所述第i卷积子网包括K _i层卷积层和L _i层池化层，所述K _i和L _i均为大于或等于1的整数；

所述第i卷积子网用于对所述M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到所述第i类特征的图像；

所述第i全连接子网包括R _i个全连接层，所述R _i为大于或等于2的整数。
根据权利要求4所述的感知网络，其特征在于，N＝3，第一卷积子网包括第一卷积层、第二卷积层和第一池化层，第二卷积子网包括第三卷积层和第二池化层，第三卷积子网包括第四卷积层、第五卷积层和第三池化层，第一全连接子网包括第一全连接层、第二全连接层和第三全连接层，第二全连接子网包括第四全连接层和第五全连接层，第三全连接子网包括第六全连接层、第七全连接层和第八全连接层；其中，

所述主干网络与所述第一卷积层连接，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述第一池化层连接，所述第一池化层与所述第一全连接层连接，所述第一全连接层与所述第二全连接层连接，所述第二全连接层与所述第三全连接层连接；

所述主干网络与所述第三卷积层连接，所述第三卷积层与所述第二池化层连接，所述第二池化层与所述第四全连接层连接，所述第四全连接层与所述第五全连接层连接；

所述主干网络与所述第四卷积层连接，所述第四卷积层与所述第三池化层连接，所述第三池化层与所述第五卷积层连接，所述第五卷积层与所述第六全连接层连接，所述第六全连接层分别与所述第七全连接层和所述第八全连接层连接。
根据权利要求5所述的感知网络，其特征在于，所述第一卷积子网的卷积核的取值T为128、256或512；所述第二卷积子网的卷积核的取值为0.5*T；所述第三卷积子网的卷积核的取值为2*T；所述第一全连接层的维度值为1024、2048或4096；所述第二全连接层的维度值为1024、2048或4096；所述第三全连接层的维度值为1024、2048或4096；所述第四全连接层的维度值为1024、2048或4096；所述第五全连接层的维度值为1024、2048或4096；所述第六全连接层的维度值为1024、2048或4096；所述第七全连接层的维度值为1024、2048或4096；所述第八全连接层的维度值为1024、2048或4096。
一种图像处理方法，其特征在于，应用于感知网络，所述感知网络包括主干网络、卷积网络和全连接网络，所述卷积网络包括N个卷积子网，所述全连接网络包括N个全连接子网，所述主干网络与所述N个卷积子网连接，所述N个卷积子网与所述N个全连接子网连接，第i卷积子网连接第i全连接子网，N为大于或等于2的整数，i为整数，i∈[1,N]；

所述主干网络对第一图像进行卷积处理以得到M个初始化图像，并将所述M个初始化图像输出至所述N个卷积子网中的每个卷积子网，所述M个初始化图像中每个初始化图像的特征不同，M为大于或等于1的整数；

所述第i卷积子网对所述M个初始化图像进行卷积池化处理以得到第i类特征的图像，并将所述第i类特征的图像输出至所述第i全连接子网；

所述第i全连接子网对所述第i类特征的图像进行分类处理以得到所述第i类特征的分类结果。
根据权利要求7所述的方法，其特征在于，所述主干网络包括至少1层卷积层，所述主干网络对第一图像进行卷积处理以得到M个初始化图像，包括：

根据第1层卷积层至第K层卷积层对所述第一图像进行卷积处理以得到所述M个初始化图像，K为大于或等于1的整数。
根据权利要求8所述的方法，其特征在于，K的取值为3或5。
根据权利要求7-9中任一项所述的方法，其特征在于，所述第i卷积子网包括K _i层卷积层和L _i层池化层，所述K _i和L _i均为大于或等于1的整数；

所述第i卷积子网对所述M个初始化图像进行卷积池化处理以得到第i类特征的图像，包括：

所述第i卷积子网对所述M个初始化图像进行K _i次卷积处理和L _i次池化处理以得到所述第i类特征的图像；

所述第i全连接子网包括R _i个全连接层，所述R _i为大于或等于2的整数。
根据权利要求10所述的方法，其特征在于，N＝3，第一卷积子网包括第一卷积层、第二卷积层和第一池化层，第二卷积子网包括第三卷积层和第二池化层，第三卷积子网包括第四卷积层、第五卷积层和第三池化层，第一全连接子网包括第一全连接层、第二全连接层和第三全连接层，第二全连接子网包括第四全连接层和第五全连接层，第三全连接子网包括第六全连接层、第七全连接层和第八全连接层；其中，

所述主干网络与所述第一卷积层连接，所述第一卷积层与所述第二卷积层连接，所述第二卷积层与所述第一池化层连接，所述第一池化层与所述第一全连接层连接，所述第一全连接层与所述第二全连接层连接，所述第二全连接层与所述第三全连接层连接；

所述主干网络与所述第三卷积层连接，所述第三卷积层与所述第二池化层连接，所述第二池化层与所述第四全连接层连接，所述第四全连接层与所述第五全连接层连接；

所述主干网络与所述第四卷积层连接，所述第四卷积层与所述第三池化层连接，所述第三池化层与所述第五卷积层连接，所述第五卷积层与所述第六全连接层连接，所述第六全连接层分别与所述第七全连接层和所述第八全连接层连接。
根据权利要求11所述的方法，其特征在于，所述第一卷积子网的卷积核的取值T为128、256或512；所述第二卷积子网的卷积核的取值为0.5*T；所述第三卷积子网的卷积核的取值为2*T；所述第一全连接层的维度值为1024、2048或4096；所述第二全连接层的维度值为1024、2048或4096；所述第三全连接层的维度值为1024、2048或4096；所述第四全连接层的维度值为1024、2048或4096；所述第五全连接层的维度值为1024、2048或4096；所述第六全连接层的维度值为1024、2048或4096；所述第七全连接层的维度值为1024、2048或4096；所述第八全连接层的维度值为1024、2048或4096。
一种图像处理装置，包括用于执行如权利要求7至12中的任一项所述的图像处理方法的模块。
一种图像处理装置，其特征在于，包括：至少一个处理器、存储器、总线和传感器，其中，所述存储器用于存储计算机程序，使得所述计算机程序被所述至少一个处理器执行时实现如权利要求7至12中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序或指令，当所述计算机程序或指令被通信装置执行时，实现如权利要求7至12中任一项所述的方法。