WO2021184466A1

WO2021184466A1 - 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Info

Publication number: WO2021184466A1
Application number: PCT/CN2020/084650
Authority: WO
Inventors: 林宙辰; 沈铮阳; 何翎申
Original assignee: 北京大学
Priority date: 2020-03-17
Filing date: 2020-04-14
Publication date: 2021-09-23
Also published as: CN111401452B; CN111401452A

Abstract

一种基于偏微分算子的等变卷积网络模型的图像分类方法，针对卷积网络模型的输入层和中间层，基于偏微分算子分别设计输入层的等变卷积和中间层的等变卷积，构建等变卷积网络模型PDO-eConv，并进行模型训练；模型PDO-eConv输入为图像数据，输出为图像的预测分类，从而实现高效地进行图像分类识别视觉分析。该方法能够提供更好的参数共享机制，达到更低的图像分类错误率。

Description

一种基于偏微分算子的等变卷积网络模型的图像分类方法

技术领域

本发明属于模式识别、机器学习、人工智能技术领域，涉及图像分类方法，具体涉及一种基于偏微分算子的等变卷积网络模型的图像分类方法。

背景技术

在过去的几年中，卷积神经网络(CNN)模型已成为用于图像识别任务的主要机器学习方法。与全连接网络相比，采用CNN处理图像的一个显着优势是它们是平移等变的：先将图像平移然后通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。换句话说，每一层都保持了平移对称性，即等变性。同样，等变性带来了权重共享，通过它可以更有效地使用参数。

为了在用神经网络提取特征时，能够保持更多的对称性，已有工作包括Cohen和Welling(Group equivariant convolutional networks)提出的群等变卷积网络(G-CNN)，该工作展示了如何推广卷积网络，以利用更多对称性，包括旋转和反射。G-CNN在群p4m或p4上具有等变性。一般地，用pnm表示由平移，反射和旋转2π/n这些元素生成的群,其中p代表旋转，n代表旋转变换的个数，m代表反射变换；用pn表示仅由平移和旋转2π/n生成的群。当n给定时，即得到一个具体的群，如群p4m和群p4。进一步地，Hoogeboom等人提出了HexaConv,并展示了如何在六角形格子,而不是正方形格子,上实现群等变卷积操作。相应地，等变性扩展到群p6m(即旋转变换的个数为6的由平移、反射和旋转π/3生成的群)上。但是，由于很难找到除了正方形和六边形网格的其他离散晶格形式，很难用相似的方式设计出对除了π/4和π/3的更小旋转角度等变的CNN。

由于在2D平面上的晶格上似乎没有更多的旋转对称性，因此一些工作致力于设计对于更大的群近似等变的网络结构。Zhou等人提出了定向响应网络ORN(Oriented response networks),它在卷积过程中旋转滤波器并生成具有位置和方向编码的特征图。然而，它从本质上就是近似等变的网络。Weiler等人提出了基于可操纵滤波器(卷积)的SFCNN(Learning steerable filters for rotation equivariant CNNs)。如果将输入数据看作是连续的，它达到的等变性是确切的。然而在实现中，SFCNN需要用很大的卷积核来逼近可操纵滤波器，这会带来较大的计算负担，并且等变性也变为近似的。即使如此，一些边缘信息也会被舍弃，使得等变性不够精确。

事实上，也有一些工作利用偏微分算子来设计等变的特征提取器，用在图像识别任务上。Liu等人将一系列等变的偏微分算子线性加权，设计出了一种可学习的偏微分方程(Toward designing intelligent PDEs for computer vision:An optimal control approach)，它本身就是平移和旋转等变的。Fang等人将该技术应用到人脸识别任务上(Feature learning via partial differential equation with applications to face recognition)。但是，总体说来，可学习偏微分方程的模型表达能力远远比不上CNN网络，因此，图像识别效果也不够理想。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于偏微分算子的等变卷积网络模型的图像分类方法，利用偏微分算子设计得到等变的卷积网络模型,取名为PDO-eConv(partial diffrential operator based equivariant convolution)，用于高效的进行图像分类与识别等视觉分析。

本发明针对卷积网络模型的输入层和中间层，利用偏微分算子分别设计了两种等变卷积层。将该两种等变卷积层分别作为任意一个已有的CNN模型中的输入层和中间层，即得到一个等变的CNN模型，它的输入为图像数据，输出为图像的预测分类。

本发明提供的技术方案是：

一种基于偏微分算子的等变卷积网络模型PDO-eConv的图像分类方法，利用偏微分算子设计出等变的CNN模型，用于高效的进行图像分类与识别等视觉分析，包括以下步骤：

1)将图像数据分为训练样本和测试样本；

2)对训练样本图像进行预处理，进行标准图像增强；

可采用标准图像增强技术，如在图像每边增加4个零值像素，再进行随机裁剪；对图像进行随机水平旋转；对图像进行随机中心旋转；

3)构建基于偏微分算子的等变卷积网络模型并进行训练：

可以选用一个任意已有的卷积网络模型CNN架构，针对卷积网络模型的输入层和中间层，利用偏微分算子分别设计两种等变卷积，即构建等变卷积的输入层和等变卷积的中间层。构建等变卷积和对等变卷积参数初始化包括如下步骤：

31)确定等变卷积网络模型的等变群：

在构建等变算子前，需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中，通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换，设等变群S为pnm；若仅考虑旋转和平移变换两种变换，设等变群S为pn(由平移和旋转2π/n生成的群)。

32)构建输入层的等变卷积：

定义微分算子族Ψ ^(A),A∈S为：

其中，H(·,·)是一个二元多项式，

和

表示两个依赖于A的微分算子，它们的具体形式如下：

上式中，β＝{β ₁，β ₂，…，β ₉}是多项式中各项系数的集合,也是后续生成的等变卷积中的参数。A是属于等变群S的正交矩阵，式(2)中的x和y分别对应式(1)中的

和

将式(2)和式(3)代入式(1)，可以得到微分算子Ψ ^(A),A∈S,实际上是关于

和

的二元多项式。将该多项式中涉及到的所有微分算子离散化，得到

(具体方式在实施例步骤3第2)步中进一步详述)，即得到用来处理输入数据的等变卷积。

33)构建中间层的等变卷积：

定义微分算子族

为：

其中多项式H _B为：

这里的下标B用来区分不同的多项式，不同主要体现在每一项的系数上，系数为β(B)＝{β ₁(B)，β ₂(B)，…，β ₉(B)}，B∈S。将式(4)中的微分算子离散化，得到新的算子

也就是用来处理中间层特征图的等变卷积。

34)等变卷积的初始化方式：

在32)和33)中，

和

均表示一组卷积，当A取值为I时，可得到

和

先用何凯明参数初始化方法He’s initializer(Delving deep into rectifiers:surpassing human-level performance on ImageNet Classification)初始化上述构造的输入层等变卷积中的偏微分算子(卷积)

和中间层等变卷积中的偏微分算子(卷积)

得到等变卷积的初始化值；然后用该初始化值反解出对应的等变卷积参数β或β(B)，并以反解得到的等变卷积参数β或β(B)的值作为对应的等变卷积真实的初始化值。

本发明中，全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005，动量为0.9。该等变的CNN模型可以在深度学习框架Tensorflow下实现。

将上述构建并初始化的输入层的等变卷积和中间层的等变卷积作为CNN模型中的输入卷积层和中间卷积层，即得到等变CNN模型。再利用训练样本图像对该等变CNN模型进行训练。

本发明具体实施时，均采用反向传播算法，用带Nesterov动量的随机梯度下降算法进行等变CNN模型训练。训练过程迭代300轮，批大小为128，即每128张图片为一个批次。学习速率初始值为0.1，在151至225轮学习速率为0.01，在226至300轮学习速率为0.001。

4)利用步骤3)构建并训练好的基于偏微分算子的等变CNN模型，对测试图像样本进行识别，得到预测的图像分类标签，由此实现图片分类识别，其中测试样本无需经过图像预处理。

本发明的有益效果是：

本发明提供了一种基于偏微分算子的等变CNN模型PDO-eConv的图像分类方法。我们利用偏微分算子设计出分别用于输入层和中间层的等变卷积。在具体实施中，我们可以将任意一个已有CNN模型中的卷积层采用本发明设计的等变卷积，得到一个等变的CNN模型，最后用该模型进行图像识别。

本发明提出的网络结构不仅具有等变性，也带来了更好的参数共享机制，能够显著提高参数利用率。在图像识别任务数据集旋转MNIST和CIFAR上，本发明与传统的卷积模型以及一些现有的等变卷积如G-CNN、HexaConv相比，都取得了明显更好的效果，它能够有效处理具有方向特征的图片数据，并且往往可以用更少的参数，在数据集上达到更低的分类错误率。

附图说明

图1是卷积神经网络模型处理图像的等变性的示意图；

其中，将变换g作用在映射的输入上，即作用方式为π _g，然后再通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(即作用方式为π' _g)相同。

图2是本发明具体实施实现基于偏微分算子的等变卷积网络模型进行图像分类的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于偏微分算子的等变卷积网络模型PDO-eConv的图像分类方法，利用偏微分算子设计出等变的卷积网络模型，用于高效的进行图像分类与识别等视觉分析。包括以下步骤：

步骤1：将图像数据分为训练样本和测试样本，本实施例所有数据集为CIFAR-10和CIFAR-100数据集，它们均由60,000张大小为32×32的RGB彩色图像组成，其中训练数据50,000张，测试数据10,000张，类别分别为10类和100类。

步骤2：对训练样本图像进行标准图像增强。标准图像增强操作包括：在图片每边增加4个零值像素，然后进行随机裁剪，即对原图平移若干个像素；对图片进行随机水平翻转。

步骤3：将数据增强过的训练样本通过本发明得到的等变CNN模型进行训练。本发明所述的等变性可以这么理解：将变换g作用在映射的输入上(作用方式为π _g)然后通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(作用方式为π' _g)相同。等变性的示意图为附图1。容易看出，如果神经网络的每一层都是等变的，那么这种等变性会在整个网络中得到维护。事实上，我们可以选用任意一个已有的CNN架构，然后将其中的输入卷积层和中间卷积层采用本发明构建的基于偏微分算子设计的等变卷积，得到一个等变的CNN模型。在本实施例中，我们选用ResNet作为网络基本架构。其中，构建等变卷积和对等变卷积参数初始化的步骤如下：

1)确定等变卷积网络模型的等变群：在构建等变算子前，需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中，我们通常要求图片对于旋转、反射、平移变换具有等变性。如果考虑这三种变换，我们设等变群E为pnm；如果仅考虑旋转和平移变换这两种变换，我们设等变群E为pn。这两种群在背景技术中已经介绍过。进一步地，我们记

其中

表示半直积，S是一个由正交变换组成的离散群。

2)构建输入层的等变卷积：

定义微分算子为：

其中

我们将式(1)中的微分算子离散化，得到新的算子

该算子实际上是一个卷积族，它的形式为：

其中Γ是所有用到微分算子的索引，

通过将式(2)和式(3)代入式(1)得到，

是和微分算子

相对应的卷积,它的形式列举在表1和表2中。

表1 3*3卷积的九种形式

表2 5*5卷积的六种形式

表1和表2中，具体来说，

为与1

对应的卷积，

为与

对应的卷积，

为与

对应的卷积，……，

为与

对应的卷积。

最后，对于输入图像数据I，等变卷积层的实现方式为：

需要注意的是，上述等变卷积是针对输入数据仅有一个通道的情况描述的。事实上，输入数据通常具有多个通道，如本实施例中的图像数据具有RGB三个通道。为了处理多通道数据，我们仅需要将式(1)中的多项式也相应的更改为多通道的多项式，自然地，式(4)中的卷积核

可以处理多通道的输入图像数据I。

3)构建中间层的等变卷积：

由于输入层等等变卷积提取的特征图额外具有正交变换S这一维度，中间层的等变卷积实施方式有所不同。具体地，我们定义微分算子

其中多项式H _B表示为：

这里的下标B用来区分不同的多项式，这种差异主要体现在每一项的系数上,所有的系数为β(B)＝{β ₁(B)，β ₂(B)，…，β ₉(B)}，B∈S。用和步骤2)中相同的方式将式(6)中的微分算子离散化，得到用来处理中间层特征图的等变卷积核，卷积实现方式为：

其中F∈R ^n×n×|S|是该中间层输入特征图,它是一个三维格点函数，其中|S|表示离散群S中的元素个数，F的上标代表它的正交变换维度索引。特别需要注意的是，如果在输入层中，我们用多个等变卷积来提取特征，那么我们在中间层得到的特征图也应当是多通道的(这种多通道区别于正交变换维度)。为了处理这一情况，我们同样地可以将式(6)中的多项式更改为多通道的多项式即可。

4)等变卷积的参数初始化方式：

对于输入层的等变卷积，我们考虑卷积核为：

然后用MSAR何凯明参数初始化方法初始化

然后用这个初始化的值求解线性方程式(9)得到其中参数β的初始化。对于中间层的等变卷积，我们用同样的方式初始化参数β(B)。

等变卷积层和全连接层是两种不相关的结构。本发明中，全连接层直接采用现有方法Xavier进行初始化。对本发明提出的等变卷积层，则采用以上具体的初始化方法。等变卷积的形式是卷积，本发明采用经典的MSAR初始化方法(也称作何凯明参数初始化方法)初始化其中的

和

另一方面，如式(9)所示，这两个卷积是由β和β(B)参数化的，因此我们用初始化的结果来求解式(9)表示的线性方程，可得到β和β(B)的初始化。也就是，等变卷积的参数就是β和β(B)，用何凯明初始化两个卷积只是一个中间步骤，最终目的是初始化β和β(B)。

步骤4：将测试样本(无需进行图像预处理)分别通过训练好的网络进行识别，得到预测的分类标签。

本发明中的模型均使用反向传播算法，利用带Nesterov动量的随机梯度下降算法进行训练，动量为0.9。每一个模型训练过程迭代300轮，批处理大小为128，即每128张图片为一个批次。学习速率初始值为0.1，在151至225轮学习速率为0.01，在226至300轮学习速率为0.001。等变卷积参数初始化方式为上述步骤3第4)步中特别提出的一种初始化方式，全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005。

在实施例中，我们将ResNet中的卷积层相应替换成本发明中的等变卷积。具体来说，ResNet包括一个输入层，三大组卷积层，其中第i组卷积层包括2n个卷积层，每个卷积层使用k _i个滤波器(或称等变卷积)，最后接一个分类器，因此共有6n+2层。为了公平的比较原始ResNet和改造后等变卷积模型的效果，我们需要相应的调整每层使用等变卷积的数量使得参数量大致相等。例如，对于ResNet-26，他的结构设置为n＝4,k _i＝16,32,64。如果我们要求本发明对于群p6(或p6m)是等变的，则需要将等变卷积滤波器数量相应的调整为k _i＝6,13,26(k _i＝4,9,18)。

表1给出了本发明模型PDO-eConv和其他模型在CIFAR数据集上的图像分类错误率比较：

表1

模型	等变群	深度	C10	C100	参数量
Network in Network	Z ²	-	8.81	35.67	-
All-CNN	Z ²	-	7.25	33.71	-
Deeply Supervised Net	Z ²	-	7.97	34.57	-
Highway Network	Z ²	-	7.72	32.39	-
ResNet	Z ²	26	11.5	31.66	0.37M
HexaConv	p6	26	9.98	-	0.34M
HexaConv	p6m	26	8.64	-	0.34M
PDO-eConv	p6	26	6.75	28.58	0.36M
PDO-eConv	p6m	26	6.33	27.95	0.36M
ResNet	Z ²	44	5.61	24.08	2.64M
G-CNN	p4m	44	4.94	23.19	2.62M
PDO-eConv	p8	44	4.31	21.41	2.62M
ResNet	Z ²	1001	4.92	22.71	10.3M
Wide ResNet	Z ²	26	4.19	20.50	36.5M
G-CNN	p4m	26	4.17	-	7.2M
PDO-eConv	p8	26	4.16	20.43	4.6M

从表中可以看出，和HexaConv相似，我们分别用在群p6和群p6m上等变的PDO-eConv作为原始网络模型中的卷积层，在相近参数量下，采用本发明方法的图像分类结果显著优于HexaConv的分类结果(图像分类错误率6.33％vs.8.64％)。此外，HexaConv需要额外的内存存储六边形网格图片，而本发明不需要。我们也将本发明与G-CNN对比，总的来说在相似参数量下，本发明也能达到更好的结果。和很深的ResNet还有Wide ResNet相比，本发明也在更少的参数量下达到了至少差不多的结果。特别地，和Wide ResNet相比，本发明仅用12.6％的参数就达到了相近的结果，这说明本发明能更有效的利用参数。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种图像分类识别方法，其特征在于，针对卷积网络模型的输入层和中间层，基于偏微分算子分别设计输入层的等变卷积和中间层的等变卷积，构建等变卷积网络模型PDO-eConv，并进行模型训练；模型PDO-eConv输入为图像数据，输出为图像的预测分类，从而实现高效地进行图像分类识别视觉分析；包括以下步骤：

1)将图像数据分为训练样本和测试样本；

2)对训练样本进行预处理，进行标准图像增强处理；

3)构建基于偏微分算子的等变卷积网络模型并进行训练：

针对任一卷积网络模型的输入层和中间层，利用偏微分算子分别构建用于输入层和中间层的等变卷积；构建等变卷积和对等变卷积参数初始化包括如下操作：

31)确定等变卷积网络模型的等变群S；等变群包括由旋转、反射、平移三种变换生成的变换群pnm和由旋转、平移两种变换生成的变换群pn；n为旋转变换的个数；

32)构建输入层的等变卷积，用于处理输入图像数据：

定义微分算子族Ψ ^(A),A∈S，表示为式(1)：

其中，A是属于等变群S的正交矩阵；H(·,·)是二元多项式，该二元多项式中各项系数的集合为β，是后续生成的输入层等变卷积中的参数；
和
表示两个依赖于A的微分算子；

将式(1)的Ψ ^(A)多项式中的所有微分算子离散化，得到新的算子，即得到输入层的等变卷积；

33)构建中间层的等变卷积，用于处理中间层特征图：

定义微分算子族
表示为式(4)：

其中，H _B为多项式；多项式H _B的各项系数的集合为β(B)，是后续生成的中间层等变卷积中的参数；

将式(4)中的微分算子离散化，得到新的算子，即得到中间层的等变卷积；

34)对等变卷积进行初始化：

先采用参数初始化方法初始化上述构造的输入层等变卷积和中间层等变卷积，得到等变卷积的初始化值；

然后用该初始化值反解出对应的等变卷积参数β或β(B)，作为对应的等变卷积真实的初始化值；

将上述构建并初始化的输入层的等变卷积和中间层的等变卷积作为卷积网络模型中的输入卷积层和中间卷积层，即得到等变卷积网络模型；

35)利用训练样本图像对该等变卷积网络模型进行训练，得到训练好的基于偏微分算子的等变卷积网络模型；

4)利用步骤3)构建并训练好的基于偏微分算子的等变卷积网络模型，对测试图像样本进行识别，得到预测的图像分类标签，由此实现图片分类识别，其中测试样本无需经过图像预处理。
如权利要求1所述的图像分类识别方法，其特征是，步骤2)对训练样本进行标准图像增强处理，具体采用标准图像增强技术，包括在图像的每边增加零值像素，再进行随机裁剪；对图像进行随机水平旋转；对图像进行随机中心旋转处理。
如权利要求1所述的图像分类识别方法，其特征是，步骤31)确定等变卷积网络模型的等变群：

当考虑旋转、反射、平移变换三种变换时，确定等变群S为pnm；

当仅考虑旋转和平移变换两种变换时，确定等变群S为pn。
如权利要求1所述的图像分类识别方法，其特征是，步骤32)中，二元多项式H(·,·)表示为式(2)：

两个依赖于A的微分算子
和
表示为式(3)：

式(2)中，多项式中各项系数的集合β＝{β ₁，β ₂，…，β ₉}；

步骤33)中，多项式H _B表示为式(5)：

其中，多项式H _B的各项系数的集合为β(B)＝{β ₁(B)，β ₂(B)，…，β ₉(B)}，B∈S。
如权利要求4所述的图像分类识别方法，其特征是，步骤32)得到新的算子的形式表示为：

其中，Γ是所有用到微分算子的索引，
通过将式(2)和式(3)代入式(1)得到；
是和微分算子
相对应的卷积；

对于输入图像数据I，等变卷积层的实现方式表示为式(7)：

步骤33)中间层等变卷积的实现方式表示为式(8)：

其中，F∈R ^n×n×|S|是输入特征图,是一个三维格点函数，其中|S|表示离散群S中的元素个数，F的上标代表正交变换维度索引。
如权利要求1所述的图像分类识别方法，其特征是，步骤34)中，具体采用何凯明参数初始化方法初始化输入层等变卷积中的偏微分算子和中间层等变卷积中的偏微分算子，得到初始化值；然后用该初始化值反解出对应的参数，并以此作为对应的等变卷积真实的初始化值。
如权利要求6所述的图像分类识别方法，其特征是，全连接层参数初始化方式为 Xavier初始化方式。
如权利要求7所述的图像分类识别方法，其特征是，权重衰减因子为0.0005，动量为0.9；具体采用深度学习框架Tensorflow实现。
如权利要求1所述的图像分类识别方法，其特征是，步骤35)具体采用反向传播算法，利用带Nesterov动量的随机梯度下降算法对该等变卷积网络模型进行训练。
如权利要求9所述的图像分类识别方法，其特征是，训练过程迭代300轮，批大小为128，即每128张图片为一个批次；学习速率初始值为0.1，在151至225轮学习速率为0.01，在226至300轮学习速率为0.001。