WO2022062164A1

WO2022062164A1 - 基于偏微分算子的广义等变卷积网络模型的图像分类方法

Info

Publication number: WO2022062164A1
Application number: PCT/CN2020/132017
Authority: WO
Inventors: 林宙辰; 何翎申; 沈铮阳; 徐大鹏
Original assignee: 北京大学
Priority date: 2020-09-23
Filing date: 2020-11-27
Publication date: 2022-03-31
Also published as: CN112257753B; CN112257753A

Abstract

一种基于偏微分算子的广义等变卷积网络模型的图像分类方法，利用群表示与偏微分算子构建等变卷积网络模型PDO-sCNNs，在卷积网络模型的卷积核上施加约束条件，使得卷积网络具有设定的对称性或等变性，用于高效的进行图像分类与识别视觉分析。采用本发明方法，利用微分算子和群表示求解出所有满足条件的等变卷积层，可以将任意一个已有CNN模型中的卷积层求解出的等变卷积，构建得到等变卷积网络模型，再用该模型进行图像分类识别，效果更佳。

Description

基于偏微分算子的广义等变卷积网络模型的图像分类方法

技术领域

本发明属于模式识别、机器学习、人工智能技术领域，涉及图像分类方法，具体涉及一种使用广义的基于偏微分算子的等变卷积网络模型的图像分类方法。

背景技术

在机器学习领域，卷积神经网络(CNNs)在2维图像的特征提取上表现出了强大的性能。大部分的研究一致认为，这种优异的特征提取能力是由于CNNs内禀的平移对称性。通过在整个平面内共享卷积核，CNNs可以实现平移等变性。在CNNs的平移等变性的启示下，大量的更加新颖的等变卷积网络被相应的提出。通常而言，在相同的任务上，能够深刻挖掘数据的对称性的等变网络能够比非等变网络具有更强的性能。

随着机器学习社区对等变网络的重视，大量的等变网络被提出，因此，一些问题引起了广泛的关注：例如，设计等变网络有没有一种统一的方法，即，给定数据集以及相应的对称性，能否使用统一的方法设计出等变网络从而降低开发人员的设计难度？另外，最广义的等变网络是否存在？

Cohen提出了一种在齐次空间中的广义等变网络的理论，这种理论根据输入输出特征的群表示类型，可以找出所有满足等变条件的卷积网络，之前所提出的几乎所有的等变网络，都可以被涵盖在这个框架下。该工作的缺陷是由于整个理论体系是建立在连续的卷积上的，为了保证卷积操作的精确性，在离散格点上，需要使用一些特殊的手段来避免离散近似带来的锯齿效应，这些问题反映在了后续工作(General E(2)-Equivariant Steerable CNNs)中，该工作使用基于球谐函数的steerable(可控)卷积核来避免锯齿效应。然而，在离散化时，该方法需要用较大的卷积核来确保等变性，这会带来很大的计算代价；另外，这个方法只能局限于旋转群，对于尺度变换，这套卷积核并不具有等变性，因此，难以让网络具有更多的对称性。之前，沈铮阳等人提出了基于偏微分算子的旋转等变网络模型方法，但该方法并不是通用方法，其输出输出特征的群表示类型只能是trivial型和regular型，并且，只适用于离散的旋转群，无法处理S0(2)，O(2)以及伸缩群S。

发明内容

为了克服上述现有技术的不足，本发明提供基于偏微分算子的广义等变卷积网络模型的图像分类方法，利用偏微分算子设计各种类型的等变卷积网络模型，称为基于偏微分算子的广义等变卷积网络模型PDO-sCNNs(partial diffrential operator based steerable CNNs)，用于高效的图像分类与识别等视觉分析。

本发明通过在卷积网络的卷积核上施加约束条件，从而使得卷积网络具有事先设定的对称性/等变性，建立的基于偏微分算子等变卷积网络模型在具有相应内在对称性的图像数据上具有更强的图像识别能力。

本发明提供的技术方案是：

一种基于偏微分算子的广义等变卷积网络模型PDO-sCNNs的图像分类方法，利用群表示与偏微分算子构建等变卷积网络模型，在卷积网络模型的卷积核上施加约束条件，使得卷积网络具有事先设定的对称性或等变性，用于高效的进行图像分类与识别等视觉分析，包括以下步骤：

1)将图像数据分为训练样本和测试样本；

2)对训练样本图像进行预处理，进行标准图像增强；

可采用标准图像增强技术，如在图像每边增加4个零值像素，再进行随机裁剪；对图像进行随机水平旋转；对图像进行随机中心旋转；

3)构建基于偏微分算子的广义等变卷积网络模型并进行训练：

可以选用一个任意已有的卷积网络模型CNN骨架，如VGG，ResNet等，作为骨架网络。骨架网络中的卷积操作为具有相应等变性的卷积操作。构建等变卷积和对等变卷积参数初始化包括如下步骤：

31)确定等变卷积网络模型的等变群，确定等变卷积网络模型具有对称性；

建立PDO-sCNNs之前，首先确定整个模型需要具有的对称性，一般在图像数据中，可以旋转对称群(如0(2)，SO(2))和尺度对称群S。

32)确定等变网络模型各个层的变换类型：

每一层都需要事先指定一个变换类型来刻画群如何作用于这些层。这个变换类型通过群表示来确定：

假设G是变换群，ρ是变换群G的一个群表示，也就是，G→GL(V)且ρ(g ₁g ₂)＝ρ(g ₁)ρ(g ₂)，那么某一层f应该按照如下的方式变换：

其中，每一层都有一个相关的群表示ρ唯一的确定了该层如何变换。由群表示论，紧群的群表示都等价于不可约表示的直和，因此，选择某一层的变换类型时，相当于选择一些不可约表示，然后将这些不可约表示合并起来，这里多个不可约表示的和可以类比于普通卷积的选择网络的多通道。

33)构建等变网络模型每一层的等变基：

为了使得整个网络是等变的，需要每一层都是等变的，即，输入按照输入层的群表示变换时，该层的输出应该按照输出层的群表示变换。这里，整个卷积层使用偏微分算子来进行建模：

其中，f ₁是输入层，d _i表示一个微分算子

a _i是相应的线性变换，可以理解为对应微分算子d _i的系数。Ψ为等变，需要a _i满足一个线性约束，因此，所有满足等变条件的系数位于一个线性空间中，需要将这个线性空间的基找出来，在网络训练过程中，这些基固定，对应的系数是可学习的。在求这些基之前，先引入一个由微分算子导出的群表示

用来描述坐标变换下微分算子的变换(假设h是一个光滑函数)：

具体的形式可以通过链式法则求出，Γ表示微分算子的集合。

对于旋转群，所有的a _i都是有限维空间的线性变换，可以直接视作为矩阵，将所有的a _i放在一起，构成一个大矩阵A，满足A _m，iN+n＝(a _i) _mn，n是a _i输入的维度，m是a _i输出的维度。假设ρ ₀是输出层关联的群表示，ρ ₁是输出层关联的群表示，那么，满足等变条件的系数a _i满足如下方程：。

(

与ρ ₀(g)′分别表示

与ρ ₀(g)的转置)。因此，只需要解出这个方程的基础解即可。该方程的基础解即等变条件的系数。

对于尺度变换群，由于尺度变换群是无穷维空间，这里主要给出两种变换类型之间的等变基(等变条件的系数)，一种是trivial平凡型表示，一种是regular正常型表示。平凡型表示时，

正常型表示时，相当于在整个群的一个轮换，

为了称述更简便，这里引入σ _i用来表示微分算子d _i的阶，那么我们可以得到，输入层是trivial平凡型表示，输出层是regular正常型表示时，满足等变条件的系数(等变基)为：

其中，β _i可以是任意常数，Z表示所有整数的集合。

如果输入层与输出层都是regular表示，满足等变条件的系数为：

其中γ _i，m-n可以是任意常数。在求得了等变基之后，通过Weiler在Learning Steerable Filters for Rotation Equivariant CNNs中提出的广义何凯明初始化方法初始这些求得的等变基前面的系数。在训练的过程中，等变基固定，训练这些等变基前面的系数。

34)将构建并初始化的等变卷积作为CNN模型中的输入卷积层和中间卷积层，即得到等变CNN模型，全连接层之前通过Cohen在Group equivariant convolutional neural network中提出的群池化层，使得整个网络保持群不变性，最后经过全连接层输出结果，再利用训练样本图像对该等变CNN模型进行训练。

本发明具体实施时，全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005，动量为0.9。该等变的CNN模型可以在深度学习框架pytorch下实现。

本发明具体实施时，均采用反向传播算法，用带Nesterov动量的随机梯度下降算法进行等变CNN模型训练。训练过程迭代200轮，批大小为128，即每128张图片为一个批次。学习速率初始值为0.2，在60，120，160分别将学习率除以10。

4)利用步骤3)构建并训练好的等变CNN模型，对测试图像样本进行识别，得到预测的图像分类标签，由此实现图片分类识别，其中测试样本无需经过图像预处理。

本发明的有益效果是：

本发明提供了一种使用广义的基于偏微分算子的等变CNN模型PDO-sCNNs的图像分类方法。我们利用微分算子和群表示论作为数学工具，求解出所有满足条件的等变卷积层。在具体实施中，我们可以将任意一个已有CNN模型中的卷积层采用本发明求解出的等变卷积，得到一个等变的CNN模型，最后用该模型进行图像识别。

本发明提出的网络结构不仅能够使得网络具有更多的等变性，同时也可以有效的降低之前的一些等变方法的计算开销。在图像识别任务数据集旋转MNIST，scale-MNIST和STL-10上，本发明与传统的卷积模型以及一些现有的等变卷积如E2-CNN、SESN相比，都取得了明显更好的分类效果。

附图说明

图1是卷积神经网络模型处理图像的等变性的示意图；

其中，将变换g作用在映射的输入上，即作用方式为π _g，然后再通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(即作用方式为π′ _g)相同。

图2是本发明具体实施实现使用广义的基于偏微分算子的等变卷积网络模型进行图像分类的方法流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种使用广义的基于偏微分算子的等变卷积网络模型PDO-sCNNs的图像分类方法，利用偏微分算子和群表示论设计出等变的卷积网络模型，用于高效的进行图像分类与识别等视觉分析。包括以下步骤：

步骤1：将图像数据分为训练样本和测试样本，本实施例所有数据集为STL10数据集，由96×96的RGB图片组成，其中包含8k的训练集数据以及10k的测试集数据，类别分别为10类。

步骤2：对训练样本图像进行标准图像增强以及cutout操作。标准图像增强操作包括：在图片每边增加4个零值像素，然后进行随机裁剪，即对原图平移若干个像素；对图片进行随机水平翻转。Cutout是将图片中的一个小的部分设置为0。

步骤3：将数据增强过的训练样本通过本发明得到的等变CNN模型进行训练。本发明所述的等变性可以这么理解：将变换g作用在映射的输入上(作用方式为π _g)然后通过映射Ψ得到的结果，应该与通过映射Ψ再经过变换g(作用方式为π′ _g)相同。等变性的示意图为附图1。容易看出，如果神经网络的每一层都是等变的，那么这种等变性会在整个网络中得到维护。事实上，我们可以选用任意一个已有的CNN架构，然后将其中的输入卷积层和中间卷积层采用本发明构建的基于偏微分算子设计的等变卷积，得到一个等变的CNN模型。在本实施例中，我们选用ResNet作为网络基本架构。其中，构建等变卷积和对等变卷积参数初始化的步骤如下：

步骤一：确定等变卷积网络模型的等变群

建立PDO-sCNNs之前，首先确定整个模型需要具有的对称性，一般在图像数据中，可以旋转对称群如0(2)，SO(2)和尺度对称群S。

步骤二：确定等变网络模型各个层的变换类型

每一层都需要事先指定一个变换类型来刻画群如何作用与这些层。这个变换类型通过群表示来确定：

假设G是变换群，ρ是群G的一个表示，i.e.G→GL(V)且ρ(g ₁g ₂)＝ρ(g ₁)ρ(g ₂)，那么某一层f应该按照如下的方式变换：

其中，每一层都有一个相关的表示ρ唯一的确定了该层如何变换。由群表示论，紧群的群表示都等价于不可约表示的直和，因此，选择某一层的变换类型时，相当于选择一些列不可约表示，然后将这些表示合并起来，这种表示可以类比于普通卷积的选择网络的多通道。

步骤三：构建每一层的等变基

其中，f ₁是输入层，d _i表示一个微分算子

a _i是相依的线性变换，可以理解为对应微分算子d _i的系数。Ψ等变，需要a _i满足一个线性约束，因此，所有满足等变条件的系数位于一个线性空间中，需要将这个线性空间的基找出来，在网络的训练过程中，这些基的系数是可学习的。在求这些基之前，先引入一个由微分算子导出的表示

用来描述坐标变换下微分算子的变换(假设h是一个可微函数)：

对于旋转群，所有的a _i都是有限维空间的线性变换，可以直接视作为矩阵，将所有的a _i放在一起，构成一个大矩阵A，满足A _m，iN+n＝(a _i) _mn，N是a _i输入的维度，M是a _i都输出的维度。假设表示ρ ₀是输出层关联的表示，ρ ₁是输出层关联的表示，那么，多有满足条件的系数满足如下方程：

(

与ρ ₀(g)′分别表示

与ρ ₀(g)的转置)。因此，只需要解出这个方程的基础解系即可。

对于尺度变换群，由于尺度变换群是无穷维空间，这里主要给出两种变换类型之间的等变基，一种是trivial表示，一种是regular表示，平凡型表示时，

正常型表示时，这个表示相当于在整个群的一个轮换，

为了称述更简便，这里引入σ _i用来表示微分算子d _i的阶，那么我们可以得到，输入层是trivial表示，输出层是regular表示时，满足等变条件的系数为：

其中β _i可以是任意常数，Z表示所有整数的集合。

其中γ _i，m-n可以是任意常数。

我们将式(1)中的微分算子离散化，得到新的算子

该算子实际上是一个卷积操作，它的形式为：

其中Γ是所有用到微分算子的索引，a _i和(1)中的是相同的，

是和微分算子a _i相对应的卷积，

是输入的图像，它的形式列举在表1和表2中。

表1 3*3卷积的九种形式

表2 5*5卷积的六种形式

表1和表2中，具体来说，

为与1

对应的卷积，

为与

对应的卷积，

为与

对应的卷积，……，

为与

对应的卷积。

步骤4：将测试样本(无需进行图像预处理)分别通过训练好的网络进行识别，得到预测的分类标签。

本发明中的模型均使用反向传播算法，利用带Nesterov动量的随机梯度下降算法进行训练，动量为0.9。每一个模型训练过程迭代200轮，批处理大小为128，即每128张图片为一个批次。学习速率初始值为0.2，在第60，120，160时将学习率除以10。权重衰减因子为0.0005。

在实施例中，我们将ResNet中的卷积层相应替换成本发明中的等变卷积，其中，我们采用了两种对称群，一种时离散旋转群D8，即包括所有pi/4的所有群转和一个反射变换，另一个一种在D8的基础上，进一步包含了尺度变换群，尺度变换参数设置为0.9。

表1给出了本发明模型PDO-sCNNs和其他模型在STL10数据集上的图像分类错误率比较：

表1

模型	等变群	参数量	错误率(％)
Wide ResNet	Z2	11M	11.48
E2-CNN	D8×Z2	12M	9.80
Scale equivariant net	S×Z2	11M	8.51
PDO-sCNNs	D8×S×Z2	2.5M	8.49
PDO-sCNN	D8×Z2	10M	7.94

从表中可以看出，在网络内部，融入了对称性和等变性的网络结构能够显著提升性能， E2-CNN融入了旋转对称性，Scale equivariant net融入了尺度对称性，相比于只有平移对称性的Wide ResNet，在相同的参数量下达到更优的准确率，目前，scale equivariant net是在stl10数据集上的该设置下最优的网络。由本发明使用的微分算子在更多的变换下可控，因此可以同时融入尺度和旋转变换，相比之前的最优网络，能够在只需25％的参数量的情况下达到之前的最优的性能，同时可以看到，在将参数量提升至一个水平的情况下，本发明的方法只需融入旋转对称性，可以达到新的最优性能，比之前的最优还要提升0.5％，注意这里所有网络使用的网络结构都是相同的，区别仅仅在卷积核上。总的来说，我们的新发明不仅能够进一步压缩参数量，还能够提升网络性能。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种基于偏微分算子的广义等变卷积网络模型的图像分类方法，利用群表示与偏微分算子构建等变卷积网络模型PDO-sCNNs，在卷积网络模型的卷积核上施加约束条件，使得卷积网络具有设定的对称性或等变性，用于高效的进行图像分类与识别视觉分析；包括以下步骤：

2)将图像数据分为训练样本和测试样本；

2)对训练样本图像进行预处理，进行标准图像增强；

3)以任意卷积网络模型CNN骨架作为骨架网络，骨架网络中的卷积操作为具有相应等变性的卷积操作，构建基于偏微分算子的广义等变卷积网络模型并进行训练；包括如下步骤：

31)确定等变卷积网络模型的等变群，确定等变卷积网络模型具有对称性；

32)通过群表示确定等变网络模型各个层的变换类型：

等变网络模型某一层f按如下方式变换：

其中，G是变换群；ρ是变换群G的一个群表示，每一层均有相关的群表示ρ唯一确定该层如何变换；选择某一层的变换类型时，即选择一些列不可约表示，然后将这些列不可约表示合并起来；

33)构建等变网络模型每一层的等变基：

卷积层使用偏微分算子进行建模，使得网络是等变网络，即当输入按照输入层的群表示变换时，每一层的输出按照输出层的群表示变换：

其中，f ₁是输入层；d _i表示一个微分算子
a _i是相应的线性变换，为对应微分算子d _i的系数；Ψ为等变；a _i需满足一个线性约束，满足等变条件的系数位于一个线性空间中；

引入由微分算子导出的群表示
用于描述坐标变换下微分算子的变换，表示为：

具体的形式通过链式法则求出；Γ表示微分算子的集合；h是一个光滑函数

对于旋转群，所有a _i均为有限维空间的线性变换，所有a _i构成一个矩阵A，满足A _m，iN+n＝(a _i) _mn，n是a _i输入的维度，m是a _i输出的维度；

设满足等变条件的系数满足如下方程：

其中，ρ ₀是输出层关联的群表示；ρ ₁是输出层关联的群表示；该方程的基础解即等变条件的系数；
与ρ ₀(g)′分别表示
与ρ ₀(g)的转置；

求得尺度变换群两种变换类型之间的等变基；在求得等变基之后，对求得的等变基前面的系数进行初始化；在训练的过程中，等变基固定，训练等变基前面的系数；

34)将构建并初始化的等变卷积作为CNN模型中的输入卷积层和中间卷积层，即得到等变CNN模型；

35)利用训练样本图像对步骤3)构建的等变CNN模型进行训练；

4)测试样本无需经过图像预处理；利用步骤3)构建并训练好的等变CNN模型，对测试图像样本进行识别，得到预测的图像分类标签；

由此实现基于偏微分算子的广义等变卷积网络模型的图像分类识别。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，步骤2)对训练样本图像进行预处理包括采用标准图像增强技术进行标准图像增强，再进行随机裁剪；对图像进行随机水平旋转；对图像进行随机中心旋转。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，步骤3)构建基于偏微分算子的广义等变卷积网络模型选用作为骨架网络的卷积网络模型CNN骨架包括VGG和ResNet。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，步骤31)中，模型需要具有对称性包括旋转对称群和尺度对称群。
如权利要求4所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，步骤33)构建等变网络模型每一层的等变基，对于尺度变换群，两种变换类型之间的等变基为平凡型表示和正常型表示；平凡型表示时，
ρ(g)＝I；正常型表示时，
ρ _ij＝δ _i，gj；

当输入层是平凡型表示，输出层是regular正常型表示时，满足等变条件的系数为：

其中，σ _i表示微分算子d _i的阶；β _i是任意常数；Z表示所有整数的集合；

当输入层与输出层均为regular表示，满足等变条件的系数为：

其中，γ _i，m-n是任意常数。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，在求得等变基之后，具体通过广义何凯明初始化方法初始求得的等变基前面的系数。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，全连接层参数初始化方式为Xavier初始化方式。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，等变的CNN模型在深度学习框架pytorch下实现，权重衰减因子为0.0005，动量为0.9。
如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，采用反向传播算法，用随机梯度下降算法进行等变CNN模型训练。
如权利要求9所述基于偏微分算子的广义等变卷积网络模型的图像分类方法，其特征是，训练过程迭代200轮，批大小为128，学习速率初始值为0.2。