WO2021184466A1 - 一种基于偏微分算子的等变卷积网络模型的图像分类方法 - Google Patents

一种基于偏微分算子的等变卷积网络模型的图像分类方法 Download PDF

Info

Publication number
WO2021184466A1
WO2021184466A1 PCT/CN2020/084650 CN2020084650W WO2021184466A1 WO 2021184466 A1 WO2021184466 A1 WO 2021184466A1 CN 2020084650 W CN2020084650 W CN 2020084650W WO 2021184466 A1 WO2021184466 A1 WO 2021184466A1
Authority
WO
WIPO (PCT)
Prior art keywords
convolution
isovariant
image
equivariant
layer
Prior art date
Application number
PCT/CN2020/084650
Other languages
English (en)
French (fr)
Inventor
林宙辰
沈铮阳
何翎申
Original Assignee
北京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学 filed Critical 北京大学
Publication of WO2021184466A1 publication Critical patent/WO2021184466A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Definitions

  • the invention belongs to the technical fields of pattern recognition, machine learning, and artificial intelligence, and relates to an image classification method, in particular to an image classification method based on an equal variable convolution network model of a partial differential operator.
  • CNN convolutional neural network
  • G-CNN group equivariant convolutional network
  • Cohen and Welling Group equivariant convolutional networks. This work shows how to promote Convolutional networks to take advantage of more symmetry, including rotation and reflection.
  • G-CNN has equivariance on group p4m or p4.
  • pnm is used to represent the group generated by the elements of translation, reflection and rotation 2 ⁇ /n, where p represents rotation, n represents the number of rotation transformations, and m represents reflection transformation; pn represents only translation and rotation 2 ⁇ /n The generated group.
  • a specific group is obtained, such as group p4m and group p4.
  • Hoogeboom et al. proposed HexaConv and showed how to implement group equal variable convolution operations on a hexagonal grid instead of a square grid.
  • the equivariance is extended to the group p6m (that is, the group generated by translation, reflection, and rotation ⁇ /3 with the number of rotation transformations of 6).
  • group p6m that is, the group generated by translation, reflection, and rotation ⁇ /3 with the number of rotation transformations of 6
  • Zhou et al. proposed Oriented Response Networks (ORN), which rotates the filter during the convolution process and generates a feature map with position and direction encoding. However, it is essentially an approximately equivariant network.
  • ORN Oriented Response Networks
  • Weiler et al. proposed SFCNN (Learning Steerable Filters for Rotation Equivariant CNNs) based on steerable filters (convolution). If the input data is regarded as continuous, the equivariance it reaches is exact.
  • SFCNN needs to use a large convolution kernel to approximate the steerable filter, which will bring a greater computational burden, and the equivariance becomes approximate. Even so, some edge information will be discarded, making the equivariance not accurate enough.
  • the present invention provides an image classification method based on an equivariant convolutional network model based on partial differential operators.
  • the equivariant convolutional network model is designed by using partial differential operators, which is named PDO -eConv (partial diffrential operator based equivariant convolution), used for efficient visual analysis such as image classification and recognition.
  • PDO -eConv partial diffrential operator based equivariant convolution
  • the present invention uses partial differential operators to separately design two kinds of equal variable convolution layers.
  • the two isovariant convolutional layers are respectively used as the input layer and the middle layer in any existing CNN model to obtain an isovariant CNN model, whose input is image data, and its output is image prediction classification.
  • Standard image enhancement techniques can be used, such as adding 4 zero-value pixels on each side of the image, and then random cropping; random horizontal rotation of the image; random center rotation of the image;
  • the picture is usually required to have equivariability for rotation, reflection, and translation transformation. If we consider rotation, reflection, and translation transformations, let the equivariant group S be pnm; if only consider the two transformations of rotation and translation transformation, let the equivariant group S be pn (a group generated by translation and rotation 2 ⁇ /n).
  • H( ⁇ , ⁇ ) is a bivariate polynomial, with Denote two differential operators that depend on A, and their specific forms are as follows:
  • A is an orthogonal matrix belonging to the isovariant group S.
  • the x and y in equation (2) correspond to the equation in equation (1).
  • the subscript B here is used to distinguish different polynomials. The difference is mainly reflected in the coefficients of each term.
  • the fully connected layer parameter initialization mode is the Xavier initialization mode.
  • the weight decay factor is 0.0005, and the momentum is 0.9.
  • the equivariant CNN model can be implemented under the deep learning framework Tensorflow.
  • the equivariant convolution of the input layer and the equivariant convolution of the intermediate layer constructed and initialized above are used as the input convolution layer and the intermediate convolution layer in the CNN model to obtain the equivariant CNN model. Then use the training sample images to train the equivariant CNN model.
  • the back-propagation algorithm is adopted, and the equivariant CNN model training is performed by the stochastic gradient descent algorithm with Nesterov momentum.
  • the training process is iterated for 300 rounds, and the batch size is 128, that is, every 128 pictures is a batch.
  • the initial value of the learning rate is 0.1, the learning rate is 0.01 from 151 to 225 rounds, and the learning rate is 0.001 from 226 to 300 rounds.
  • step 3) to construct and train the equivariant CNN model based on partial differential operators to identify test image samples to obtain predicted image classification labels, thereby achieving image classification and recognition, where the test samples do not need to undergo image pre-processing. deal with.
  • the invention provides an image classification method based on a partial differential operator-based equivariant CNN model PDO-eConv.
  • PDO-eConv partial differential operators to design equivariant convolutions for the input layer and the middle layer.
  • the network structure proposed by the present invention not only has equivariability, but also brings a better parameter sharing mechanism, which can significantly improve parameter utilization.
  • the present invention has achieved significantly better results compared with the traditional convolution model and some existing equivariant convolutions such as G-CNN and HexaConv. It can be effective Process image data with directional characteristics, and often use fewer parameters to achieve a lower classification error rate on the data set.
  • Figure 1 is a schematic diagram of the convolutional neural network model processing image equivariance
  • mapping ⁇ g i.e., mode of action of ⁇ 'g
  • Fig. 2 is a block diagram of the process of implementing image classification based on a partial differential operator-based equivariant convolutional network model in a specific implementation of the present invention.
  • the present invention provides an image classification method based on a partial differential operator-based equivariant convolutional network model PDO-eConv.
  • the partial differential operator is used to design an equivariant convolutional network model for efficient image classification and recognition. Visual analysis. It includes the following steps:
  • Step 1 Divide the image data into training samples and test samples. All data sets in this embodiment are CIFAR-10 and CIFAR-100 data sets, which are composed of 60,000 RGB color images with a size of 32 ⁇ 32, among which the training data 50,000 sheets, 10,000 sheets of test data, and 10 categories and 100 categories.
  • Step 2 Perform standard image enhancement on the training sample image.
  • Standard image enhancement operations include: adding 4 zero-value pixels on each side of the picture, and then performing random cropping, that is, shifting the original picture by several pixels; and performing random horizontal flipping of the picture.
  • Step 3 Train the data-enhanced training samples through the equivariant CNN model obtained in the present invention.
  • the equivariance described in the present invention can be understood as follows: the result obtained by applying the transformation g on the input of the mapping (the action mode is ⁇ g ) and then the result obtained by the mapping ⁇ should be the same as the result obtained by the mapping ⁇ and then the transformation g (the action mode is ⁇ ' g ) Same.
  • the schematic diagram of the isometric is shown in Figure 1. It is easy to see that if each layer of the neural network is equivariant, then this equivariance will be maintained in the entire network.
  • the implementation manner of the equal-variant convolution of the middle layer is different. Specifically, we define the differential operator
  • the convolution implementation method is:
  • is the input feature map of the middle layer, which is a three-dimensional lattice point function, where
  • Equivariant convolutional layer and fully connected layer are two unrelated structures.
  • the fully connected layer directly uses the existing method Xavier for initialization.
  • the above specific initialization method is adopted for the equivariant convolutional layer proposed in the present invention.
  • the form of equal variable convolution is convolution.
  • the present invention uses the classic MSAR initialization method (also called He Kaiming parameter initialization method) to initialize the with
  • these two convolutions are parameterized by ⁇ and ⁇ (B), so we use the initialization result to solve the linear equation represented by equation (9), and ⁇ and ⁇ (B) can be obtained.
  • Initialization of ⁇ (B) That is, the parameters of equal variable convolution are ⁇ and ⁇ (B), and initializing the two convolutions with He Kaiming is only an intermediate step, and the ultimate goal is to initialize ⁇ and ⁇ (B).
  • Step 4 The test samples (without image preprocessing) are respectively identified through the trained network to obtain the predicted classification label.
  • the models in the present invention all use the back propagation algorithm, and use the stochastic gradient descent algorithm with Nesterov momentum for training, and the momentum is 0.9.
  • Each model training process is iterated for 300 rounds, and the batch size is 128, that is, every 128 pictures is a batch.
  • the initial value of the learning rate is 0.1, the learning rate is 0.01 from 151 to 225 rounds, and the learning rate is 0.001 from 226 to 300 rounds.
  • the constant variable convolution parameter initialization method is a special initialization method proposed in step 3 and 4) above, and the fully connected layer parameter initialization method is the Xavier initialization method.
  • the weight decay factor is 0.0005.
  • ResNet includes one input layer, three groups of convolutional layers, the i-th group of convolutional layers includes 2n convolutional layers, and each convolutional layer uses k i filters (or isovariant convolution) , And finally a classifier, so there are 6n+2 layers.
  • k i 16,32,64.
  • P6 or p6m
  • Table 1 shows the comparison of the image classification error rate of the model PDO-eConv of the present invention and other models on the CIFAR data set:
  • Model Isovariant group depth C10 C100 Parameter Network in Network Z 2 - 8.81 35.67 - All-CNN Z 2 - 7.25 33.71 - Deeply Supervised Net Z 2 - 7.97 34.57 - Highway Network Z 2 - 7.72 32.39 - ResNet Z 2 26 11.5 31.66 0.37M HexaConv p6 26 9.98 - 0.34M HexaConv p6m 26 8.64 - 0.34M PDO-eConv p6 26 6.75 28.58 0.36M PDO-eConv p6m 26 6.33 27.95 0.36M ResNet Z 2 44 5.61 24.08 2.64M G-CNN p4m 44 4.94 23.19 2.62M PDO-eConv p8 44 4.31 21.41 2.62M ResNet Z 2 1001 4.92 22.71 10.3M Wide ResNet Z 2 26 4.19 20.50 36.5M G-CNN p4m 26 4.17 - 7.2M PDO-eConv

Abstract

一种基于偏微分算子的等变卷积网络模型的图像分类方法,针对卷积网络模型的输入层和中间层,基于偏微分算子分别设计输入层的等变卷积和中间层的等变卷积,构建等变卷积网络模型PDO-eConv,并进行模型训练;模型PDO-eConv输入为图像数据,输出为图像的预测分类,从而实现高效地进行图像分类识别视觉分析。该方法能够提供更好的参数共享机制,达到更低的图像分类错误率。

Description

一种基于偏微分算子的等变卷积网络模型的图像分类方法 技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及图像分类方法,具体涉及一种基于偏微分算子的等变卷积网络模型的图像分类方法。
背景技术
在过去的几年中,卷积神经网络(CNN)模型已成为用于图像识别任务的主要机器学习方法。与全连接网络相比,采用CNN处理图像的一个显着优势是它们是平移等变的:先将图像平移然后通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。换句话说,每一层都保持了平移对称性,即等变性。同样,等变性带来了权重共享,通过它可以更有效地使用参数。
为了在用神经网络提取特征时,能够保持更多的对称性,已有工作包括Cohen和Welling(Group equivariant convolutional networks)提出的群等变卷积网络(G-CNN),该工作展示了如何推广卷积网络,以利用更多对称性,包括旋转和反射。G-CNN在群p4m或p4上具有等变性。一般地,用pnm表示由平移,反射和旋转2π/n这些元素生成的群,其中p代表旋转,n代表旋转变换的个数,m代表反射变换;用pn表示仅由平移和旋转2π/n生成的群。当n给定时,即得到一个具体的群,如群p4m和群p4。进一步地,Hoogeboom等人提出了HexaConv,并展示了如何在六角形格子,而不是正方形格子,上实现群等变卷积操作。相应地,等变性扩展到群p6m(即旋转变换的个数为6的由平移、反射和旋转π/3生成的群)上。但是,由于很难找到除了正方形和六边形网格的其他离散晶格形式,很难用相似的方式设计出对除了π/4和π/3的更小旋转角度等变的CNN。
由于在2D平面上的晶格上似乎没有更多的旋转对称性,因此一些工作致力于设计对于更大的群近似等变的网络结构。Zhou等人提出了定向响应网络ORN(Oriented response networks),它在卷积过程中旋转滤波器并生成具有位置和方向编码的特征图。然而,它从本质上就是近似等变的网络。Weiler等人提出了基于可操纵滤波器(卷积)的SFCNN(Learning steerable filters for rotation equivariant CNNs)。如果将输入数据看作是连续的,它达到的等变性是确切的。然而在实现中,SFCNN需要用很大的卷积核来逼近 可操纵滤波器,这会带来较大的计算负担,并且等变性也变为近似的。即使如此,一些边缘信息也会被舍弃,使得等变性不够精确。
事实上,也有一些工作利用偏微分算子来设计等变的特征提取器,用在图像识别任务上。Liu等人将一系列等变的偏微分算子线性加权,设计出了一种可学习的偏微分方程(Toward designing intelligent PDEs for computer vision:An optimal control approach),它本身就是平移和旋转等变的。Fang等人将该技术应用到人脸识别任务上(Feature learning via partial differential equation with applications to face recognition)。但是,总体说来,可学习偏微分方程的模型表达能力远远比不上CNN网络,因此,图像识别效果也不够理想。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于偏微分算子的等变卷积网络模型的图像分类方法,利用偏微分算子设计得到等变的卷积网络模型,取名为PDO-eConv(partial diffrential operator based equivariant convolution),用于高效的进行图像分类与识别等视觉分析。
本发明针对卷积网络模型的输入层和中间层,利用偏微分算子分别设计了两种等变卷积层。将该两种等变卷积层分别作为任意一个已有的CNN模型中的输入层和中间层,即得到一个等变的CNN模型,它的输入为图像数据,输出为图像的预测分类。
本发明提供的技术方案是:
一种基于偏微分算子的等变卷积网络模型PDO-eConv的图像分类方法,利用偏微分算子设计出等变的CNN模型,用于高效的进行图像分类与识别等视觉分析,包括以下步骤:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理,进行标准图像增强;
可采用标准图像增强技术,如在图像每边增加4个零值像素,再进行随机裁剪;对图像进行随机水平旋转;对图像进行随机中心旋转;
3)构建基于偏微分算子的等变卷积网络模型并进行训练:
可以选用一个任意已有的卷积网络模型CNN架构,针对卷积网络模型的输入层和中间层,利用偏微分算子分别设计两种等变卷积,即构建等变卷积的输入层和等变卷积的中间 层。构建等变卷积和对等变卷积参数初始化包括如下步骤:
31)确定等变卷积网络模型的等变群:
在构建等变算子前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中,通常要求图片对于旋转、反射、平移变换具有等变性。若考虑旋转、反射、平移变换,设等变群S为pnm;若仅考虑旋转和平移变换两种变换,设等变群S为pn(由平移和旋转2π/n生成的群)。
32)构建输入层的等变卷积:
定义微分算子族Ψ (A),A∈S为:
Figure PCTCN2020084650-appb-000001
其中,H(·,·)是一个二元多项式,
Figure PCTCN2020084650-appb-000002
Figure PCTCN2020084650-appb-000003
表示两个依赖于A的微分算子,它们的具体形式如下:
Figure PCTCN2020084650-appb-000004
Figure PCTCN2020084650-appb-000005
上式中,β={β 1,β 2,…,β 9}是多项式中各项系数的集合,也是后续生成的等变卷积中的参数。A是属于等变群S的正交矩阵,式(2)中的x和y分别对应式(1)中的
Figure PCTCN2020084650-appb-000006
Figure PCTCN2020084650-appb-000007
将式(2)和式(3)代入式(1),可以得到微分算子Ψ (A),A∈S,实际上是关于
Figure PCTCN2020084650-appb-000008
Figure PCTCN2020084650-appb-000009
的二元多项式。将该多项式中涉及到的所有微分算子离散化,得到
Figure PCTCN2020084650-appb-000010
(具体方式在实施例步骤3第2)步中进一步详述),即得到用来处理输入数据的等变卷积。
33)构建中间层的等变卷积:
定义微分算子族
Figure PCTCN2020084650-appb-000011
为:
Figure PCTCN2020084650-appb-000012
其中多项式H B为:
Figure PCTCN2020084650-appb-000013
这里的下标B用来区分不同的多项式,不同主要体现在每一项的系数上,系数为β(B)={β 1(B),β 2(B),…,β 9(B)},B∈S。将式(4)中的微分算子离散化,得到新的算子
Figure PCTCN2020084650-appb-000014
也就是用来处理中间层特征图的等变卷积。
34)等变卷积的初始化方式:
在32)和33)中,
Figure PCTCN2020084650-appb-000015
Figure PCTCN2020084650-appb-000016
均表示一组卷积,当A取值为I时,可得到
Figure PCTCN2020084650-appb-000017
Figure PCTCN2020084650-appb-000018
先用何凯明参数初始化方法He’s initializer(Delving deep into rectifiers:surpassing human-level performance on ImageNet Classification)初始化上述构造的输入层等变卷积中的偏微分算子(卷积)
Figure PCTCN2020084650-appb-000019
和中间层等变卷积中的偏微分算子(卷积)
Figure PCTCN2020084650-appb-000020
得到等变卷积的初始化值;然后用该初始化值反解出对应的等变卷积参数β或β(B),并以反解得到的等变卷积参数β或β(B)的值作为对应的等变卷积真实的初始化值。
本发明中,全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005,动量为0.9。该等变的CNN模型可以在深度学习框架Tensorflow下实现。
将上述构建并初始化的输入层的等变卷积和中间层的等变卷积作为CNN模型中的输入卷积层和中间卷积层,即得到等变CNN模型。再利用训练样本图像对该等变CNN模型进行训练。
本发明具体实施时,均采用反向传播算法,用带Nesterov动量的随机梯度下降算法进行等变CNN模型训练。训练过程迭代300轮,批大小为128,即每128张图片为一个批次。学习速率初始值为0.1,在151至225轮学习速率为0.01,在226至300轮学习速率为0.001。
4)利用步骤3)构建并训练好的基于偏微分算子的等变CNN模型,对测试图像样本进行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像预处理。
本发明的有益效果是:
本发明提供了一种基于偏微分算子的等变CNN模型PDO-eConv的图像分类方法。我们利用偏微分算子设计出分别用于输入层和中间层的等变卷积。在具体实施中,我们可以将 任意一个已有CNN模型中的卷积层采用本发明设计的等变卷积,得到一个等变的CNN模型,最后用该模型进行图像识别。
本发明提出的网络结构不仅具有等变性,也带来了更好的参数共享机制,能够显著提高参数利用率。在图像识别任务数据集旋转MNIST和CIFAR上,本发明与传统的卷积模型以及一些现有的等变卷积如G-CNN、HexaConv相比,都取得了明显更好的效果,它能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的分类错误率。
附图说明
图1是卷积神经网络模型处理图像的等变性的示意图;
其中,将变换g作用在映射的输入上,即作用方式为π g,然后再通过映射Ψ得到的结果,应该与通过映射Ψ再经过变换g(即作用方式为π' g)相同。
图2是本发明具体实施实现基于偏微分算子的等变卷积网络模型进行图像分类的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于偏微分算子的等变卷积网络模型PDO-eConv的图像分类方法,利用偏微分算子设计出等变的卷积网络模型,用于高效的进行图像分类与识别等视觉分析。包括以下步骤:
步骤1:将图像数据分为训练样本和测试样本,本实施例所有数据集为CIFAR-10和CIFAR-100数据集,它们均由60,000张大小为32×32的RGB彩色图像组成,其中训练数据50,000张,测试数据10,000张,类别分别为10类和100类。
步骤2:对训练样本图像进行标准图像增强。标准图像增强操作包括:在图片每边增加4个零值像素,然后进行随机裁剪,即对原图平移若干个像素;对图片进行随机水平翻转。
步骤3:将数据增强过的训练样本通过本发明得到的等变CNN模型进行训练。本发明所述的等变性可以这么理解:将变换g作用在映射的输入上(作用方式为π g)然后通过映 射Ψ得到的结果,应该与通过映射Ψ再经过变换g(作用方式为π' g)相同。等变性的示意图为附图1。容易看出,如果神经网络的每一层都是等变的,那么这种等变性会在整个网络中得到维护。事实上,我们可以选用任意一个已有的CNN架构,然后将其中的输入卷积层和中间卷积层采用本发明构建的基于偏微分算子设计的等变卷积,得到一个等变的CNN模型。在本实施例中,我们选用ResNet作为网络基本架构。其中,构建等变卷积和对等变卷积参数初始化的步骤如下:
1)确定等变卷积网络模型的等变群:在构建等变算子前,需要先确定卷积网络模型在什么群上能保持等变性。在图像识别任务中,我们通常要求图片对于旋转、反射、平移变换具有等变性。如果考虑这三种变换,我们设等变群E为pnm;如果仅考虑旋转和平移变换这两种变换,我们设等变群E为pn。这两种群在背景技术中已经介绍过。进一步地,我们记
Figure PCTCN2020084650-appb-000021
其中
Figure PCTCN2020084650-appb-000022
表示半直积,S是一个由正交变换组成的离散群。
2)构建输入层的等变卷积:
定义微分算子为:
Figure PCTCN2020084650-appb-000023
其中
Figure PCTCN2020084650-appb-000024
Figure PCTCN2020084650-appb-000025
我们将式(1)中的微分算子离散化,得到新的算子
Figure PCTCN2020084650-appb-000026
该算子实际上是一个卷积族,它的形式为:
Figure PCTCN2020084650-appb-000027
其中Γ是所有用到微分算子的索引,
Figure PCTCN2020084650-appb-000028
通过将式(2)和式(3)代入式(1)得到,
Figure PCTCN2020084650-appb-000029
是和微分算子
Figure PCTCN2020084650-appb-000030
相对应的卷积,它的形式列举在表1和表2中。
表1 3*3卷积的九种形式
Figure PCTCN2020084650-appb-000031
表2 5*5卷积的六种形式
Figure PCTCN2020084650-appb-000032
表1和表2中,具体来说,
Figure PCTCN2020084650-appb-000033
为与1
Figure PCTCN2020084650-appb-000034
对应的卷积,
Figure PCTCN2020084650-appb-000035
为与
Figure PCTCN2020084650-appb-000036
对应的卷积,
Figure PCTCN2020084650-appb-000037
为与
Figure PCTCN2020084650-appb-000038
对应的卷积,……,
Figure PCTCN2020084650-appb-000039
为与
Figure PCTCN2020084650-appb-000040
对应的卷积。
最后,对于输入图像数据I,等变卷积层的实现方式为:
Figure PCTCN2020084650-appb-000041
需要注意的是,上述等变卷积是针对输入数据仅有一个通道的情况描述的。事实上,输入数据通常具有多个通道,如本实施例中的图像数据具有RGB三个通道。为了处理多通道数据,我们仅需要将式(1)中的多项式也相应的更改为多通道的多项式,自然地,式(4)中的卷积核
Figure PCTCN2020084650-appb-000042
可以处理多通道的输入图像数据I。
3)构建中间层的等变卷积:
由于输入层等等变卷积提取的特征图额外具有正交变换S这一维度,中间层的等变卷积实施方式有所不同。具体地,我们定义微分算子
Figure PCTCN2020084650-appb-000043
其中多项式H B表示为:
Figure PCTCN2020084650-appb-000044
这里的下标B用来区分不同的多项式,这种差异主要体现在每一项的系数上,所有的系数为β(B)={β 1(B),β 2(B),…,β 9(B)},B∈S。用和步骤2)中相同的方式将式(6)中的微分算子离散化,得到用来处理中间层特征图的等变卷积核,卷积实现方式为:
Figure PCTCN2020084650-appb-000045
其中F∈R n×n×|S|是该中间层输入特征图,它是一个三维格点函数,其中|S|表示离散群S中的元素个数,F的上标代表它的正交变换维度索引。特别需要注意的是,如果在输入层中,我们用多个等变卷积来提取特征,那么我们在中间层得到的特征图也应当是多通道的(这种多通道区别于正交变换维度)。为了处理这一情况,我们同样地可以将式(6)中的多项式更改为多通道的多项式即可。
4)等变卷积的参数初始化方式:
对于输入层的等变卷积,我们考虑卷积核为:
Figure PCTCN2020084650-appb-000046
然后用MSAR何凯明参数初始化方法初始化
Figure PCTCN2020084650-appb-000047
然后用这个初始化的值求解线性方程式(9)得到其中参数β的初始化。对于中间层的等变卷积,我们用同样的方式初始化参数β(B)。
等变卷积层和全连接层是两种不相关的结构。本发明中,全连接层直接采用现有方法Xavier进行初始化。对本发明提出的等变卷积层,则采用以上具体的初始化方法。等变卷积的形式是卷积,本发明采用经典的MSAR初始化方法(也称作何凯明参数初始化方法)初始化其中的
Figure PCTCN2020084650-appb-000048
Figure PCTCN2020084650-appb-000049
另一方面,如式(9)所示,这两个卷积是由β和β(B)参数化的,因此我们用初始化的结果来求解式(9)表示的线性方程,可得到β和β(B)的初始化。也就是,等变卷积的参数就是β和β(B),用何凯明初始化两个卷积只是一个中间步骤,最终目的是初始化β和β(B)。
步骤4:将测试样本(无需进行图像预处理)分别通过训练好的网络进行识别,得到预测的分类标签。
本发明中的模型均使用反向传播算法,利用带Nesterov动量的随机梯度下降算法进行训练,动量为0.9。每一个模型训练过程迭代300轮,批处理大小为128,即每128张图片为一个批次。学习速率初始值为0.1,在151至225轮学习速率为0.01,在226至300轮学习速率为0.001。等变卷积参数初始化方式为上述步骤3第4)步中特别提出的一种初始化方式,全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005。
在实施例中,我们将ResNet中的卷积层相应替换成本发明中的等变卷积。具体来说,ResNet包括一个输入层,三大组卷积层,其中第i组卷积层包括2n个卷积层,每个卷积层使用k i个滤波器(或称等变卷积),最后接一个分类器,因此共有6n+2层。为了公平的比较原始ResNet和改造后等变卷积模型的效果,我们需要相应的调整每层使用等变卷积的数量使得参数量大致相等。例如,对于ResNet-26,他的结构设置为n=4,k i=16,32,64。如果我们要求本发明对于群p6(或p6m)是等变的,则需要将等变卷积滤波器数量相应的调整为k i=6,13,26(k i=4,9,18)。
表1给出了本发明模型PDO-eConv和其他模型在CIFAR数据集上的图像分类错误率比 较:
表1
模型 等变群 深度 C10 C100 参数量
Network in Network Z 2 - 8.81 35.67 -
All-CNN Z 2 - 7.25 33.71 -
Deeply Supervised Net Z 2 - 7.97 34.57 -
Highway Network Z 2 - 7.72 32.39 -
ResNet Z 2 26 11.5 31.66 0.37M
HexaConv p6 26 9.98 - 0.34M
HexaConv p6m 26 8.64 - 0.34M
PDO-eConv p6 26 6.75 28.58 0.36M
PDO-eConv p6m 26 6.33 27.95 0.36M
ResNet Z 2 44 5.61 24.08 2.64M
G-CNN p4m 44 4.94 23.19 2.62M
PDO-eConv p8 44 4.31 21.41 2.62M
ResNet Z 2 1001 4.92 22.71 10.3M
Wide ResNet Z 2 26 4.19 20.50 36.5M
G-CNN p4m 26 4.17 - 7.2M
PDO-eConv p8 26 4.16 20.43 4.6M
从表中可以看出,和HexaConv相似,我们分别用在群p6和群p6m上等变的PDO-eConv作为原始网络模型中的卷积层,在相近参数量下,采用本发明方法的图像分类结果显著优于HexaConv的分类结果(图像分类错误率6.33%vs.8.64%)。此外,HexaConv需要额外的内存存储六边形网格图片,而本发明不需要。我们也将本发明与G-CNN对比,总的来说在相似参数量下,本发明也能达到更好的结果。和很深的ResNet还有Wide ResNet相比,本发明也在更少的参数量下达到了至少差不多的结果。特别地,和Wide ResNet相比,本发明仅用12.6%的参数就达到了相近的结果,这说明本发明能更有效的利用参数。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

  1. 一种图像分类识别方法,其特征在于,针对卷积网络模型的输入层和中间层,基于偏微分算子分别设计输入层的等变卷积和中间层的等变卷积,构建等变卷积网络模型PDO-eConv,并进行模型训练;模型PDO-eConv输入为图像数据,输出为图像的预测分类,从而实现高效地进行图像分类识别视觉分析;包括以下步骤:
    1)将图像数据分为训练样本和测试样本;
    2)对训练样本进行预处理,进行标准图像增强处理;
    3)构建基于偏微分算子的等变卷积网络模型并进行训练:
    针对任一卷积网络模型的输入层和中间层,利用偏微分算子分别构建用于输入层和中间层的等变卷积;构建等变卷积和对等变卷积参数初始化包括如下操作:
    31)确定等变卷积网络模型的等变群S;等变群包括由旋转、反射、平移三种变换生成的变换群pnm和由旋转、平移两种变换生成的变换群pn;n为旋转变换的个数;
    32)构建输入层的等变卷积,用于处理输入图像数据:
    定义微分算子族Ψ (A),A∈S,表示为式(1):
    Figure PCTCN2020084650-appb-100001
    其中,A是属于等变群S的正交矩阵;H(·,·)是二元多项式,该二元多项式中各项系数的集合为β,是后续生成的输入层等变卷积中的参数;
    Figure PCTCN2020084650-appb-100002
    Figure PCTCN2020084650-appb-100003
    表示两个依赖于A的微分算子;
    将式(1)的Ψ (A)多项式中的所有微分算子离散化,得到新的算子,即得到输入层的等变卷积;
    33)构建中间层的等变卷积,用于处理中间层特征图:
    定义微分算子族
    Figure PCTCN2020084650-appb-100004
    表示为式(4):
    Figure PCTCN2020084650-appb-100005
    其中,H B为多项式;多项式H B的各项系数的集合为β(B),是后续生成的中间层等变卷积中的参数;
    将式(4)中的微分算子离散化,得到新的算子,即得到中间层的等变卷积;
    34)对等变卷积进行初始化:
    先采用参数初始化方法初始化上述构造的输入层等变卷积和中间层等变卷积,得到等变卷积的初始化值;
    然后用该初始化值反解出对应的等变卷积参数β或β(B),作为对应的等变卷积真实的初始化值;
    将上述构建并初始化的输入层的等变卷积和中间层的等变卷积作为卷积网络模型中的输入卷积层和中间卷积层,即得到等变卷积网络模型;
    35)利用训练样本图像对该等变卷积网络模型进行训练,得到训练好的基于偏微分算子的等变卷积网络模型;
    4)利用步骤3)构建并训练好的基于偏微分算子的等变卷积网络模型,对测试图像样本进行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像预处理。
  2. 如权利要求1所述的图像分类识别方法,其特征是,步骤2)对训练样本进行标准图像增强处理,具体采用标准图像增强技术,包括在图像的每边增加零值像素,再进行随机裁剪;对图像进行随机水平旋转;对图像进行随机中心旋转处理。
  3. 如权利要求1所述的图像分类识别方法,其特征是,步骤31)确定等变卷积网络模型的等变群:
    当考虑旋转、反射、平移变换三种变换时,确定等变群S为pnm;
    当仅考虑旋转和平移变换两种变换时,确定等变群S为pn。
  4. 如权利要求1所述的图像分类识别方法,其特征是,步骤32)中,二元多项式H(·,·)表示为式(2):
    Figure PCTCN2020084650-appb-100006
    两个依赖于A的微分算子
    Figure PCTCN2020084650-appb-100007
    Figure PCTCN2020084650-appb-100008
    表示为式(3):
    Figure PCTCN2020084650-appb-100009
    式(2)中,多项式中各项系数的集合β={β 1,β 2,…,β 9};
    步骤33)中,多项式H B表示为式(5):
    Figure PCTCN2020084650-appb-100010
    其中,多项式H B的各项系数的集合为β(B)={β 1(B),β 2(B),…,β 9(B)},B∈S。
  5. 如权利要求4所述的图像分类识别方法,其特征是,步骤32)得到新的算子的形式表示为:
    Figure PCTCN2020084650-appb-100011
    其中,Γ是所有用到微分算子的索引,
    Figure PCTCN2020084650-appb-100012
    通过将式(2)和式(3)代入式(1)得到;
    Figure PCTCN2020084650-appb-100013
    是和微分算子
    Figure PCTCN2020084650-appb-100014
    相对应的卷积;
    对于输入图像数据I,等变卷积层的实现方式表示为式(7):
    Figure PCTCN2020084650-appb-100015
    步骤33)中间层等变卷积的实现方式表示为式(8):
    Figure PCTCN2020084650-appb-100016
    其中,F∈R n×n×|S|是输入特征图,是一个三维格点函数,其中|S|表示离散群S中的元素个数,F的上标代表正交变换维度索引。
  6. 如权利要求1所述的图像分类识别方法,其特征是,步骤34)中,具体采用何凯明参数初始化方法初始化输入层等变卷积中的偏微分算子和中间层等变卷积中的偏微分算子,得到初始化值;然后用该初始化值反解出对应的参数,并以此作为对应的等变卷积真实的初始化值。
  7. 如权利要求6所述的图像分类识别方法,其特征是,全连接层参数初始化方式为 Xavier初始化方式。
  8. 如权利要求7所述的图像分类识别方法,其特征是,权重衰减因子为0.0005,动量为0.9;具体采用深度学习框架Tensorflow实现。
  9. 如权利要求1所述的图像分类识别方法,其特征是,步骤35)具体采用反向传播算法,利用带Nesterov动量的随机梯度下降算法对该等变卷积网络模型进行训练。
  10. 如权利要求9所述的图像分类识别方法,其特征是,训练过程迭代300轮,批大小为128,即每128张图片为一个批次;学习速率初始值为0.1,在151至225轮学习速率为0.01,在226至300轮学习速率为0.001。
PCT/CN2020/084650 2020-03-17 2020-04-14 一种基于偏微分算子的等变卷积网络模型的图像分类方法 WO2021184466A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010189225.1 2020-03-17
CN202010189225.1A CN111401452B (zh) 2020-03-17 2020-03-17 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Publications (1)

Publication Number Publication Date
WO2021184466A1 true WO2021184466A1 (zh) 2021-09-23

Family

ID=71430974

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/084650 WO2021184466A1 (zh) 2020-03-17 2020-04-14 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Country Status (2)

Country Link
CN (1) CN111401452B (zh)
WO (1) WO2021184466A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257753B (zh) * 2020-09-23 2023-04-07 北京大学 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN112990315B (zh) * 2021-03-17 2023-10-20 北京大学 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法
CN113033677A (zh) * 2021-03-30 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、电子设备和存储介质
CN113313161B (zh) * 2021-05-24 2023-09-26 北京大学 基于旋转不变的规范等变网络模型的物体形状分类方法
CN113723472B (zh) * 2021-08-09 2023-11-24 北京大学 一种基于动态滤波等变卷积网络模型的图像分类方法
CN113705386A (zh) * 2021-08-12 2021-11-26 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质和电子设备
CN113723490B (zh) * 2021-08-24 2023-10-31 哈尔滨工业大学(深圳) 一种基于张量卷积网络的图像分类方法、系统及存储介质
CN113591804B (zh) * 2021-09-27 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 图像特征提取方法、计算机可读存储介质以及计算机终端
CN114037901B (zh) * 2021-10-25 2023-06-20 河海大学 光伏发电预测导向的实时卫星近红外图像推算方法
CN114463556B (zh) * 2022-01-24 2022-12-16 北京智源人工智能研究院 等变网络训练方法和装置、图像识别方法和装置
CN114528977B (zh) * 2022-01-24 2023-01-31 北京智源人工智能研究院 一种等变网络训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
EP2869239A2 (en) * 2013-11-04 2015-05-06 Facebook, Inc. Systems and methods for facial representation
EP2911111A2 (en) * 2014-02-19 2015-08-26 Samsung Electronics Co., Ltd Apparatus and method for lesion detection
WO2017142397A1 (en) * 2016-02-19 2017-08-24 Scyfer B.V. Device and method for generating a group equivariant convolutional neural network
CN108764289A (zh) * 2018-04-26 2018-11-06 福建天晴数码有限公司 一种基于卷积神经网络的ui异常图片分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827304B (zh) * 2018-08-10 2023-06-09 清华大学 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN110852273B (zh) * 2019-11-12 2023-05-16 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN110717481B (zh) * 2019-12-12 2020-04-07 浙江鹏信信息科技股份有限公司 一种利用级联卷积神经网络实现人脸检测的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2869239A2 (en) * 2013-11-04 2015-05-06 Facebook, Inc. Systems and methods for facial representation
EP2911111A2 (en) * 2014-02-19 2015-08-26 Samsung Electronics Co., Ltd Apparatus and method for lesion detection
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
WO2017142397A1 (en) * 2016-02-19 2017-08-24 Scyfer B.V. Device and method for generating a group equivariant convolutional neural network
CN108764289A (zh) * 2018-04-26 2018-11-06 福建天晴数码有限公司 一种基于卷积神经网络的ui异常图片分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SANDER DIELEMAN , JEFFREY DE FAUW , KORAY KAVUKCUOGLU: "Exploiting Cyclic Symmetry in Convolutional Neural Networks", ARXIV.ORG, 8 February 2016 (2016-02-08), pages 1 - 10, XP080682215 *

Also Published As

Publication number Publication date
CN111401452B (zh) 2022-04-26
CN111401452A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
WO2021184466A1 (zh) 一种基于偏微分算子的等变卷积网络模型的图像分类方法
Wang et al. Blind2unblind: Self-supervised image denoising with visible blind spots
Zhang et al. Learning deep CNN denoiser prior for image restoration
WO2019120110A1 (zh) 图像重建方法及设备
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
Zhang et al. Efficient feature learning and multi-size image steganalysis based on CNN
CN109964250A (zh) 用于分析卷积神经网络中的图像的方法和系统
Wang et al. Channel and space attention neural network for image denoising
CN112990315B (zh) 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法
CN112257753B (zh) 基于偏微分算子的广义等变卷积网络模型的图像分类方法
WO2023065759A1 (zh) 基于时空增强网络的视频动作识别方法
CN113449612B (zh) 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN110197255A (zh) 一种基于深度学习的可变形卷积网络
Yi et al. Research and improvement of convolutional neural network
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
Wu et al. Gradient-aware blind face inpainting for deep face verification
Niu et al. Home: High-order mixed-moment-based embedding for representation learning
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN113723472A (zh) 一种基于动态滤波等变卷积网络模型的图像分类方法
Luo et al. Low-rank decomposition on transformed feature maps domain for image denoising
Zhang et al. Research On Face Image Clustering Based On Integrating Som And Spectral Clustering Algorithm
CN112634136B (zh) 一种基于图像特征快速拼接的图像超分辨率方法及其系统
CN114386592A (zh) 基于结构化自然梯度优化的深度神经网络图像识别方法
Liao et al. Subspace clustering based on alignment and graph embedding
Wang et al. A general multi-scale image classification based on shared conversion matrix routing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20925828

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20925828

Country of ref document: EP

Kind code of ref document: A1