WO2022062164A1 - 基于偏微分算子的广义等变卷积网络模型的图像分类方法 - Google Patents

基于偏微分算子的广义等变卷积网络模型的图像分类方法 Download PDF

Info

Publication number
WO2022062164A1
WO2022062164A1 PCT/CN2020/132017 CN2020132017W WO2022062164A1 WO 2022062164 A1 WO2022062164 A1 WO 2022062164A1 CN 2020132017 W CN2020132017 W CN 2020132017W WO 2022062164 A1 WO2022062164 A1 WO 2022062164A1
Authority
WO
WIPO (PCT)
Prior art keywords
equivariant
network model
layer
differential operator
group
Prior art date
Application number
PCT/CN2020/132017
Other languages
English (en)
French (fr)
Inventor
林宙辰
何翎申
沈铮阳
徐大鹏
Original Assignee
北京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学 filed Critical 北京大学
Publication of WO2022062164A1 publication Critical patent/WO2022062164A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Definitions

  • the invention belongs to the technical fields of pattern recognition, machine learning and artificial intelligence, relates to an image classification method, and in particular relates to an image classification method using a generalized partial differential operator-based equivariant convolutional network model.
  • CNNs Convolutional Neural Networks
  • CNNs In the field of machine learning, Convolutional Neural Networks (CNNs) have shown strong performance in feature extraction of 2D images. Most studies agree that this superior feature extraction capability is due to the inherent translational symmetry of CNNs. By sharing convolution kernels across the entire plane, CNNs can achieve translation equivariance. Inspired by the translational equivariance of CNNs, a large number of more novel equivariant convolutional networks have been proposed accordingly. Generally speaking, on the same task, equivariant networks that can deeply mine the symmetry of the data can have stronger performance than non-equivariant networks.
  • this method needs to use a large convolution kernel to ensure equivariance, which will bring a large computational cost; in addition, this method can only be limited to the rotation group.
  • this set of convolutions The product kernel is not equivariant, so it is difficult to make the network more symmetric.
  • Shen Zhengyang et al. proposed a rotational equivariant network model method based on partial differential operator, but this method is not a general method, and the group representation types of its output features can only be trivial and regular, and it is only applicable to The discrete rotation group cannot handle S0(2), O(2) and the expansion and contraction group S.
  • the present invention provides an image classification method based on a generalized equivariant convolutional network model based on partial differential operators, and uses partial differential operators to design various types of equivariant convolutional network models, which are called based on
  • the generalized equivariant convolutional network model PDO-sCNNs (partial diffrential operator based steerable CNNs) of partial differential operator is used for efficient visual analysis such as image classification and recognition.
  • the invention imposes constraints on the convolution kernel of the convolution network, so that the convolution network has a preset symmetry/equivariance, and the established equivariant convolution network model based on the partial differential operator has the corresponding inherent symmetry It has stronger image recognition ability on sexual image data.
  • Standard image enhancement techniques can be used, such as adding 4 zero-value pixels on each side of the image, and then performing random cropping; random horizontal rotation of the image; random center rotation of the image;
  • any existing convolutional network model CNN skeleton such as VGG, ResNet, etc.
  • the convolution operation in the skeleton network is a convolution operation with corresponding equivariance.
  • the construction of equivariant convolution and the initialization of equivariant convolution parameters include the following steps:
  • the rotational symmetry group (such as 0(2), SO(2)) and the scale symmetry group S can be used.
  • Each layer needs to specify a transformation type in advance to describe how the group acts on these layers. This transformation type is determined by the group representation:
  • each layer has an associated group representation ⁇ that uniquely determines how the layer is transformed.
  • group representation theory the group representation of a compact group is equivalent to the direct sum of irreducible representations. Therefore, when choosing a transformation type of a certain layer, it is equivalent to choosing some irreducible representations, and then combining these irreducible representations, here The sum of multiple irreducible representations can be analogized to the multi-channel selection of ordinary convolutional networks.
  • each layer needs to be equivariant, that is, when the input is transformed according to the group representation of the input layer, the output of this layer should be transformed according to the group representation of the output layer.
  • the entire convolutional layer is modeled using a partial differential operator:
  • a m, iN+n (a i ) mn , where n is the dimension of the input of a i , and m is the dimension of the output of a i .
  • ⁇ 0 is the group representation associated with the output layer
  • ⁇ 1 is the group representation associated with the output layer
  • ⁇ i can be any constant, and Z represents the set of all integers.
  • ⁇ i,mn can be any constant.
  • the parameter initialization mode of the fully connected layer is the Xavier initialization mode.
  • the weight decay factor is 0.0005 and the momentum is 0.9.
  • This equivariant CNN model can be implemented under the deep learning framework pytorch.
  • the back-propagation algorithm is used, and the stochastic gradient descent algorithm with Nesterov momentum is used to train the equivariant CNN model.
  • the training process is iterated for 200 rounds, and the batch size is 128, that is, every 128 images is a batch.
  • the initial learning rate is 0.2, and the learning rate is divided by 10 at 60, 120, and 160, respectively.
  • test image samples are identified, and the predicted image classification labels are obtained, thereby realizing image classification and identification, wherein the test samples do not need to undergo image preprocessing.
  • the network structure proposed by the present invention can not only make the network more equivariant, but also can effectively reduce the computational overhead of some previous equivariant methods.
  • the present invention has achieved significantly better results on image recognition task datasets rotated MNIST, scale-MNIST and STL-10 classification effect.
  • the transformation g is applied to the input of the mapping, that is, the action mode is ⁇ g , and then the result obtained by mapping ⁇ should be the same as the result obtained by mapping ⁇ and then transforming g (that is, the action mode is ⁇ ' g ).
  • FIG. 2 is a flow chart of a method for implementing image classification using a generalized partial differential operator-based equivariant convolutional network model in a specific implementation of the present invention.
  • the present invention provides an image classification method using a generalized partial differential operator-based equivariant convolutional network model PDO-sCNNs, and uses the partial differential operator and group representation theory to design an equivariant convolutional network model for efficient for visual analysis such as image classification and recognition. Include the following steps:
  • Step 1 Divide the image data into training samples and test samples. All the data sets in this embodiment are STL10 data sets, consisting of 96 ⁇ 96 RGB pictures, including 8k training set data and 10k test set data, and the categories are respectively for 10 categories.
  • Step 2 Perform standard image enhancement and cutout operations on the training sample images.
  • Standard image enhancement operations include: adding 4 zero-valued pixels on each side of the picture, and then performing random cropping, that is, shifting the original image by several pixels; randomly flipping the picture horizontally. Cutout is to set a small part of the picture to 0.
  • Step 3 train the data-enhanced training samples through the equivariant CNN model obtained by the present invention.
  • the equivariance described in the present invention can be understood as follows: the result obtained by applying the transformation g on the input of the mapping (the action mode is ⁇ g ) and then through the mapping ⁇ should be the same as the result obtained by the mapping ⁇ and then through the transformation g (the action mode is ⁇ ' g ) the same.
  • a schematic diagram of isodenaturation is shown in Figure 1. It is easy to see that if each layer of a neural network is equivariant, then this equivariance is maintained throughout the network.
  • Step 2 Determine the transformation type of each layer of the equivariant network model
  • Each layer needs to specify a transformation type in advance to describe how the group works with these layers. This transformation type is determined by the group representation:
  • Step 3 Build the equivariant base for each layer
  • ⁇ i can be an arbitrary constant
  • Z represents the set of all integers.
  • ⁇ i,mn can be any constant.
  • Tables 1 and 2 specifically, for and 1 The corresponding convolution, for and The corresponding convolution, for and The corresponding convolution, ..., for and the corresponding convolution.
  • Step 4 Identify the test samples (without image preprocessing) through the trained network to obtain the predicted classification labels.
  • Table 1 shows the image classification error rate comparison between the present invention's model PDO-sCNNs and other models on the STL10 dataset:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于偏微分算子的广义等变卷积网络模型的图像分类方法,利用群表示与偏微分算子构建等变卷积网络模型PDO-sCNNs,在卷积网络模型的卷积核上施加约束条件,使得卷积网络具有设定的对称性或等变性,用于高效的进行图像分类与识别视觉分析。采用本发明方法,利用微分算子和群表示求解出所有满足条件的等变卷积层,可以将任意一个已有CNN模型中的卷积层求解出的等变卷积,构建得到等变卷积网络模型,再用该模型进行图像分类识别,效果更佳。

Description

基于偏微分算子的广义等变卷积网络模型的图像分类方法 技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及图像分类方法,具体涉及一种使用广义的基于偏微分算子的等变卷积网络模型的图像分类方法。
背景技术
在机器学习领域,卷积神经网络(CNNs)在2维图像的特征提取上表现出了强大的性能。大部分的研究一致认为,这种优异的特征提取能力是由于CNNs内禀的平移对称性。通过在整个平面内共享卷积核,CNNs可以实现平移等变性。在CNNs的平移等变性的启示下,大量的更加新颖的等变卷积网络被相应的提出。通常而言,在相同的任务上,能够深刻挖掘数据的对称性的等变网络能够比非等变网络具有更强的性能。
随着机器学习社区对等变网络的重视,大量的等变网络被提出,因此,一些问题引起了广泛的关注:例如,设计等变网络有没有一种统一的方法,即,给定数据集以及相应的对称性,能否使用统一的方法设计出等变网络从而降低开发人员的设计难度?另外,最广义的等变网络是否存在?
Cohen提出了一种在齐次空间中的广义等变网络的理论,这种理论根据输入输出特征的群表示类型,可以找出所有满足等变条件的卷积网络,之前所提出的几乎所有的等变网络,都可以被涵盖在这个框架下。该工作的缺陷是由于整个理论体系是建立在连续的卷积上的,为了保证卷积操作的精确性,在离散格点上,需要使用一些特殊的手段来避免离散近似带来的锯齿效应,这些问题反映在了后续工作(General E(2)-Equivariant Steerable CNNs)中,该工作使用基于球谐函数的steerable(可控)卷积核来避免锯齿效应。然而,在离散化时,该方法需要用较大的卷积核来确保等变性,这会带来很大的计算代价;另外,这个方法只能局限于旋转群,对于尺度变换,这套卷积核并不具有等变性,因此,难以让网络具有更多的对称性。之前,沈铮阳等人提出了基于偏微分算子的旋转等变网络模型方法,但该方法并不是通用方法,其输出输出特征的群表示类型只能是trivial型和regular型,并且,只适用于离散的旋转群,无法处理S0(2),O(2)以及伸缩群S。
发明内容
为了克服上述现有技术的不足,本发明提供基于偏微分算子的广义等变卷积网络模型的图像分类方法,利用偏微分算子设计各种类型的等变卷积网络模型,称为基于偏微分算子的广义等变卷积网络模型PDO-sCNNs(partial diffrential operator based steerable CNNs),用于高效的图像分类与识别等视觉分析。
本发明通过在卷积网络的卷积核上施加约束条件,从而使得卷积网络具有事先设定的对称性/等变性,建立的基于偏微分算子等变卷积网络模型在具有相应内在对称性的图像数据上具有更强的图像识别能力。
本发明提供的技术方案是:
一种基于偏微分算子的广义等变卷积网络模型PDO-sCNNs的图像分类方法,利用群表示与偏微分算子构建等变卷积网络模型,在卷积网络模型的卷积核上施加约束条件,使得卷积网络具有事先设定的对称性或等变性,用于高效的进行图像分类与识别等视觉分析,包括以下步骤:
1)将图像数据分为训练样本和测试样本;
2)对训练样本图像进行预处理,进行标准图像增强;
可采用标准图像增强技术,如在图像每边增加4个零值像素,再进行随机裁剪;对图像进行随机水平旋转;对图像进行随机中心旋转;
3)构建基于偏微分算子的广义等变卷积网络模型并进行训练:
可以选用一个任意已有的卷积网络模型CNN骨架,如VGG,ResNet等,作为骨架网络。骨架网络中的卷积操作为具有相应等变性的卷积操作。构建等变卷积和对等变卷积参数初始化包括如下步骤:
31)确定等变卷积网络模型的等变群,确定等变卷积网络模型具有对称性;
建立PDO-sCNNs之前,首先确定整个模型需要具有的对称性,一般在图像数据中,可以旋转对称群(如0(2),SO(2))和尺度对称群S。
32)确定等变网络模型各个层的变换类型:
每一层都需要事先指定一个变换类型来刻画群如何作用于这些层。这个变换类型通过群表示来确定:
假设G是变换群,ρ是变换群G的一个群表示,也就是,G→GL(V)且ρ(g 1g 2)=ρ(g 1)ρ(g 2),那么某一层f应该按照如下的方式变换:
Figure PCTCN2020132017-appb-000001
其中,每一层都有一个相关的群表示ρ唯一的确定了该层如何变换。由群表示论,紧群的群表示都等价于不可约表示的直和,因此,选择某一层的变换类型时,相当于选择一些不可约表示,然后将这些不可约表示合并起来,这里多个不可约表示的和可以类比于普通卷积的选择网络的多通道。
33)构建等变网络模型每一层的等变基:
为了使得整个网络是等变的,需要每一层都是等变的,即,输入按照输入层的群表示变换时,该层的输出应该按照输出层的群表示变换。这里,整个卷积层使用偏微分算子来进行建模:
Figure PCTCN2020132017-appb-000002
其中,f 1是输入层,d i表示一个微分算子
Figure PCTCN2020132017-appb-000003
a i是相应的线性变换,可以理解为对应微分算子d i的系数。Ψ为等变,需要a i满足一个线性约束,因此,所有满足等变条件的系数位于一个线性空间中,需要将这个线性空间的基找出来,在网络训练过程中,这些基固定,对应的系数是可学习的。在求这些基之前,先引入一个由微分算子导出的群表示
Figure PCTCN2020132017-appb-000004
用来描述坐标变换下微分算子的变换(假设h是一个光滑函数):
Figure PCTCN2020132017-appb-000005
Figure PCTCN2020132017-appb-000006
具体的形式可以通过链式法则求出,Γ表示微分算子的集合。
对于旋转群,所有的a i都是有限维空间的线性变换,可以直接视作为矩阵,将所有的a i放在一起,构成一个大矩阵A,满足A m,iN+n=(a i) mn,n是a i输入的维度,m是a i输出的维度。假设ρ 0是输出层关联的群表示,ρ 1是输出层关联的群表示,那么,满足等变条件的系数a i满足如下方程:。
Figure PCTCN2020132017-appb-000007
(
Figure PCTCN2020132017-appb-000008
与ρ 0(g)′分别表示
Figure PCTCN2020132017-appb-000009
与ρ 0(g)的转置)。因此,只需要解出这个方程的基础 解即可。该方程的基础解即等变条件的系数。
对于尺度变换群,由于尺度变换群是无穷维空间,这里主要给出两种变换类型之间的等变基(等变条件的系数),一种是trivial平凡型表示,一种是regular正常型表示。平凡型表示时,
Figure PCTCN2020132017-appb-000010
正常型表示时,相当于在整个群的一个轮换,
Figure PCTCN2020132017-appb-000011
为了称述更简便,这里引入σ i用来表示微分算子d i的阶,那么我们可以得到,输入层是trivial平凡型表示,输出层是regular正常型表示时,满足等变条件的系数(等变基)为:
Figure PCTCN2020132017-appb-000012
其中,β i可以是任意常数,Z表示所有整数的集合。
如果输入层与输出层都是regular表示,满足等变条件的系数为:
Figure PCTCN2020132017-appb-000013
其中γ i,m-n可以是任意常数。在求得了等变基之后,通过Weiler在Learning Steerable Filters for Rotation Equivariant CNNs中提出的广义何凯明初始化方法初始这些求得的等变基前面的系数。在训练的过程中,等变基固定,训练这些等变基前面的系数。
34)将构建并初始化的等变卷积作为CNN模型中的输入卷积层和中间卷积层,即得到等变CNN模型,全连接层之前通过Cohen在Group equivariant convolutional neural network中提出的群池化层,使得整个网络保持群不变性,最后经过全连接层输出结果,再利用训练样本图像对该等变CNN模型进行训练。
本发明具体实施时,全连接层参数初始化方式为Xavier初始化方式。权重衰减因子为0.0005,动量为0.9。该等变的CNN模型可以在深度学习框架pytorch下实现。
本发明具体实施时,均采用反向传播算法,用带Nesterov动量的随机梯度下降算法进行等变CNN模型训练。训练过程迭代200轮,批大小为128,即每128张图片为一个批次。学习速率初始值为0.2,在60,120,160分别将学习率除以10。
4)利用步骤3)构建并训练好的等变CNN模型,对测试图像样本进行识别,得到预测的图像分类标签,由此实现图片分类识别,其中测试样本无需经过图像预处理。
本发明的有益效果是:
本发明提供了一种使用广义的基于偏微分算子的等变CNN模型PDO-sCNNs的图像分类方法。我们利用微分算子和群表示论作为数学工具,求解出所有满足条件的等变卷积层。在具体实施中,我们可以将任意一个已有CNN模型中的卷积层采用本发明求解出的等变卷积,得到一个等变的CNN模型,最后用该模型进行图像识别。
本发明提出的网络结构不仅能够使得网络具有更多的等变性,同时也可以有效的降低之前的一些等变方法的计算开销。在图像识别任务数据集旋转MNIST,scale-MNIST和STL-10上,本发明与传统的卷积模型以及一些现有的等变卷积如E2-CNN、SESN相比,都取得了明显更好的分类效果。
附图说明
图1是卷积神经网络模型处理图像的等变性的示意图;
其中,将变换g作用在映射的输入上,即作用方式为π g,然后再通过映射Ψ得到的结果,应该与通过映射Ψ再经过变换g(即作用方式为π′ g)相同。
图2是本发明具体实施实现使用广义的基于偏微分算子的等变卷积网络模型进行图像分类的方法流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种使用广义的基于偏微分算子的等变卷积网络模型PDO-sCNNs的图像分类方法,利用偏微分算子和群表示论设计出等变的卷积网络模型,用于高效的进行图像分类与识别等视觉分析。包括以下步骤:
步骤1:将图像数据分为训练样本和测试样本,本实施例所有数据集为STL10数据集,由96×96的RGB图片组成,其中包含8k的训练集数据以及10k的测试集数据,类别分别为10类。
步骤2:对训练样本图像进行标准图像增强以及cutout操作。标准图像增强操作包括:在图片每边增加4个零值像素,然后进行随机裁剪,即对原图平移若干个像素;对图片进行随机水平翻转。Cutout是将图片中的一个小的部分设置为0。
步骤3:将数据增强过的训练样本通过本发明得到的等变CNN模型进行训练。本发明所述的等变性可以这么理解:将变换g作用在映射的输入上(作用方式为π g)然后通过映射Ψ得到的结果,应该与通过映射Ψ再经过变换g(作用方式为π′ g)相同。等变性的示意图为附图1。容易看出,如果神经网络的每一层都是等变的,那么这种等变性会在整个网络中得到维护。事实上,我们可以选用任意一个已有的CNN架构,然后将其中的输入卷积层和中间卷积层采用本发明构建的基于偏微分算子设计的等变卷积,得到一个等变的CNN模型。在本实施例中,我们选用ResNet作为网络基本架构。其中,构建等变卷积和对等变卷积参数初始化的步骤如下:
步骤一:确定等变卷积网络模型的等变群
建立PDO-sCNNs之前,首先确定整个模型需要具有的对称性,一般在图像数据中,可以旋转对称群如0(2),SO(2)和尺度对称群S。
步骤二:确定等变网络模型各个层的变换类型
每一层都需要事先指定一个变换类型来刻画群如何作用与这些层。这个变换类型通过群表示来确定:
假设G是变换群,ρ是群G的一个表示,i.e.G→GL(V)且ρ(g 1g 2)=ρ(g 1)ρ(g 2),那么某一层f应该按照如下的方式变换:
Figure PCTCN2020132017-appb-000014
其中,每一层都有一个相关的表示ρ唯一的确定了该层如何变换。由群表示论,紧群的群表示都等价于不可约表示的直和,因此,选择某一层的变换类型时,相当于选择一些列不可约表示,然后将这些表示合并起来,这种表示可以类比于普通卷积的选择网络的多通道。
步骤三:构建每一层的等变基
为了使得整个网络是等变的,需要每一层都是等变的,即,输入按照输入层的群表示变换时,该层的输出应该按照输出层的群表示变换。这里,整个卷积层使用偏微分算子来进行建模:
Figure PCTCN2020132017-appb-000015
其中,f 1是输入层,d i表示一个微分算子
Figure PCTCN2020132017-appb-000016
a i是相依的线性变换,可以理解为 对应微分算子d i的系数。Ψ等变,需要a i满足一个线性约束,因此,所有满足等变条件的系数位于一个线性空间中,需要将这个线性空间的基找出来,在网络的训练过程中,这些基的系数是可学习的。在求这些基之前,先引入一个由微分算子导出的表示
Figure PCTCN2020132017-appb-000017
用来描述坐标变换下微分算子的变换(假设h是一个可微函数):
Figure PCTCN2020132017-appb-000018
Figure PCTCN2020132017-appb-000019
具体的形式可以通过链式法则求出,Γ表示微分算子的集合。
对于旋转群,所有的a i都是有限维空间的线性变换,可以直接视作为矩阵,将所有的a i放在一起,构成一个大矩阵A,满足A m,iN+n=(a i) mn,N是a i输入的维度,M是a i都输出的维度。假设表示ρ 0是输出层关联的表示,ρ 1是输出层关联的表示,那么,多有满足条件的系数满足如下方程:
Figure PCTCN2020132017-appb-000020
(
Figure PCTCN2020132017-appb-000021
与ρ 0(g)′分别表示
Figure PCTCN2020132017-appb-000022
与ρ 0(g)的转置)。因此,只需要解出这个方程的基础解系即可。
对于尺度变换群,由于尺度变换群是无穷维空间,这里主要给出两种变换类型之间的等变基,一种是trivial表示,一种是regular表示,平凡型表示时,
Figure PCTCN2020132017-appb-000023
正常型表示时,这个表示相当于在整个群的一个轮换,
Figure PCTCN2020132017-appb-000024
为了称述更简便,这里引入σ i用来表示微分算子d i的阶,那么我们可以得到,输入层是trivial表示,输出层是regular表示时,满足等变条件的系数为:
Figure PCTCN2020132017-appb-000025
其中β i可以是任意常数,Z表示所有整数的集合。
如果输入层与输出层都是regular表示,满足等变条件的系数为:
Figure PCTCN2020132017-appb-000026
其中γ i,m-n可以是任意常数。
我们将式(1)中的微分算子离散化,得到新的算子
Figure PCTCN2020132017-appb-000027
该算子实际上是一个卷积操作,它的形式为:
Figure PCTCN2020132017-appb-000028
其中Γ是所有用到微分算子的索引,a i和(1)中的是相同的,
Figure PCTCN2020132017-appb-000029
是和微分算子a i相对应的卷积,
Figure PCTCN2020132017-appb-000030
是输入的图像,它的形式列举在表1和表2中。
表1 3*3卷积的九种形式
Figure PCTCN2020132017-appb-000031
表2 5*5卷积的六种形式
Figure PCTCN2020132017-appb-000032
Figure PCTCN2020132017-appb-000033
表1和表2中,具体来说,
Figure PCTCN2020132017-appb-000034
为与1
Figure PCTCN2020132017-appb-000035
对应的卷积,
Figure PCTCN2020132017-appb-000036
为与
Figure PCTCN2020132017-appb-000037
对应的卷积,
Figure PCTCN2020132017-appb-000038
为与
Figure PCTCN2020132017-appb-000039
对应的卷积,……,
Figure PCTCN2020132017-appb-000040
为与
Figure PCTCN2020132017-appb-000041
对应的卷积。
步骤4:将测试样本(无需进行图像预处理)分别通过训练好的网络进行识别,得到预测的分类标签。
本发明中的模型均使用反向传播算法,利用带Nesterov动量的随机梯度下降算法进行训练,动量为0.9。每一个模型训练过程迭代200轮,批处理大小为128,即每128张图片为一个批次。学习速率初始值为0.2,在第60,120,160时将学习率除以10。权重衰减因子为0.0005。
在实施例中,我们将ResNet中的卷积层相应替换成本发明中的等变卷积,其中,我们采用了两种对称群,一种时离散旋转群D8,即包括所有pi/4的所有群转和一个反射变换,另一个一种在D8的基础上,进一步包含了尺度变换群,尺度变换参数设置为0.9。
表1给出了本发明模型PDO-sCNNs和其他模型在STL10数据集上的图像分类错误率比较:
表1
模型 等变群 参数量 错误率(%)
Wide ResNet Z2 11M 11.48
E2-CNN D8×Z2 12M 9.80
Scale equivariant net S×Z2 11M 8.51
PDO-sCNNs D8×S×Z2 2.5M 8.49
PDO-sCNN D8×Z2 10M 7.94
从表中可以看出,在网络内部,融入了对称性和等变性的网络结构能够显著提升性能, E2-CNN融入了旋转对称性,Scale equivariant net融入了尺度对称性,相比于只有平移对称性的Wide ResNet,在相同的参数量下达到更优的准确率,目前,scale equivariant net是在stl10数据集上的该设置下最优的网络。由本发明使用的微分算子在更多的变换下可控,因此可以同时融入尺度和旋转变换,相比之前的最优网络,能够在只需25%的参数量的情况下达到之前的最优的性能,同时可以看到,在将参数量提升至一个水平的情况下,本发明的方法只需融入旋转对称性,可以达到新的最优性能,比之前的最优还要提升0.5%,注意这里所有网络使用的网络结构都是相同的,区别仅仅在卷积核上。总的来说,我们的新发明不仅能够进一步压缩参数量,还能够提升网络性能。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

  1. 一种基于偏微分算子的广义等变卷积网络模型的图像分类方法,利用群表示与偏微分算子构建等变卷积网络模型PDO-sCNNs,在卷积网络模型的卷积核上施加约束条件,使得卷积网络具有设定的对称性或等变性,用于高效的进行图像分类与识别视觉分析;包括以下步骤:
    2)将图像数据分为训练样本和测试样本;
    2)对训练样本图像进行预处理,进行标准图像增强;
    3)以任意卷积网络模型CNN骨架作为骨架网络,骨架网络中的卷积操作为具有相应等变性的卷积操作,构建基于偏微分算子的广义等变卷积网络模型并进行训练;包括如下步骤:
    31)确定等变卷积网络模型的等变群,确定等变卷积网络模型具有对称性;
    32)通过群表示确定等变网络模型各个层的变换类型:
    等变网络模型某一层f按如下方式变换:
    Figure PCTCN2020132017-appb-100001
    其中,G是变换群;ρ是变换群G的一个群表示,每一层均有相关的群表示ρ唯一确定该层如何变换;选择某一层的变换类型时,即选择一些列不可约表示,然后将这些列不可约表示合并起来;
    33)构建等变网络模型每一层的等变基:
    卷积层使用偏微分算子进行建模,使得网络是等变网络,即当输入按照输入层的群表示变换时,每一层的输出按照输出层的群表示变换:
    Figure PCTCN2020132017-appb-100002
    其中,f 1是输入层;d i表示一个微分算子
    Figure PCTCN2020132017-appb-100003
    a i是相应的线性变换,为对应微分算子d i的系数;Ψ为等变;a i需满足一个线性约束,满足等变条件的系数位于一个线性空间中;
    引入由微分算子导出的群表示
    Figure PCTCN2020132017-appb-100004
    用于描述坐标变换下微分算子的变换,表示为:
    Figure PCTCN2020132017-appb-100005
    Figure PCTCN2020132017-appb-100006
    具体的形式通过链式法则求出;Γ表示微分算子的集合;h是一个光滑函数
    对于旋转群,所有a i均为有限维空间的线性变换,所有a i构成一个矩阵A,满足A m,iN+n=(a i) mn,n是a i输入的维度,m是a i输出的维度;
    设满足等变条件的系数满足如下方程:
    Figure PCTCN2020132017-appb-100007
    其中,ρ 0是输出层关联的群表示;ρ 1是输出层关联的群表示;该方程的基础解即等变条件的系数;
    Figure PCTCN2020132017-appb-100008
    与ρ 0(g)′分别表示
    Figure PCTCN2020132017-appb-100009
    与ρ 0(g)的转置;
    求得尺度变换群两种变换类型之间的等变基;在求得等变基之后,对求得的等变基前面的系数进行初始化;在训练的过程中,等变基固定,训练等变基前面的系数;
    34)将构建并初始化的等变卷积作为CNN模型中的输入卷积层和中间卷积层,即得到等变CNN模型;
    35)利用训练样本图像对步骤3)构建的等变CNN模型进行训练;
    4)测试样本无需经过图像预处理;利用步骤3)构建并训练好的等变CNN模型,对测试图像样本进行识别,得到预测的图像分类标签;
    由此实现基于偏微分算子的广义等变卷积网络模型的图像分类识别。
  2. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,步骤2)对训练样本图像进行预处理包括采用标准图像增强技术进行标准图像增强,再进行随机裁剪;对图像进行随机水平旋转;对图像进行随机中心旋转。
  3. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,步骤3)构建基于偏微分算子的广义等变卷积网络模型选用作为骨架网络的卷积网络模型CNN骨架包括VGG和ResNet。
  4. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,步骤31)中,模型需要具有对称性包括旋转对称群和尺度对称群。
  5. 如权利要求4所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特 征是,步骤33)构建等变网络模型每一层的等变基,对于尺度变换群,两种变换类型之间的等变基为平凡型表示和正常型表示;平凡型表示时,
    Figure PCTCN2020132017-appb-100010
    ρ(g)=I;正常型表示时,
    Figure PCTCN2020132017-appb-100011
    ρ ij=δ i,gj
    当输入层是平凡型表示,输出层是regular正常型表示时,满足等变条件的系数为:
    Figure PCTCN2020132017-appb-100012
    其中,σ i表示微分算子d i的阶;β i是任意常数;Z表示所有整数的集合;
    当输入层与输出层均为regular表示,满足等变条件的系数为:
    Figure PCTCN2020132017-appb-100013
    其中,γ i,m-n是任意常数。
  6. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,在求得等变基之后,具体通过广义何凯明初始化方法初始求得的等变基前面的系数。
  7. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,全连接层参数初始化方式为Xavier初始化方式。
  8. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,等变的CNN模型在深度学习框架pytorch下实现,权重衰减因子为0.0005,动量为0.9。
  9. 如权利要求1所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,采用反向传播算法,用随机梯度下降算法进行等变CNN模型训练。
  10. 如权利要求9所述基于偏微分算子的广义等变卷积网络模型的图像分类方法,其特征是,训练过程迭代200轮,批大小为128,学习速率初始值为0.2。
PCT/CN2020/132017 2020-09-23 2020-11-27 基于偏微分算子的广义等变卷积网络模型的图像分类方法 WO2022062164A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011012138.5A CN112257753B (zh) 2020-09-23 2020-09-23 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN202011012138.5 2020-09-23

Publications (1)

Publication Number Publication Date
WO2022062164A1 true WO2022062164A1 (zh) 2022-03-31

Family

ID=74233009

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/132017 WO2022062164A1 (zh) 2020-09-23 2020-11-27 基于偏微分算子的广义等变卷积网络模型的图像分类方法

Country Status (2)

Country Link
CN (1) CN112257753B (zh)
WO (1) WO2022062164A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257753B (zh) * 2020-09-23 2023-04-07 北京大学 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN112990315B (zh) * 2021-03-17 2023-10-20 北京大学 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法
CN113705386A (zh) * 2021-08-12 2021-11-26 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质和电子设备
CN114463556B (zh) * 2022-01-24 2022-12-16 北京智源人工智能研究院 等变网络训练方法和装置、图像识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368886A (zh) * 2017-02-23 2017-11-21 奥瞳系统科技有限公司 基于重复使用小规模卷积神经网络模块的神经网络系统
CN107766794A (zh) * 2017-09-22 2018-03-06 天津大学 一种特征融合系数可学习的图像语义分割方法
WO2020025191A1 (en) * 2018-07-31 2020-02-06 International Business Machines Corporation Convolutional neural network with augmentation features
CN111160436A (zh) * 2019-12-20 2020-05-15 上海交通大学 旋转等变的图卷积神经网络的球形图像分类方法及系统
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257753B (zh) * 2020-09-23 2023-04-07 北京大学 基于偏微分算子的广义等变卷积网络模型的图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368886A (zh) * 2017-02-23 2017-11-21 奥瞳系统科技有限公司 基于重复使用小规模卷积神经网络模块的神经网络系统
CN107766794A (zh) * 2017-09-22 2018-03-06 天津大学 一种特征融合系数可学习的图像语义分割方法
WO2020025191A1 (en) * 2018-07-31 2020-02-06 International Business Machines Corporation Convolutional neural network with augmentation features
CN111160436A (zh) * 2019-12-20 2020-05-15 上海交通大学 旋转等变的图卷积神经网络的球形图像分类方法及系统
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法

Also Published As

Publication number Publication date
CN112257753B (zh) 2023-04-07
CN112257753A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
WO2022062164A1 (zh) 基于偏微分算子的广义等变卷积网络模型的图像分类方法
CN107358293B (zh) 一种神经网络训练方法及装置
WO2021184466A1 (zh) 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN108734661B (zh) 基于图像纹理信息构建损失函数的高分辨率图像预测方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN108510013A (zh) 基于低秩核心矩阵的改进稳健张量主成分分析方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN109344966A (zh) 一种高效张量化全连接神经网络的方法
CN113255798A (zh) 一种分类模型训练方法、装置、设备及介质
CN113051399A (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN111027630A (zh) 一种基于卷积神经网络的图像分类方法
Ou et al. Gray-level image denoising with an improved weighted sparse coding
CN112884045A (zh) 基于多视角的随机删边嵌入模型的分类方法
CN107239532A (zh) 数据挖掘方法及装置
CN112416293A (zh) 一种神经网络增强方法、系统及其应用
CN115937693A (zh) 一种基于遥感图像的道路识别方法及系统
Wang et al. JPEG artifacts removal via compression quality ranker-guided networks
Ou et al. Low-rank with sparsity constraints for image denoising
Qi et al. Anisotropic weighted total variation feature fusion network for remote sensing image denoising
CN113723472A (zh) 一种基于动态滤波等变卷积网络模型的图像分类方法
Li et al. A mixed noise removal algorithm based on multi-fidelity modeling with nonsmooth and nonconvex regularization
Zhou et al. A strip dilated convolutional network for semantic segmentation
CN116580174A (zh) 一种虚拟场景实时构建方法
Chen et al. A lightweight multi-scale residual network for single image super-resolution

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20955006

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11.07.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 20955006

Country of ref document: EP

Kind code of ref document: A1