WO2020098257A1 - 一种图像分类方法、装置及计算机可读存储介质 - Google Patents

一种图像分类方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2020098257A1
WO2020098257A1 PCT/CN2019/089181 CN2019089181W WO2020098257A1 WO 2020098257 A1 WO2020098257 A1 WO 2020098257A1 CN 2019089181 W CN2019089181 W CN 2019089181W WO 2020098257 A1 WO2020098257 A1 WO 2020098257A1
Authority
WO
WIPO (PCT)
Prior art keywords
residual
convolutional
segment
convolution
image classification
Prior art date
Application number
PCT/CN2019/089181
Other languages
English (en)
French (fr)
Inventor
赵峰
王健宗
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020098257A1 publication Critical patent/WO2020098257A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the deep residual network is composed of residual units, and each residual unit is expressed as:
  • w i is the weight matrix
  • x i is the input of layer i
  • y i is the output of layer i
  • the depth residual network includes a first convolutional segment, a second convolutional segment, a third convolutional segment, a fourth convolutional segment, and a fifth convolutional segment connected in sequence, and the input image sequentially passes through the first to Fifth convolution segment, where: the first convolution segment includes 7x7x64 convolution, where 7X7 represents the convolution kernel, 64 represents the number of channels; the second convolution segment includes 3 second residual units, the second residual The unit in turn includes three convolutional layers of 1X1X64, 3X3X64, and 1X1X256; the third convolution section includes four third residual units, and the third residual unit includes three convolutional layers of 1X1X128, 3X3X128, and 1X1X512 in sequence; fourth The convolutional segment includes 6 fourth residual units, and the fourth residual unit in turn includes three convolutional layers of 1X1X256, 3X3X256, and 1X1X1024; the fifth convolution segment includes 3 fifth residual units, and the fifth residual unit In turn,
  • the present application also provides an electronic device including a memory and a processor connected to the memory, the memory storing an image classification program that can run on the processor, the image classification program is
  • the processor executes, the following steps are implemented: constructing a deep residual network, pre-training on ImageNet, obtaining weights, and using the weights to initialize the deep residual network, the deep residual network includes multiple convolutional segments, wherein , Each convolutional segment includes multiple residual units, and each residual unit in turn includes three convolutional layers; the output of the last residual unit of multiple convolutional segments of the deep residual network is extracted as a feature vector ; Reduce the dimensionality of the resulting feature vectors; use a classifier to classify the resulting feature vectors.
  • the deep residual network consists of residual units, and each remaining unit is expressed as:
  • f is the ReLU function
  • x i is the input of layer i
  • the present application also provides a computer-readable storage medium including an image classification program.
  • the image classification program is executed by a processor, the steps of the image classification method described above are implemented.
  • the image classification method, device and computer-readable storage medium proposed in the present application perform image classification based on the feature extraction based on the deep residual network, and the feature extraction from the deeper layer extracted from the deep residual network performs better than the shallow feature extraction. It is confirmed through experiments that the classification accuracy is higher than that of CNN, and it also has reference significance for other fields.
  • 4-2 is a schematic flowchart of a second dimensionality reduction method according to an embodiment of the present application.
  • FIG. 5 is a schematic diagram showing a hardware architecture of an electronic device according to an embodiment of the present application.
  • FIG. 7 is a schematic diagram showing the structure of a dimensionality reduction processing module according to an embodiment of the present application.
  • Step S30 Extract the outputs of the multiple residual units of the deep residual network as feature vectors, respectively.
  • the shallower convolutional layer has a smaller perception domain and learns some local area features; the deeper convolutional layer has a larger perception domain and can learn more abstract features . These abstract features are more sensitive to the size, position and orientation of objects, which helps to improve the recognition performance.
  • the deep residual network has a deeper network, where the typical residual unit consists of three convolutional layers. as shown in picture 2.
  • Feature extraction can be regarded as the output of the depth filter library.
  • the output is a vector of the form w ⁇ h ⁇ d, where w and h are the width and height of the resulting feature vector, and d is the number of channels in the convolutional layer.
  • y i is the output of layer i
  • the size of the input image is 224x224x3 for example.
  • the second convolutional segment includes three second residual units, and the second residual unit includes three convolutional layers 1X1X64, 3X3X64, and 1X1X256 in sequence. Therefore, the number of channels becomes 256, The size of the output image is 56x56.
  • the number of output channels increases to 2048, and the image shrinks to 7x7.
  • this embodiment does not apply the final output result of the deep residual network, but extracts the output of the last residual unit of the third convolution section, the fourth convolution section, and the fifth convolution section as feature vectors,
  • the corresponding feature vectors are the third feature vector 301, the fourth feature vector 401, and the fifth feature vector 501.
  • a linear support vector machine (SVM) classifier is used to classify the obtained feature vectors.
  • Figure 4-2 shows the pipeline of the PCA-SVM module of the fifth convolution section. The experimental results of this method show that the dimension of feature extraction can be significantly reduced without significantly reducing performance.
  • FIG. 5 is a schematic diagram of the hardware architecture of the electronic device 1 of the present application.
  • the electronic device 1 is a device that can automatically perform numerical calculation and / or information processing in accordance with instructions set or stored in advance.
  • the electronic device 1 may be a computer, a single network server, a server group composed of multiple network servers, or a cloud based on cloud computing composed of a large number of hosts or network servers, where cloud computing is a type of distributed computing, A super virtual computer composed of a group of loosely coupled computers.
  • the memory 11 includes a memory and at least one type of readable storage medium.
  • the memory provides a cache for the operation of the electronic device 1;
  • the readable storage medium may be, for example, flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM) ), Read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), programmable read-only memory (PROM), magnetic memory, magnetic disk, optical disk and other non-volatile storage media.
  • the readable storage medium may be an internal storage unit of the electronic device 1, such as a hard disk of the electronic device 1; in other embodiments, the non-volatile storage medium may also be external to the electronic device 1 Storage equipment, such as a plug-in hard disk equipped on the electronic device 1, a smart memory card (Smart) Media, a secure digital card, a flash memory card (Flash Card), etc.
  • the readable storage medium of the memory 11 is generally used to store the operating system and various application software installed in the electronic device 1, such as the image classification program code in this embodiment.
  • the memory 11 can also be used to temporarily store various types of data that have been output or are to be output.
  • the image classification program is stored in the memory 11 and includes at least one computer-readable instruction stored in the memory.
  • the at least one computer-readable instruction can be executed by the processor 14 to implement the methods of the embodiments of the present application; and, the at least A computer readable instruction can be divided into different logic modules according to the different functions implemented by its parts.
  • step S30 the outputs of the last residual units of the multiple convolutional layers of the deep residual network are extracted as feature vectors, respectively.
  • Step S70 use the classifier to classify the obtained feature vector.
  • the deep residual network pre-training module 501 is used for pre-training on ImageNet to obtain weights.
  • ImageNet is the name of a computer vision system recognition project. It is currently the world's largest database for image recognition. In fact, it is a huge picture library for image / vision training.
  • the deep residual network initialization module 502 initializes the deep residual network using weights.
  • the shallower convolutional layer has a smaller perception domain and learns some local area features; the deeper convolutional layer has a larger perception domain and can learn more abstract features . These abstract features are more sensitive to the size, position and orientation of objects, which helps to improve the recognition performance.
  • the residual network has a deeper network, where the typical residual unit consists of three convolutional layers. as shown in picture 2.
  • Feature extraction can be regarded as the output of the depth filter library.
  • the output is a vector of the form w ⁇ h ⁇ d, where w and h are the width and height of the resulting feature vector, and d is the number of channels in the convolutional layer.
  • the first convolutional layer is convolution at 1x1
  • the convolution kernel that is, the number of output channels
  • the 1x1 convolution of the first convolution layer reduces the 256-dimensional channel to 64 dimensions.
  • the 3X3 convolution keeps the number of channels at 64 dimensions
  • the 1x1 convolution restores the feature vector to 256 dimensions.
  • the dimensionality reduction processing module 504 performs dimensionality reduction processing on the obtained feature vector. Since the output size of the convolutional layer is much larger than the traditional feature based on 4096-dimensional CNN, for example, the size of the feature vector extracted by the fifth convolutional segment is 7 ⁇ 7 ⁇ 2048. In order to reduce the computational cost associated with the manipulation of feature vectors, dimensionality reduction processing is performed on the obtained feature vectors.
  • the classification module 505 uses the classifier to classify the obtained feature vector.
  • w i is the weight matrix
  • y i is the output of layer i
  • the fifth convolutional segment includes three fifth residual units, and the fifth residual unit in turn includes three convolutional layers of 1X1X512, 3X3X512, and 1X1X2048.
  • a linear support vector machine classifier is used to classify the obtained feature vectors.
  • the extraction of the feature vector is the output of the depth filter library.
  • the output is a vector of the form w ⁇ h ⁇ d, where w and h are the width and height of the resulting feature vector, and d is the number of channels in the convolutional layer.
  • the PCA-SVM classification pipeline is used to classify CNN functions.
  • the dimensionality reduction processing module 504 further includes a second dimensionality reduction processing unit 5042.
  • the second dimensionality reduction processing unit 5042 performs dimensionality reduction on the extracted feature vector by using principal component analysis (PCA) to convert the third convolution section, the fourth convolution section, and the fifth convolution section
  • PCA principal component analysis
  • the feature vectors output from the last residual unit of the segment are all reduced to n-dimensional vectors, where n is the number of channels of the convolutional layer from which features are extracted.
  • the convolutional layer of the last residual unit of the fifth convolution segment is 1X1X2048, where the number of channels is 2048, then the feature vectors output from the last residual unit of the fifth convolution segment are reduced to 2048-dimensional vectors .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种图像分类方法、装置及计算机可读存储介质,涉及人工智能,该方法包括:构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络(S10);分别提取深度残差网络的多个卷积层的最后一个残差单元的输出作为特征向量(S30);对得到的特征向量进行降维处理(S50);使用分类器对得到的特征向量进行分类(S70)。该方法基于深度残差网络提取的特征进行图像分类,从残差网络的较深层提取的特征比较浅层的提取的特征能够捕获更高级别的特征并且提高分类性能,分类精度高于CNN,对其他领域也具有借鉴意义。

Description

一种图像分类方法、装置及计算机可读存储介质 技术领域
本申请涉及人工智能领域,具体说,涉及一种图像分类方法、装置及计算机可读存储介质。
背景技术
人工智能技术的高速发展,深度神经网络越来越多的应用于计算机视觉中,尤其是图像分类领域。
近年来,基于深度学习根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读的应用越来越广泛。然而,在目前的分类方法中,对于大尺寸的图像,其计算量很大,且分类精度不够高。
发明内容
为解决现有技术存在的不足,本申请提供一种图像分类方法,应用于电子装置,该方法包括:构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量;对得到的特征向量进行降维处理;使用分类器对得到的特征向量进行分类。
优选地,深度残差网络由残差单元组成,每个残差单元表示为:
y i=h(x i)+F(x i,w i)
x i+1=f(y i)
其中,
F是残差函数;
f是ReLU函数;
w i是权重矩阵;
x i是第i层的输入;
y i是第i层的输出;
函数h的公式为:h(x i)=x i
残差函数F的公式为:
F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
其中,B(x i)是批量归一化;
w′ i是w i的转置;
“·”表示卷积;
σ(x i)=max(x,0)。
优选地,所述深度残差网络包括依次连接的第一卷积段、第二卷积段、第三卷积段、第四卷积段、第五卷积段,输入图像依次经过第一至第五卷积段,其中:第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数;第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;第四卷积段包括6个第四残差单元,第四残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;第五卷积段包括3个第五残差单元,第五残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
本申请还提供一种电子装置,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如下步骤:构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量;对得到的特征向量进行降维处理;使用分类器对得到的特征向量进行分类。
优选地,深度残差网络由残余单元组成,每个剩余单位表示为:
y i=h(x i)+F(x i,w i)
x i+1=f(y i)
其中,
F是残差函数;
f是ReLU函数;
w i是权重矩阵;
x i是第i层的输入;
y i是第i层的输出;
函数h的公式为:h(x i)=x i
残差函数F的公式为:
F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
其中,B(x i)是批量归一化;
w′ i是w i的转置;
“·”表示卷积;
σ(x i)=max(x,0)。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中包括图像分类程序,所述图像分类程序被处理器执行时,实现如上所述的图像分类方法的步骤。
本申请提出的图像分类方法、装置及计算机可读存储介质,基于深度残差网络提取特征进行图像分类,从深度残差网络的较深层提取的特征提取比较浅的特征提取表现更好。通过实验证实,分类精度高于CNN,对其他领域也具有借鉴意义。
附图说明
通过结合下面附图对其实施例进行描述,本申请的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本申请实施例的图像分类方法的步骤流程图;
图2是表示本申请实施例的残差单元的结构示意图;
图3是表示本申请实施例的深度残差网络的结构示意图;
图4-1是表示本申请实施例的第一种降维方法的流程示意图;
图4-2是表示本申请实施例的第二种降维方法的流程示意图;
图5是表示本申请实施例的电子装置的硬件架构示意图;
图6是表示本申请实施例的图像分类程序的程序模块图;
图7是表示本申请实施例的降维处理模块的构成示意图。
具体实施方式
下面将参考附图来描述本申请所述的图像分类方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本申请的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
应当理解,当在本说明书和权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。也应当理解,在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请提供一种图像分类方法,应用于电子装置,如图1所示,该方法包括:
步骤S10,构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络。其中,ImageNet是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,实际上就是一个巨大的可供图像/视觉训练的图片库。所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层。
步骤S30,分别提取深度残差网络的多个残差单元的输出作为特征向量。
CNN(卷积神经网络)模型中,较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更高,从而有助于识别性能的提高。深度残差网络具有更深层次的网络,其中典型的残差单元由三个卷积层组成。如图2所示。特征提取可以视为深度过滤器库的输出。该输出是形式为w×h×d的向量,其中w和h是所得特征向量的宽度和高度,d是卷积层中的信道数。因此,特征提取可以被视为具有d维的局部特征 的二维阵列。第一个卷积层是在1x1的卷积,卷积核(也就是输出通道数)为64,通过第一个卷积层的1x1的卷积把256维channel(通道)降到64维,然后通过第二个卷积层,3X3的卷积保持通道数为64维,最后通过第三个卷积层,1x1的的卷积把特征向量恢复为256维。
步骤S50,对得到的特征向量进行降维处理。由于卷积层的输出尺寸远大于传统的基于4096维CNN的特征,例如,第五卷积段提取的特征向量的尺寸为7×7×2048。为了减少与特征向量的操纵相关的计算成本,对得到的特征向量进行降维处理。
步骤S70,使用分类器对得到的特征向量进行分类。
进一步地,深度残差网络由残余单元组成,每个残差单元表示为:
y i=h(x i)+F(x i,w i)
x i+1=f(y i)
其中,
F是残差函数;
f是ReLU函数;
w i是权重矩阵;
x i是第i层的输入;
y i是第i层的输出;
函数h的公式为:h(x i)=x i
残差函数F的公式为:
F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
其中,B(x i)是批量归一化;
w′ i是w i的转置;
“·”表示卷积;
σ(x i)=max(x,0)。
通过ImageNet对深度残差网络进行预训练,也即是利用深度残差网络在ImageNet上的图片进行分类训练,获得权重矩阵w i,并利用预先训练的权重矩阵w i初始化深度残差网络。
在一个可选实施例中,如图3所示,所述深度残差网络包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积 段(conv4)、第五卷积段(conv5),以及一个第一全连接层FC1,输入图像依次经过第一至第五卷积段,并经第一全连接层FC1输出。
第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数,
第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;
第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
第四卷积段包括6个第四残差单元,第四残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
第五卷积段包括3个第五残差单元,第五残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
在一个可选实施例中,较深层的学习权重通常更具有类别特征,前面卷积层的输出向量的分类性能更优。如果使用得当,深层网络的卷积层形成非常强大的特征。因此,分别提取第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出作为特征向量。也就是说,分别提取第三卷积段、第四卷积段、第五卷积段的最后一个卷积层的输出作为特征向量。
下面具体说明一下步骤S30中输入图像经过该深度残差网络的处理过程,以输入图像的尺寸为224x224x3为例进行说明。
输入先经过第一个卷积段,输入图像的尺寸为224x224x3,输出图像的尺寸变为112x112,也就是把图像的变长缩小一半,通道数为64。
然后经过第二卷积段,第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层,因此,其通道数变为256,输出图像的尺寸为56x56。
然后经过第三卷积段,第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层,输出通道数增长为512,图像的输出尺寸是28x28。
然后经过第四卷积段,输出通道数增加到1024,图像缩小为14x14。
然后经过第五卷积段,输出通道数增加到2048,图像缩小为7x7。
再经过第一全连接层FC1输出。然而,本实施例并不是应用深度残差网络最终的输出结果,而是提取第三卷积段、第四卷积段、第五卷积段的最后 一个残差单元的输出分别作为特征向量,对应的特征向量为第三特征向量301、第四特征向量401、第五特征向量501。
再分别将第三特征向量301、第四特征向量401、第五特征向量501进行降维处理。
在一个可选实施例中,步骤S50中,对提取的特征向量进行降维的方法是采用依次连接的一个降维卷积层(conv6)、一个最大池化层、第二、第三全连接层FC2、FC3和softmax层,将从第三卷积段、第四卷积段、第五卷积段提取的特征向量分别进行降维处理。例如,如图4-1所示,将第五卷积段提取的特征向量依次输入降维卷积层、最大池化层、第二、第三全连接层FC2、FC3和softmax层。所述降维卷积层由沿512个通道的1×1的滤波器组成,步幅设置为1,并且对于所述卷积层,填充设置为零。即对卷积层的边界使用零来填充,使用零填充可以让卷积层的输出数据保持和输入数据在空间维度的不变。
在一个可选实施例中,步骤S50中,如图4-2所示,对提取的特征向量进行降维的另一方法是使用主成分分析(PCA)将第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出的特征向量都减少为n维向量,所述n是被提取特征的卷积层的通道数。例如,第五卷积段的最后一个残差单元的卷积层为1X1X2048,其中,通道数为2048,则第五卷积段的最后一个残差单元的输出的特征向量都减少为2048维向量。
在一个可选实施例中,采用线性支持向量机(SVM)分类器对得到的特征向量进行分类。图4-2显示了第五卷积段的PCA-SVM模块的流水线。该方法的实验结果表明,特征提取的维数可以在不显著降低性能的情况下显著降低。
图5所示是本申请电子装置1的硬件架构示意图。所述电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1可包括,但不仅限于,可通过系统总线相互 通信连接的存储器11、处理器14和显示器15,需要指出的是,图5仅示出了具有部分组件的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card),安全数字(Secure Digital)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如本实施例中的图像分类程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器14用于运行所述存储器11中存储的程序代码或者处理数据。所述显示器15用于显示需要分类的图像。
另外,电子装置1还包括网络接口,所述网络接口可包括无线网络接口或有线网络接口,该网络接口通常用于在所述电子装置1与其他电子设备之间建立通信连接。
图像分类程序存储在存储器11中,包括至少一个存储在存储器中的计算机可读指令,该至少一个计算机可读指令可被处理器14执行,以实现本申请各实施例的方法;以及,该至少一个计算机可读指令依据其各部分所实现的功能不同,可被划为不同的逻辑模块。
在一个实施例中,上述图像分类程序程序被所述处理器14执行时实现如下步骤:
步骤S10,构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络。其中,ImageNet是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,实际上就是一个巨大的 可供图像/视觉训练的图片库。所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层。
步骤S30,分别提取深度残差网络的多个卷积层的最后一个残差单元的输出作为特征向量。
步骤S50,对得到的特征向量进行降维处理。
步骤S70,使用分类器对得到的特征向量进行分类。
图6所示为图像分类程序50的程序模块图。在本实施例中,图像分类程序50被分割为多个模块,该多个模块被存储于存储器11中,并由处理器14执行,以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述图像分类程序50可以被分割为深度残差网络预训练模块501、深度残差网络初始化模块502、特征向量提取模块503、降维处理模块504、分类模块505。
深度残差网络预训练模块501用于在ImageNet上进行预训练,获取权重。其中,ImageNet是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,实际上就是一个巨大的可供图像/视觉训练的图片库。深度残差网络初始化模块502利用权重初始化深度残差网络。
特征向量提取模块503,分别提取深度残差网络的多个残差单元的输出作为特征向量。
CNN(卷积神经网络)模型中,较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更高,从而有助于识别性能的提高。残差网络具有更深层次的网络,其中典型的残差单元由三个卷积层组成。如图2所示。特征提取可以视为深度过滤器库的输出。该输出是形式为w×h×d的向量,其中w和h是所得特征向量的宽度和高度,d是卷积层中的信道数。因此,特征提取可以被视为具有d维的局部特征的二维阵列。第一个卷积层是在1x1的卷积,卷积核(也就是输出通道数)为64,通过第一个卷积层的1x1的卷积把256维channel(通道)降到64维,然后通过第二个卷积层,3X3的卷积保持通道数为64维,最后通过第三个卷积层,1x1的的卷积把特征向量恢复为256维。
降维处理模块504对得到的特征向量进行降维处理。由于卷积层的输出尺寸远大于传统的基于4096维CNN的特征,例如,第五卷积段提取的特征向量的尺寸为7×7×2048。为了减少与特征向量的操纵相关的计算成本,对得到的特征向量进行降维处理。
分类模块505使用分类器对得到的特征向量进行分类。
进一步地,深度残差网络由残余单元组成,每个残差单元表示为:
y i=h(x i)+F(x i,w i)
x i+1=f(y i)
其中,
F是残差函数;
f是ReLU函数;
w i是权重矩阵;
x i是第i层的输入;
y i是第i层的输出;
函数h的公式为:h(x i)=x i
残差函数F的公式为:
F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
其中,B(x i)是批量归一化;
w′ i是w i的转置;
“·”表示卷积;
σ(x i)=max(x,0)。
通过ImageNet对深度残差网络进行预训练,也即是利用深度残差网络在ImageNet上的图片进行分类训练,获得权重矩阵w i,并利用预先训练的权重矩阵w i初始化深度残差网络。
在一个可选实施例中,所述深度残差网络包括依次连接的第一卷积段(conv1)、第二卷积段(conv2)、第三卷积段(conv3)、第四卷积段(conv4)、第五卷积段(conv5),以及一个第一全连接层FC1,输入图像依次经过第一至第五卷积段,并经第一全连接层FC1输出。
第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数,
第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、 3X3X64、1X1X256三个卷积层;
第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
第四卷积段包括6个第四残差单元,第四残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
第五卷积段包括3个第五残差单元,第五残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
在一个可选实施例中,较深层的学习权重通常更具有类别特征,前面卷积层的输出向量的分类性能更优。如果使用得当,深层网络的卷积层形成非常强大的特征。因此,特征向量提取模块503分别提取第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出作为特征向量。也就是说,分别提取第三卷积段、第四卷积段、第五卷积段的最后一个卷积层的输出作为特征向量。
下面具体说明一下步骤S30中输入图像经过该深度残差网络的处理过程,以输入图像的尺寸为224x224x3为例进行说明。
输入先经过第一个卷积段,输入图像的尺寸为224x224x3,输出图像的尺寸变为112x112,也就是把图像的变长缩小一半,通道数为64。
然后经过第二卷积段,第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层,因此,其通道数变为256,输出图像的尺寸为56x56。
然后经过第三卷积段,第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层,输出通道数增长为512,图像的输出尺寸是28x28。
然后经过第四卷积段,输出通道数增加到1024,图像缩小为14x14。
然后经过第五卷积段,输出通道数增加到2048,图像缩小为7x7。
再经过第一全连接层FC1输出。然而,本实施例并不是应用深度残差网络最终的输出结果,而是提取第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出分别作为特征向量,对应的特征向量为第三特征向量301、第四特征向量401、第五特征向量501。再分别将第三特征向量301、第四特征向量401、第五特征向量501进行降维处理。
在一个可选实施例中,如图7所示,降维处理模块504还包括第一降维处理单元5041,第一降维处理单元5041对提取的特征向量进行降维的方法是采用依次连接的一个降维卷积层、一个最大池化层、第二、第三全连接层FC2、FC3和softmax层,将从第三卷积段、第四卷积段、第五卷积段提取的特征向量分别进行降维处理。例如,如图4-1所示,将第五卷积段提取的特征向量依次输入降维卷积层、最大池化层、两个全连接层和softmax层(软最大层)。所述降维卷积层由沿512个通道的1×1的滤波器组成,步幅设置为1,并且对于所述卷积层,填充设置为零。
优选地,采用线性支持向量机分类器对得到的特征向量进行分类。
优选地,对提取的特征向量进行降维的另一方法是,利用预设深度加权指数对所述深度学习特征向量进行特征降维处理,得到降维后深度学习特征向量。
优选地,特征向量的提取为深度过滤器库的输出。该输出是形式为w×h×d的向量,其中w和h是所得特征向量的宽度和高度,d是卷积层中的信道数。
优选地,使用线性支持向量机分类器对得到的特征向量进行分类。
优选地,使用PCA-SVM分类管道对CNN功能进行分类。
在一个可选实施例中,如图7所示,降维处理模块504还包括第二降维处理单元5042。如图4-2所示,第二降维处理单元5042对提取的特征向量进行降维的方法是使用主成分分析(PCA)将第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出的特征向量都减少为n维向量,所述n是被提取特征的卷积层的通道数。例如,第五卷积段的最后一个残差单元的卷积层为1X1X2048,其中,通道数为2048,则第五卷积段的最后一个残差单元的输出的特征向量都减少为2048维向量。
在一个可选实施例中,分类模块505采用线性支持向量机(SVM)分类器对得到的特征向量进行分类。图4-2显示了第五卷积段的PCA-SVM模块的流水线。该方法的实验结果表明,特征提取的维数可以在不显著降低性能的情况下显著降低。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、 可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括图像分类程序50等,所述图像分类程序50被处理器14执行时实现如下操作:
步骤S10,构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络;
步骤S30,分别提取深度残差网络的多个卷积层的最后一个残差单元的输出作为特征向量;
步骤S50,对得到的特征向量进行降维处理;
步骤S70,使用分类器对得到的特征向量进行分类。
本申请之计算机可读存储介质的具体实施方式与上述图像分类方法以及电子装置1的具体实施方式大致相同,在此不再赘述。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种图像分类方法,应用于电子装置,其特征在于,该方法包括:
    构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;
    分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量;
    对得到的特征向量进行降维处理;
    使用分类器对得到的特征向量进行分类。
  2. 如权利要求1所述的图像分类方法,其特征在于,深度残差网络由残差单元组成,每个残差单元表示为:
    y i=h(x i)+F(x i,w i)
    x i+1=f(y i)
    其中,
    F是残差函数;
    f是ReLU函数;
    w i是权重矩阵;
    x i是第i层的输入;
    y i是第i层的输出;
    函数h的公式为:h(x i)=x i
    残差函数F的公式为:
    F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
    其中,B(x i)是批量归一化;
    w′ i是w i的转置;
    “·”表示卷积;
    σ(x i)=max(x,0)。
  3. 如权利要求1所述的图像分类方法,其特征在于,
    所述深度残差网络包括依次连接的第一卷积段、第二卷积段、第三卷积段、第四卷积段、第五卷积段,输入图像依次经过第一至第五卷积段,其中:
    第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数;
    第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;
    第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
    第四卷积段包括6个第四残差单元,第四残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
    第五卷积段包括3个第五残差单元,第五残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
  4. 如权利要求3所述的图像分类方法,其特征在于,
    分别提取第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出作为特征向量。
  5. 如权利要求1所述的图像分类方法,其特征在于,
    对提取的特征向量进行降维的方法是采用一个卷积层、一个最大池化层、两个全连接层和softmax层,所述卷积层由沿512个通道的1×1的滤波器组成,步幅设置为1,并且对于卷积层的边界采用零来填充。
  6. 如权利要求3所述的图像分类方法,其特征在于,
    对提取的特征向量进行降维的另一方法是使用主成分分析将第五卷积段的最后一个残差单元的输出的特征向量减少为n维向量,n是被提取特征的卷积层的通道数。
  7. 如权利要求1所述的图像分类方法,其特征在于,
    采用线性支持向量机分类器对得到的特征向量进行分类。
  8. 如权利要求3所述的图像分类方法,其特征在于,
    对提取的特征向量进行降维的另一方法是,利用预设深度加权指数对所述深度学习特征向量进行特征降维处理,得到降维后深度学习特征向量。
  9. 如权利要求3所述的图像分类方法,其特征在于,
    特征向量的提取为深度过滤器库的输出。该输出是形式为w×h×d的向量,其中w和h是所得特征向量的宽度和高度,d是卷积层中的信道数。
  10. 如权利要求1所述的图像分类方法,其特征在于,
    使用线性支持向量机分类器对得到的特征向量进行分类。
  11. 如权利要求3所述的图像分类方法,其特征在于,
    使用PCA-SVM分类管道对CNN功能进行分类。
  12. 一种电子装置,其特征在于,所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如下步骤:
    构建深度残差网络,并在ImageNet上进行预训练,获取权重,并利用权重初始化深度残差网络,所述深度残差网络包括多个卷积段,其中,每个卷积段包括多个残差单元,每个残差单元又依次包括三个卷积层;
    分别提取深度残差网络的多个卷积段的最后一个残差单元的输出作为特征向量;
    对得到的特征向量进行降维处理;
    使用分类器对得到的特征向量进行分类。
  13. 如权利要求12所述的电子装置,其特征在于,深度残差网络由残余单元组成,每个剩余单位表示为:
    y i=h(x i)+F(x i,w i)
    x i+1=f(y i)
    其中,
    F是残差函数;
    f是ReLU函数;
    w i是权重矩阵;
    x i是第i层的输入;
    y i是第i层的输出;
    函数h的公式为:h(x i)=x i
    残差函数F的公式为:
    F(x i,w i)=w i·σ(B(w′ i)·σ(B(x i)))
    其中,B(x i)是批量归一化;
    w′ i是w i的转置;
    “·”表示卷积;
    σ(x i)=max(x,0)。
  14. 如权利要求13所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,
    所述深度残差网络包括依次连接的第一卷积段、第二卷积段、第三卷积段、第四卷积段、第五卷积段,输入图像依次经过第一至第五卷积段,其中:
    第一卷积段包括7x7x64的卷积,其中,7X7表示卷积核,64表示通道数;
    第二卷积段包括3个第二残差单元,第二残差单元又依次包括1X1X64、3X3X64、1X1X256三个卷积层;
    第三卷积段包括4个第三残差单元,第三残差单元又依次包括1X1X128、3X3X128、1X1X512三个卷积层;
    第四卷积段包括6个第四残差单元,第四残差单元又依次包括1X1X256、3X3X256、1X1X1024三个卷积层;
    第五卷积段包括3个第五残差单元,第五残差单元又依次包括1X1X512、3X3X512、1X1X2048三个卷积层。
  15. 如权利要求14所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,分别提取第三卷积段、第四卷积段、第五卷积段的最后一个残差单元的输出作为特征向量。
  16. 如权利要求14所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,对提取的特征向量进行降维的方法是采用一个卷积层、一个最大池化层、两个全连接层和softmax层,所述卷积层由沿512个通道的1×1的滤波器组成,步幅设置为1,并且对于卷积层的边界采用零来填充。
  17. 如权利要求14所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,采用线性支持向量机分类器对得到的特征向量进行分类。
  18. 如权利要求14所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,特征向量的提取为深度过滤器库的输出。该输出是形式为w×h×d的向量,其中w和h是所得特征向量的宽度和高度,d是卷积层中的信道数。
  19. 如权利要求14所述的电子装置,其特征在于,所述图像分类程序被所述处理器执行时,使用线性支持向量机分类器对得到的特征向量进行分类。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括图像分类程序,所述图像分类程序被处理器执行时,实现如权利要求1至11中任一项所述的图像分类方法的步骤。
PCT/CN2019/089181 2018-11-14 2019-05-30 一种图像分类方法、装置及计算机可读存储介质 WO2020098257A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811350802.XA CN109635842A (zh) 2018-11-14 2018-11-14 一种图像分类方法、装置及计算机可读存储介质
CN201811350802.X 2018-11-14

Publications (1)

Publication Number Publication Date
WO2020098257A1 true WO2020098257A1 (zh) 2020-05-22

Family

ID=66067983

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/089181 WO2020098257A1 (zh) 2018-11-14 2019-05-30 一种图像分类方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109635842A (zh)
WO (1) WO2020098257A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159164A (zh) * 2021-04-19 2021-07-23 杭州科技职业技术学院 基于分布式的工业互联网设备协同作业方法
CN116385806A (zh) * 2023-05-29 2023-07-04 四川大学华西医院 眼部图像斜视类型的分类方法、系统、设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN110651277B (zh) * 2019-08-08 2023-08-01 京东方科技集团股份有限公司 计算机实现的方法、计算机实现的诊断方法、图像分类设备、以及计算机程序产品
CN110738235B (zh) * 2019-09-16 2023-05-30 平安科技(深圳)有限公司 肺结核判定方法、装置、计算机设备及存储介质
CN111192237B (zh) * 2019-12-16 2023-05-02 重庆大学 一种基于深度学习的涂胶检测系统和方法
WO2021179117A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 神经网络通道数搜索方法和装置
CN112200302B (zh) * 2020-09-27 2021-08-17 四川翼飞视科技有限公司 一种用于图像分类的加权残差神经网络的构建方法
CN112465053A (zh) * 2020-12-07 2021-03-09 深圳市彬讯科技有限公司 基于家具图像的物体识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229952A (zh) * 2017-06-01 2017-10-03 雷柏英 图像的识别方法及装置
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
CN108596108A (zh) * 2018-04-26 2018-09-28 中国科学院电子学研究所 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN108596069A (zh) * 2018-04-18 2018-09-28 南京邮电大学 基于深度3d残差网络的新生儿疼痛表情识别方法及系统
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650781A (zh) * 2016-10-21 2017-05-10 广东工业大学 一种卷积神经网络图像识别方法及装置
CN106709453B (zh) * 2016-12-24 2020-04-17 北京工业大学 一种基于深度学习的体育视频关键姿态提取方法
CN107527044B (zh) * 2017-09-18 2021-04-30 北京邮电大学 一种基于搜索的多张车牌清晰化方法及装置
CN107590774A (zh) * 2017-09-18 2018-01-16 北京邮电大学 一种基于生成对抗网络的车牌清晰化方法及装置
CN108764134A (zh) * 2018-05-28 2018-11-06 江苏迪伦智能科技有限公司 一种适用于巡检机器人的多类型仪表自动定位与识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229952A (zh) * 2017-06-01 2017-10-03 雷柏英 图像的识别方法及装置
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
CN108596069A (zh) * 2018-04-18 2018-09-28 南京邮电大学 基于深度3d残差网络的新生儿疼痛表情识别方法及系统
CN108596108A (zh) * 2018-04-26 2018-09-28 中国科学院电子学研究所 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159164A (zh) * 2021-04-19 2021-07-23 杭州科技职业技术学院 基于分布式的工业互联网设备协同作业方法
CN113159164B (zh) * 2021-04-19 2023-05-12 杭州科技职业技术学院 基于分布式的工业互联网设备协同作业方法
CN116385806A (zh) * 2023-05-29 2023-07-04 四川大学华西医院 眼部图像斜视类型的分类方法、系统、设备及存储介质
CN116385806B (zh) * 2023-05-29 2023-09-08 四川大学华西医院 眼部图像斜视类型的分类方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN109635842A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
WO2020098257A1 (zh) 一种图像分类方法、装置及计算机可读存储介质
CN110188795B (zh) 图像分类方法、数据处理方法和装置
WO2020238293A1 (zh) 图像分类方法、神经网络的训练方法及装置
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
Zhang et al. End-to-end photo-sketch generation via fully convolutional representation learning
Paisitkriangkrai et al. Pedestrian detection with spatially pooled features and structured ensemble learning
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
He et al. Supercnn: A superpixelwise convolutional neural network for salient object detection
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
KR102545128B1 (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
CN109902548B (zh) 一种对象属性识别方法、装置、计算设备及系统
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
US20220148291A1 (en) Image classification method and apparatus, and image classification model training method and apparatus
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN110222718B (zh) 图像处理的方法及装置
CN110473137A (zh) 图像处理方法和装置
US20220157041A1 (en) Image classification method and apparatus
EP4322056A1 (en) Model training method and apparatus
EP4006777A1 (en) Image classification method and device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19885117

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19885117

Country of ref document: EP

Kind code of ref document: A1