WO2020199468A1 - 图像分类方法、装置及计算机可读存储介质 - Google Patents

图像分类方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2020199468A1
WO2020199468A1 PCT/CN2019/102186 CN2019102186W WO2020199468A1 WO 2020199468 A1 WO2020199468 A1 WO 2020199468A1 CN 2019102186 W CN2019102186 W CN 2019102186W WO 2020199468 A1 WO2020199468 A1 WO 2020199468A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature point
salient feature
feature points
salient
Prior art date
Application number
PCT/CN2019/102186
Other languages
English (en)
French (fr)
Inventor
庞烨
王义文
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020199468A1 publication Critical patent/WO2020199468A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Definitions

  • the classic ResNet uses a residual network with fewer parameters, and brings higher accuracy and a 50-layer convolution model for image processing.
  • the current convolutional neural network only considers its own classification loss, and at the same time, it is more susceptible to the adverse effects of viewing angle changes and noise in the process of image feature extraction. Therefore, in order to optimize the classification effect, the CNN network needs to be able to learn better features, and then used for classification.
  • This application provides an image classification method, device and computer-readable storage medium, the main purpose of which is to provide a preferred image classification scheme.
  • an image classification method provided by this application includes:
  • Input a preset number of image samples, use a preset type of feature point extraction algorithm to extract the salient feature points in each of the image samples, and respectively save the salient feature points corresponding to each of the image samples as the image of the corresponding image sample Label
  • Construct a convolutional neural network model divide all the image samples and the image annotations of the obtained image samples into test set images and training set images, use the training set images to train the convolutional neural network model, and use all Testing the convolutional neural network model with the test set image;
  • the present application also provides an image classification device, which includes a memory and a processor.
  • the memory stores an image classification program that can be run on the processor, and the image classification program is
  • the processor implements the following steps when executing:
  • Input a preset number of image samples, use a preset type of feature point extraction algorithm to extract the salient feature points in each of the image samples, and respectively save the salient feature points corresponding to each of the image samples as the image of the corresponding image sample Label
  • the present application also provides a computer-readable storage medium with an image classification program stored on the computer-readable storage medium, and the image classification program can be executed by one or more processors to achieve The steps of the image classification method as described above.
  • the image classification method, device and computer-readable storage medium proposed in this application input a preset number of image samples, use a preset type feature point extraction algorithm to extract the salient feature points in each of the image samples, and separately
  • the salient feature points corresponding to the image samples are saved as the image annotations of the corresponding image samples;
  • the convolutional neural network model is constructed, and the image annotations of all the image samples and the image samples obtained above are divided into test set images and training set images, using
  • the training set image trains the constructed convolutional neural network model, and the test set image is used to test the convolutional neural network model;
  • the image to be classified is input into the trained convolutional neural network model , Extracting the salient feature points of the image to be classified, and classifying the image according to the salient feature points. Therefore, the convolutional neural network model can be trained to learn the scale-invariant feature transformation algorithm to extract image feature points, and to achieve image classification based on the extraction of image feature points.
  • FIG. 1 is a schematic flowchart of an image classification method provided by an embodiment of this application.
  • the image classification method includes:
  • the step S1 includes:
  • the purpose of the scale space is to detect features that are still stable in the image when the scale changes.
  • this application traverses the pixels of each image in the DoG pyramid and compares the 8 pixels around the current pixel point and the 18 pixels of the upper and lower images, a total of 26 pixels , To ensure that extreme points are detected in both the scale space and the two-dimensional image space.
  • a point is considered to be one of the candidate feature points of the image at this scale if it is the maximum or minimum value in the 26 neighborhoods of this level and the upper and lower levels of the scale space.
  • each group of images of the DoG pyramid cannot be compared to obtain extreme values.
  • Gaussian blur is used to generate 3 images on the top layer of each group of images of the DoG pyramid.
  • Each group of Gaussian pyramid has S+3 layer images, and each group of DoG pyramid has S+2 group images.
  • each group has 3 layers
  • each group of Gaussian pyramid has (S-1)*3 layer images
  • each group of DoG pyramid has (S-2)*2 layer images.
  • the first group of DoG pyramid there are two levels of scales ⁇ and k ⁇
  • the second group has two levels of scales respectively 2 ⁇ and 2k ⁇ . Because only two items cannot be compared to obtain extreme values (only when there are values on both sides) There are extreme values).
  • the candidate feature points of the image sample obtained above need to be positioned to determine the location of the candidate feature points.
  • the present application screens the candidate feature points to remove low-contrast candidate feature points and unstable edge candidate feature points, the method is as follows:
  • the present application calculates the principal curvature of the curved surface at the candidate feature point, and then removes unstable edge candidate feature points.
  • the main curvature of the D(x) function of the candidate feature point is proportional to the feature value of 2 ⁇ 2H:
  • H is the difference matrix of the corresponding position of the candidate feature point neighborhood, Among them, D xx , D xy , D yx , D yx are obtained by the difference of the corresponding positions of the candidate feature points in the neighborhood. In order to avoid finding specific values, you can use the H feature value ratio.
  • This application uses the gradient direction distribution characteristics of the pixels in the neighborhood of the key point to specify the direction parameter for each salient feature point, so that the operator has rotation invariance.
  • ⁇ (x,y) ⁇ tan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
  • L is the scale of each salient feature point
  • H is the difference matrix of the corresponding positions of the candidate feature points in the neighborhood.
  • each salient feature point of the image has three pieces of information: position, scale, and direction, from which a SIFT feature area can be determined.
  • the next step is to construct the descriptor of the salient feature point according to the local features around the salient feature point.
  • the generation process is as follows:
  • the descriptor constructed by the salient feature point of the image sample is extracted, and the salient feature point is saved as the image label of the image sample.
  • the preset model is a ResNet50 model.
  • the step of training the constructed convolutional neural network model using the image samples and the image annotations of the image samples obtained above includes:
  • BN batch normalization
  • the training set image passes through the input layer, its feature map is extracted by the convolutional layer, and then subjected to the activation function for nonlinear transformation, and then output from the output layer and enter the next neural unit.
  • the activation functions described in this application include tanh function and sigmoid function, as follows:
  • the CNN model composed of input layer, convolution layer, activation function and output layer can be expressed as:
  • ResNet50 deep residual network
  • Conv5_x will output the classification, but in CNN, the input image is convolved with three trainable filters and addable bias to generate three feature maps, and then each group of feature maps The four pixels are then summed, weighted, and offset, and three feature maps are obtained through a Sigmoid function. These maps are then filtered, and finally, these pixel values are rasterized, and connected into a vector input to the traditional neural network to get the output. In this case, the feature map is output as the salient feature point.
  • the application also provides an image classification device.
  • FIG. 2 it is a schematic diagram of the internal structure of an image classification device provided by an embodiment of this application.
  • the image classification device 1 may be a PC (Personal Computer, personal computer), or a terminal device such as a smart phone, a tablet computer, or a portable computer.
  • the image classification device 1 at least includes a memory 11, a processor 12, a communication bus 13, and a network interface 14.
  • the memory 11 includes at least one type of readable storage medium.
  • the readable storage medium includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), magnetic memory, magnetic disk, and optical disk.
  • the memory 11 may be an internal storage unit of the image classification device 1 in some embodiments, such as a hard disk of the image classification device 1.
  • the memory 11 may also be an external storage device of the image classification device 1, such as a plug-in hard disk, a smart media card (SMC), and a secure digital (Secure Digital, SD card, Flash Card, etc.
  • the memory 11 may also include both an internal storage unit of the image classification apparatus 1 and an external storage device.
  • the memory 11 can be used not only to store application software and various data installed in the image classification device 1, such as the code of the image classification program 01, etc., but also to temporarily store data that has been output or will be output.
  • the processor 12 may be a central processing unit (CPU), controller, microcontroller, microprocessor or other data processing chip in some embodiments, and is used to run the program code or processing stored in the memory 11 Data, for example, execute image classification program 01 etc.
  • CPU central processing unit
  • controller microcontroller
  • microprocessor microprocessor or other data processing chip in some embodiments, and is used to run the program code or processing stored in the memory 11 Data, for example, execute image classification program 01 etc.
  • the communication bus 13 is used to realize the connection and communication between these components.
  • the network interface 14 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface), and is usually used to establish a communication connection between the device 1 and other electronic devices.
  • the device 1 may also include a user interface.
  • the user interface may include a display (Display) and an input unit such as a keyboard (Keyboard).
  • the optional user interface may also include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light emitting diode) touch device, etc.
  • the display can also be called a display screen or a display unit as appropriate, for displaying the information processed in the image classification device 1 and for displaying a visualized user interface.
  • Figure 2 only shows the image classification device 1 with components 11-14 and the image classification program 01. Those skilled in the art can understand that the structure shown in Figure 1 does not constitute a limitation on the image classification device 1, and may include Fewer or more components than shown, or some combination of components, or different component arrangement.
  • the image classification program 01 is stored in the memory 11; when the processor 12 executes the image classification program 01 stored in the memory 11, the following steps are implemented:
  • Step 1 Input a preset number of image samples, use a preset type feature point extraction algorithm to extract the salient feature points in each of the image samples, and save the salient feature points corresponding to each of the image samples as the corresponding images Image annotation of the sample.
  • the preset type feature point extraction algorithm described in this application is the Scale Invariant Feature Transform (SIFT, Scale Invariant Feature Transform) algorithm.
  • SIFT Scale Invariant Feature Transform
  • Scale Invariant Feature Transform Scale Invariant Feature Transform
  • the SIFT is mainly used to extract key points of an image, and the extracted key points can be used for other operations such as feature matching.
  • the step S1 includes:
  • the purpose of the scale space is to detect features that are still stable in the image when the scale changes.
  • G(x,y, ⁇ ) constitutes a variable-scale 2-dimensional Gaussian function.
  • this application traverses the pixels of each image in the DoG pyramid and compares the 8 pixels around the current pixel point and the 18 pixels of the upper and lower images, a total of 26 pixels , To ensure that extreme points are detected in both the scale space and the two-dimensional image space.
  • a point is considered to be one of the candidate feature points of the image at this scale if it is the maximum or minimum value in the 26 neighborhoods of this level and the upper and lower levels of the scale space.
  • each group of images of the DoG pyramid cannot be compared to obtain extreme values.
  • Gaussian blur is used to generate 3 images on the top layer of each group of images of the DoG pyramid.
  • Each group of Gaussian pyramid has S+3 layer images, and each group of DoG pyramid has S+2 group images.
  • each group has 3 layers
  • each group of Gaussian pyramid has (S-1)*3 layer images
  • each group of DoG pyramid has (S-2)*2 layer images.
  • the first group of the DoG pyramid there are two levels of scales ⁇ and k ⁇
  • the second group has two levels of scales respectively 2 ⁇ and 2k ⁇ . Because only two items cannot be compared to obtain extreme values (only when the left and right sides have values) There are extreme values).
  • the candidate feature points of the image sample obtained above need to be positioned to determine the location of the candidate feature points.
  • the present application screens the candidate feature points to remove low-contrast candidate feature points and unstable edge candidate feature points, the method is as follows:
  • the CNN model composed of input layer, convolution layer, activation function and output layer can be expressed as:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种图像分类方法,该方法包括:输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注(S1);构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试(S2);将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类(S3)。还提出一种图像分类装置以及一种计算机可读存储介质。可以训练卷积神经网络模型学习尺度不变特征变换算法提取图像特征点,以实现图像的分类。

Description

图像分类方法、装置及计算机可读存储介质
本申请要求于2019年04月04日提交中国专利局、申请号为201910269283.2、发明名称为“图像分类方法、装置及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像分类方法、装置及计算机可读存储介质。
背景技术
近几年来,随着卷积神经网络在图像处理领域的逐渐成熟,如何得到准确可靠的训练模型成为人们研究的热点。目前卷积神经网络的错误率从AlexNet的16.4%到现在广为使用的ResNet的3.6%,理论上错误率已经低于人眼错误率的5.1%。但是,在实际场景应用中,由于环境的复杂度增加,图像更容易受到光照,角度,像素等的影响,错误率会比理论上大大增加。
经典ResNet采用残差网络具备更少的参数,并为图像处理带来了更高的准确率和50层的卷积模型。然而进行模型训练时,目前的卷积神经网络仅考虑自身的分类损失,同时在图像特征提取过程中更容易受到视角变化、噪声的不良影响。因此,为了优化分类效果,需要CNN网络能够学习到更好的特征,然后用于分类。
发明内容
本申请提供一种图像分类方法、装置及计算机可读存储介质,其主要目的在于提供一种优选的图像分类方案。
为实现上述目的,本申请提供的一种图像分类方法,包括:
输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;
构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
此外,为实现上述目的,本申请还提供一种图像分类装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如下步骤:
输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征 点保存为对应的图像样本的图像标注;
构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序可被一个或者多个处理器执行,以实现如上所述的图像分类方法的步骤。
本申请提出的图像分类方法、装置及计算机可读存储介质输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。因此,可以训练卷积神经网络模型学习尺度不变特征变换算法提取图像特征点,并且根据对图像特征点的提取实现图像的分类。
附图说明
图1为本申请一实施例提供的图像分类方法的流程示意图;
图2为本申请一实施例提供的图像分类装置的内部结构示意图;
图3为本申请一实施例提供的图像分类装置中图像分类程序的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种图像分类方法。参照图1所示,为本申请一实施例提供的图像分类方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,所述图像分类方法包括:
S1、输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注。
本申请所述预设类型特征点提取算法为尺度不变特征变换(SIFT,Scale Invariant Feature Transform)算法。所述SIFT主要用来对图像进行关键点提取,提取后的关键点可以用来做特征匹配等其他操作。
详细的,所述步骤S1包括:
逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
1.1、利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
1.2、将高斯金字塔转化为DoG金字塔,即差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成DoG金字塔。
1.3、对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点。
尺度空间的目的是检测在尺度变化时,图像中仍然稳定的特征。
原始图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表该图像样本的尺度空间,
Figure PCTCN2019102186-appb-000001
σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度的2维高斯函数。
本申请在进行多尺度空间极值点检测时,遍历所述DoG金字塔中每一张图像的像素,比较当前像素点周围的8个像素,以及上下两张图像的18个像素,共26个像素,以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在尺度空间本层以及上下两层的26个邻域中是最大或最小值时,就认为该点是图像在该尺度下的其中一个候选特征点。
DoG金字塔的每组图像中的第一层和最后一层是无法进行比较取得极值的。为了满足尺度变换的连续性,在所述DoG金字塔的每组图像的顶层使用高斯模糊生成3幅图像,高斯金字塔每组有S+3层图像,DoG金字塔的每组有S+2组图像。
取S=3,也就是每组有3层,则
Figure PCTCN2019102186-appb-000002
即高斯金字塔每组有(S-1)*3层图像,DoG金字塔每组有(S-2)*2层图像。在DoG金字塔的第一组有两层尺度分别是σ,kσ,第二组有两层的尺度分别是2σ,2kσ,由于只有两项是无法比较取得极值的(只有左右两边都有值才能有极值)。无法比较取得极值,需要继续对每组的图像进行高斯模糊,使得尺度形成σ,kσ,k 2σ,k 3σ,k 4σ,这样就可以选择中间的三项kσ,k 2σ,k 3σ,。对应的下一组由上一组降采样得到的三项是2kσ,2k 2σ,2k 3σ,其首项
Figure PCTCN2019102186-appb-000003
刚好与上一组的最后一项
Figure PCTCN2019102186-appb-000004
的尺度连续起来。
1.4对得到的该图像样本的候选特征点进行定位,并去掉低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点。
上述得到的图像样本的候选特征点,需要进行定位,以确定所述候选特征点的位置。本申请对尺度空间G(x,y,σ)进行二次泰勒展开:
Figure PCTCN2019102186-appb-000005
Figure PCTCN2019102186-appb-000006
然后进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
Figure PCTCN2019102186-appb-000007
进一步地,本申请对所述候选特征点进行筛选,去掉低对比度的候选特征点和不稳定的边缘候选特征点,方法如下:
首先,本申请将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
Figure PCTCN2019102186-appb-000008
设对比度的预设阈值为T=0.03,如果
Figure PCTCN2019102186-appb-000009
则保留该候选特征点,否则作为低对比度候选特征点丢弃。
进一步地,本申请计算曲面在该候选特征点的主曲率,进而去除不稳定的边缘候选特征点。候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
Figure PCTCN2019102186-appb-000010
其中,D xx,D xy,D yx,D yx是候选特征点邻域对应位置的差分求得的。为了避免求具体的值,可以使用H特征值得比例。设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xy 2=α·β。其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式。设
Figure PCTCN2019102186-appb-000011
表示最大特征值和最小特征值的比值,则
Figure PCTCN2019102186-appb-000012
上式的结果与两个特征值的比例有关,和具体的大小无关,当两个特征值相等时其值最小,并且随着γ的增大而增大。因此为了检测主曲率是否在某个阈值T γ下,只需检测
Figure PCTCN2019102186-appb-000013
如果上式成立,则剔除该候选特征点,否则保留该候选特征点。
1.5计算所述显著特征点的主方向。
本申请利用关键点邻域像素的梯度方向分布特性为每个显著特征点指定方向参数,使算子具备旋转不变性。
每个点L(x,y)处梯度的模值m(x,y)和方向θ(x,y)公式如下:
Figure PCTCN2019102186-appb-000014
θ(x,y)=α tan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
其中,L为每个显著特征点所在的尺度,α=λ max为H的最大特征值,H为候选特征点邻域对应位置的差分矩阵。
至此,图像的显著特征点已经提取完毕,每个显著特征点有三个信息:位置,尺度、方向,由此可以确定一个SIFT特征区域。
1.6构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将 所述显著特征点保存为该图像样本的图像标注。
所述显著特征点在确定了位置、尺度和方向之后,下一步就是根据所述显著特征点周围的局部特征构造所述显著特征点的描述子,其生成过程如下:
①旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向上,确保旋转不变性。
②在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值。
③将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。这时的SIFT特征向量已经取出来对旋转和尺度变化带来的影响。最后进行灰度值的归一化,消除光线的影响。
根据上述算法提取到图像样本的显著特征点构造的描述子,将所述显著特征点保存为该图像样本的图像标注。
S2、构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试。
本申请较佳实施例中,所述预设模型为ResNet50模型。
本申请较佳实施例将图像样本和图像对应的图像标注分为测试集和训练集,其中,图像样本的70%作为训练集图像,30%作为测试集图像。
本申请较佳实施例中,利用所述图像样本和上述得到的图像样本的图像标注训练所述构建的卷积神经网络模型的步骤包括:
2.1对训练集图像进行批量标准化。
网络训练过程中CNN内部节点的分布变化称为内部协变量的转移,通常认为它是影响网络训练速度的重要原因。为减少内部协变量的转移,提出了批量标准化(Batch Normalization,BN),它通过在每个非线性变换引入标准化和移位步骤,有效地解决了内部协变量转移的问题,从而大大加快了网络的收敛速度。本申请较佳实施例利用下述公式对训练集图像进行批量标准化:
y=f(BN(W x))
其中,x是输入;y是输出;W是卷积矩阵;f是ReLU函数。
2.2将所述训练集图像输入至由输入层、卷积层(Convolution,Conv)、激活函数和输出层构成的残差网络结构的CNN模型。
所述训练集图像经过输入层后,由卷积层提取其特征图,再经过激活函数进行非线性变换,然后从输出层输出,并进入下一个神经单元。本申请所 述激活函数包括tanh函数和sigmoid函数,如下:
f(x)=tanh(x)
f(x)=(1+e -x) -1
其中,由输入层、卷积层、激活函数和输出层组成的CNN模型可表达为:
y=f(Wx+b)
其中,x是输入;y是输出;W是卷积矩阵;b是卷积偏置;f是ReLU函数。
2.3利用图像集合,构建标准50层深度残差网络(ResNet50)网络结构。
深度残差网络(ResNet)出现其实就是为了解决网络深度变深以后的性能退化问题。因此,在本案例中采用ResNet50作为CNN模型,不仅是具有更深层的结构,也增强了模型非线性能力,能够更好的拟合数据。标准的ResNet50中网络分成5部分,分别是:conv1,conv2_x,conv3_x,conv4_x,conv5_x,首先有个输入7x7x64的卷积,然后经过3+4+6+3=16个building block,每个block为3层,所以有16x3=48层,最后有个fc层(用于分类),所以1+48+1=50层。
在标准的ResNet中,Conv5_x会输出分类,然而CNN中,输入图像通过和三个可训练的滤波器和可加偏置进行卷积,产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个特征映射图。这些映射图再进过滤波,最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。本案例中将特征映射作为显著特征点输出。
计算显著特征点损失(Loss)与分类损失(Loss),并将其用于进行反向传播计算误差值,更新权重训练CNN模型。
所述Loss的计算公式:
Figure PCTCN2019102186-appb-000015
y为图像所属于的类别编号,是真实的标签值;z为图像所对应的数据,这个数据也是输入softmax层的数据,这个数据是ResNet输出的数据,即特征映射和分类器传出。根据loss调整各层参数,不断迭代直至收敛。最终得到训练好的ResNet50模型。
S3、将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
本申请还提供一种图像分类装置。参照图2所示,为本申请一实施例提供的图像分类装置的内部结构示意图。
在本实施例中,图像分类装置1可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该图像分类装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁 性存储器、磁盘、光盘等。存储器11在一些实施例中可以是图像分类装置1的内部存储单元,例如该图像分类装置1的硬盘。存储器11在另一些实施例中也可以是图像分类装置1的外部存储设备,例如图像分类装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括图像分类装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于图像分类装置1的应用软件及各类数据,例如图像分类程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行图像分类程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在图像分类装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及图像分类程序01的图像分类装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对图像分类装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有图像分类程序01;处理器12执行存储器11中存储的图像分类程序01时实现如下步骤:
步骤一、输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注。
本申请所述预设类型特征点提取算法为尺度不变特征变换(SIFT,Scale Invariant Feature Transform)算法。所述SIFT主要用来对图像进行关键点提取,提取后的关键点可以用来做特征匹配等其他操作。
详细的,所述步骤S1包括:
逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
1.1、利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
1.2、将高斯金字塔转化为DoG金字塔,即差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成DoG金字塔。
1.3、对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点。
尺度空间的目的是检测在尺度变化时,图像中仍然稳定的特征。
原始图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表该图像样本的尺度空间,
Figure PCTCN2019102186-appb-000016
σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度的2维高斯函数。
本申请在进行多尺度空间极值点检测时,遍历所述DoG金字塔中每一张图像的像素,比较当前像素点周围的8个像素,以及上下两张图像的18个像素,共26个像素,以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在尺度空间本层以及上下两层的26个邻域中是最大或最小值时,就认为该点是图像在该尺度下的其中一个候选特征点。
DoG金字塔的每组图像中的第一层和最后一层是无法进行比较取得极值的。为了满足尺度变换的连续性,在所述DoG金字塔的每组图像的顶层使用高斯模糊生成3幅图像,高斯金字塔每组有S+3层图像,DoG金字塔的每组有S+2组图像。
取S=3,也就是每组有3层,则
Figure PCTCN2019102186-appb-000017
即高斯金字塔每组有(S-1)*3层图像,DoG金字塔每组有(S-2)*2层图像。在DoG金字塔的第一组有两层尺度分别是σ,kσ,第二组有两层的尺度分别是2σ,2kσ,由于只有两项是无法比较取得极值的(只有左右两边都有值才能有极值)。无法比较取得极值,需要继续对每组的图像进行高斯模糊,使得尺度形成σ,kσ,k 2σ,k 3σ,k 4σ,这样就可以选择中间的三项kσ,k 2σ,k 3σ,。对应的下一组由上一组降采样得到的三项是2kσ,2k 2σ,2k 3σ,其首项
Figure PCTCN2019102186-appb-000018
刚好与上一组的最后一项
Figure PCTCN2019102186-appb-000019
的尺度连续起来。
1.4对得到的该图像样本的候选特征点进行定位,并去掉低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点。
上述得到的图像样本的候选特征点,需要进行定位,以确定所述候选特征点的位置。本申请对尺度空间G(x,y,σ)进行二次泰勒展开:
Figure PCTCN2019102186-appb-000020
Figure PCTCN2019102186-appb-000021
然后进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
Figure PCTCN2019102186-appb-000022
进一步地,本申请对所述候选特征点进行筛选,去掉低对比度的候选特征点和不稳定的边缘候选特征点,方法如下:
首先,本申请将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
Figure PCTCN2019102186-appb-000023
设对比度的预设阈值为 T=0.03,如果
Figure PCTCN2019102186-appb-000024
则保留该候选特征点,否则作为低对比度候选特征点丢弃。
进一步地,本申请计算曲面在该候选特征点的主曲率,进而去除不稳定的边缘候选特征点。候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
Figure PCTCN2019102186-appb-000025
其中,D xx,D xy,D yx,D yy是候选特征点邻域对应位置的差分求得的。为了避免求具体的值,可以使用H特征值得比例。设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xy 2=α·β。其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式。设
Figure PCTCN2019102186-appb-000026
表示最大特征值和最小特征值的比值,则
Figure PCTCN2019102186-appb-000027
上式的结果与两个特征值的比例有关,和具体的大小无关,当两个特征值相等时其值最小,并且随着γ的增大而增大。因此为了检测主曲率是否在某个阈值T γ下,只需检测
Figure PCTCN2019102186-appb-000028
如果上式成立,则剔除该候选特征点,否则保留该候选特征点。
1.5计算所述显著特征点的主方向。
本申请利用关键点邻域像素的梯度方向分布特性为每个显著特征点指定方向参数,使算子具备旋转不变性。
每个点L(x,y)处梯度的模值m(x,y)和方向θ(x,y)公式如下:
Figure PCTCN2019102186-appb-000029
θ(x,y)=α tan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
其中,L为每个显著特征点所在的尺度,α=λ max为H的最大特征值,H为候选特征点邻域对应位置的差分矩阵。
至此,图像的显著特征点已经提取完毕,每个显著特征点有三个信息:位置,尺度、方向,由此可以确定一个SIFT特征区域。
1.6构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将所述显著特征点保存为该图像样本的图像标注。
所述显著特征点在确定了位置、尺度和方向之后,下一步就是根据所述显著特征点周围的局部特征构造所述显著特征点的描述子,其生成过程如下:
①旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向上,确保旋转不变性。
②在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值。
③将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述 显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。这时的SIFT特征向量已经取出来对旋转和尺度变化带来的影响。最后进行灰度值的归一化,消除光线的影响。
根据上述算法提取到图像样本的显著特征点构造的描述子,将所述显著特征点保存为该图像样本的图像标注。
步骤二、构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试。
本申请较佳实施例中,所述预设模型为ResNet50模型。
本申请较佳实施例将图像样本和图像对应的图像标注分为测试集和训练集,其中,图像样本的70%作为训练集图像,30%作为测试集图像。
本申请较佳实施例中,利用所述图像样本和上述得到的图像样本的图像标注训练所述构建的卷积神经网络模型的步骤包括:
2.1对训练集图像进行批量标准化。
网络训练过程中CNN内部节点的分布变化称为内部协变量的转移,通常认为它是影响网络训练速度的重要原因。为减少内部协变量的转移,提出了批量标准化(Batch Normalization,BN),它通过在每个非线性变换引入标准化和移位步骤,有效地解决了内部协变量转移的问题,从而大大加快了网络的收敛速度。本申请较佳实施例利用下述公式对训练集图像进行批量标准化:
y=f(BN(W x))
其中,x是输入;y是输出;W是卷积矩阵;f是ReLU函数。
2.2将所述训练集图像输入至由输入层、卷积层(Convolution,Conv)、激活函数和输出层构成的残差网络结构的CNN模型。
所述训练集图像经过输入层后,由卷积层提取其特征图,再经过激活函数进行非线性变换,然后从输出层输出,并进入下一个神经单元。本申请所述激活函数包括tanh函数和sigmoid函数,如下:
f(x)=tanh(x)
f(x)=(1+e -x) -1
其中,由输入层、卷积层、激活函数和输出层组成的CNN模型可表达为:
y=f(Wx+b)
其中,x是输入;y是输出;W是卷积矩阵;b是卷积偏置;f是ReLU函数。
2.3利用图像集合,构建标准50层深度残差网络(ResNet50)网络结构。
深度残差网络(ResNet)出现其实就是为了解决网络深度变深以后的性能退化问题。因此,在本案例中采用ResNet50作为CNN模型,不仅是具有更 深层的结构,也增强了模型非线性能力,能够更好的拟合数据。标准的ResNet50中网络分成5部分,分别是:conv1,conv2_x,conv3_x,conv4_x,conv5_x,首先有个输入7x7x64的卷积,然后经过3+4+6+3=16个building block,每个block为3层,所以有16x3=48层,最后有个fc层(用于分类),所以1+48+1=50层。
在标准的ResNet中,Conv5_x会输出分类,然而CNN中,输入图像通过和三个可训练的滤波器和可加偏置进行卷积,产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个特征映射图。这些映射图再进过滤波,最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。本案例中将特征映射作为显著特征点输出。
计算显著特征点损失(Loss)与分类损失(Loss),并将其用于进行反向传播计算误差值,更新权重训练CNN模型。
所述Loss的计算公式:
Figure PCTCN2019102186-appb-000030
y为图像所属于的类别编号,是真实的标签值;z为图像所对应的数据,这个数据也是输入softmax层的数据,这个数据是ResNet输出的数据,即特征映射和分类器传出。根据loss调整各层参数,不断迭代直至收敛。最终得到训练好的ResNet50模型。
步骤三、将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
可选地,在其他实施例中,图像分类程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述图像分类程序在图像分类装置中的执行过程。
例如,参照图3所示,为本申请图像分类装置一实施例中的图像分类程序的程序模块示意图,该实施例中,图像分类程序可以被分割为特征点提取模块10、模型训练模块20、分类模块30,示例性地:
特征点提取模块10用于:输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注。
可选地,所述采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注,包括:
逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得 到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
将高斯金字塔转化为差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成所述差分金字塔;
对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点;
对得到的该图像样本的候选特征点进行定位,并去掉候选特征点中的低对比度的特征点和不稳定的边缘特征点,得到该图像样本的显著特征点;
计算所述显著特征点的主方向,及构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将所述显著特征点保存为该图像样本的图像标注。
可选地,所述对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的特征点和不稳定的边缘特征点,得到该图像样本的显著特征点,包括:
将该图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表该图像样本的尺度空间,
Figure PCTCN2019102186-appb-000031
σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度空间的2维高斯函数;
对尺度空间G(x,y,σ)进行二次泰勒展开:
Figure PCTCN2019102186-appb-000032
并进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
Figure PCTCN2019102186-appb-000033
将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
Figure PCTCN2019102186-appb-000034
如果
Figure PCTCN2019102186-appb-000035
预设阈值,则保留该候选特征点,否则将该候选特征点作为低对比度特征点丢弃;
将候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
Figure PCTCN2019102186-appb-000036
其中,D xx,D xy,D yx,D yy是候选特征点邻域对应位置的差分求得;
设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xx 2=α·β,其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式;
Figure PCTCN2019102186-appb-000037
表示最大特征值和最小特征值的比值,则
Figure PCTCN2019102186-appb-000038
Figure PCTCN2019102186-appb-000039
Figure PCTCN2019102186-appb-000040
时,剔除该候选特征点,否则保留该候选特征点,其中,T γ为预设阈值。
可选地,所述显著特征点的主方向为:
θ(x,y)=α tan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
其中,L为每个特征点所在的尺度,α=λ max为H的最大特征值,H为候选特征点邻域对应位置的差分矩阵。
可选地,所述构造所述显著特征点的描述子的步骤包括:
旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向上,确保旋转不变性;
在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值;
将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。
模型训练模块20用于:构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试。
分类模块30用于:将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
上述特征点提取模块10、模型训练模块20、分类模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序可被一个或多个处理器执行,以实现如下操作:
输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;
构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述构建的卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
本申请计算机可读存储介质具体实施方式与上述图像分类装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种图像分类方法,其特征在于,所述方法包括:
    输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;
    构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
    将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
  2. 如权利要求1所述的图像分类方法,其特征在于,所述采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注,包括:
    逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
    利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
    将高斯金字塔转化为差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成所述差分金字塔;
    对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点;
    对得到的该图像样本的候选特征点进行定位,并去其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点;
    计算所述显著特征点的主方向,及构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将所述显著特征点保存为该图像样本的图像标注。
  3. 如权利要求2所述的图像分类方法,其特征在于,所述对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点,包括:
    将该图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表该图像样本的尺度空间,
    Figure PCTCN2019102186-appb-100001
    σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度空间的2维高斯函数;
    对尺度空间G(x,y,σ)进行二次泰勒展开:
    Figure PCTCN2019102186-appb-100002
    并进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
    Figure PCTCN2019102186-appb-100003
    将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
    Figure PCTCN2019102186-appb-100004
    如果
    Figure PCTCN2019102186-appb-100005
    预设阈值,则保留该候选特征点,否则将该候选特征点作为低对比度的候选特征点丢弃;
    将候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
    Figure PCTCN2019102186-appb-100006
    其中,D xx,D xy,D yx,D yy是候选特征点邻域对应位置的差分求得;
    设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xy 2=α·β,其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式;
    Figure PCTCN2019102186-appb-100007
    表示最大特征值和最小特征值的比值,则
    Figure PCTCN2019102186-appb-100008
    Figure PCTCN2019102186-appb-100009
    Figure PCTCN2019102186-appb-100010
    时,剔除该候选特征点,否则保留该候选特征点,其中,T γ为预设阈值。
  4. 如权利要求3所述的图像分类方法,其特征在于,所述构造所述显著特征点的描述子的步骤包括:
    旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向上,确保旋转不变性;
    在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值;
    将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。
  5. 如权利要求2至4中任意一项所述的图像分类方法,其特征在于,所述显著特征点的主方向为:
    θ(x,y)=αtan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
    其中,L为每个显著特征点所在的尺度,α=λ max为H的最大特征值,H为显著特征点邻域对应位置的差分矩阵。
  6. 如权利要求1所述的图像分类方法,其特征在于,所述卷积神经网络模型为ResNet50模型,利用所述图像样本和上述得到的图像样本的图像标注 训练所述构建的ResNet50模型的步骤包括:
    对训练集图像进行批量标准化;
    将所述训练集图像输入至由输入层、卷积层、激活函数和输出层构成的ResNet50结构的卷积神经网络模型;
    利用图像集合,构建标准ResNet50网络结构,计算显著特征点的损失函数与分类器的损失,并将其用于进行反向传播计算误差值,更新权重训练卷积神经网络模型,根据损失函数调整各层参数,不断迭代直至收敛,最终得到训练好的ResNet50模型;及
    将待分类的图像输入到训练好的ResNet50模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
  7. 如权利要求6所述的图像分类方法,其特征在于,所述损失函数为:
    Figure PCTCN2019102186-appb-100011
    y为图像所属于的类别编号,是真实的标签值;z为图像所对应的数据,这个数据也是输入softmax层的数据,这个数据是ResNet输出的数据,即特征映射和分类器传出。
  8. 一种图像分类装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如下步骤:
    输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;
    构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
    将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
  9. 如权利要求8所述的图像分类装置,其特征在于,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注,包括:
    逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
    利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
    将高斯金字塔转化为差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成所述差分金字塔;
    对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点;
    对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点;
    计算所述显著特征点的主方向,及构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将所述显著特征点保存为该图像样本的图像标注。
  10. 如权利要求9所述的图像分类装置,其特征在于,所述对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点,包括:
    将该图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表着该图像样本的尺度空间,
    Figure PCTCN2019102186-appb-100012
    σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度空间的2维高斯函数;
    对尺度空间G(x,y,σ)进行二次泰勒展开:
    Figure PCTCN2019102186-appb-100013
    并进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
    Figure PCTCN2019102186-appb-100014
    将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
    Figure PCTCN2019102186-appb-100015
    如果
    Figure PCTCN2019102186-appb-100016
    预设阈值,则保留该候选特征点,否则将该候选特征点作为低对比度特征点丢弃;
    将候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
    Figure PCTCN2019102186-appb-100017
    其中,D xx,D xy,D yx,D yy是候选特征点邻域对应位置的差分求得;
    设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xy 2=α·β,其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式;
    Figure PCTCN2019102186-appb-100018
    表示最大特征值和最小特征值的比值,则
    Figure PCTCN2019102186-appb-100019
    Figure PCTCN2019102186-appb-100020
    Figure PCTCN2019102186-appb-100021
    时,剔除该候选特征点,否则保留该候选特征点,其中,T γ为预设阈值。
  11. 如权利要求9所述的图像分类装置,其特征在于,所述构造所述显著特征点的描述子的步骤包括:
    旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向 上,确保旋转不变性;
    在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值;
    将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。
  12. 如权利要求8至10中任意一项所述的图像分类装置,其特征在于,所述显著特征点的主方向为:
    θ(x,y)=αtan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
    其中,L为每个显著特征点所在的尺度,α=λ max为H的最大特征值,H为显著特征点邻域对应位置的差分矩阵。
  13. 如权利要求8所述的图像分类装置,其特征在于,所述卷积神经网络模型为ResNet50模型,利用所述图像样本和上述得到的图像样本的图像标注训练所述构建的ResNet50模型的步骤包括:
    对训练集图像进行批量标准化;
    将所述训练集图像输入至由输入层、卷积层、激活函数和输出层构成的ResNet50结构的卷积神经网络模型;
    利用图像集合,构建标准ResNet50网络结构,计算显著特征点的损失函数与分类器的损失,并将其用于进行反向传播计算误差值,更新权重训练卷积神经网络模型,根据损失函数调整各层参数,不断迭代直至收敛,最终得到训练好的ResNet50模型;及
    将待分类的图像输入到训练好的ResNet50模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
  14. 如权利要求13所述的图像分类装置,其特征在于,所述损失函数为:
    Figure PCTCN2019102186-appb-100022
    y为图像所属于的类别编号,是真实的标签值;z为图像所对应的数据,这个数据也是输入softmax层的数据,这个数据是ResNet输出的数据,即特征映射和分类器传出。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的图像分类方法的步骤:
    输入预设数量的图像样本,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注;
    构建卷积神经网络模型,将所有所述图像样本和上述得到的图像样本的图像标注分为测试集图像和训练集图像,利用所述训练集图像训练所述卷积神经网络模型,并利用所述测试集图像对所述卷积神经网络模型进行测试;
    将待分类的图像输入到训练好的卷积神经网络模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
  16. 如权利要求15所述的计算机可读存储介质,其特征在于,采用预设类型特征点提取算法分别提取各个所述图像样本中的显著特征点,并分别将各个所述图像样本对应的显著特征点保存为对应的图像样本的图像标注,包括:
    逐一选择所述图像样本或者批量选择所述图像样本,在一个图像样本被选择后,针对该图像样本执行如下步骤:
    利用该图像样本制作高斯金字塔:将该图像样本进行下采样得到N个不同尺寸的图像,再对每张图像使用k组不同大小的高斯核进行高斯模糊,得到N*K个不同尺寸和模糊程度的图像,其中,N和K均为正整数;
    将高斯金字塔转化为差分金字塔:在高斯金字塔中,每层的K张照片按照顺序两两相减,得到差分图像,最后得到N*(K-1)张差分图像,组成所述差分金字塔;
    对所述差分金字塔进行多尺度空间极值点检测,得到该图像样本的候选特征点;
    对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点;
    计算所述显著特征点的主方向,及构造所述显著特征点的描述子,并根据所述显著特征点的描述子,将所述显著特征点保存为该图像样本的图像标注。
  17. 如权利要求16所述的计算机可读存储介质,其特征在于,所述对得到的该图像样本的候选特征点进行定位,并去掉其中的低对比度的候选特征点和不稳定的边缘候选特征点,得到该图像样本的显著特征点,包括:
    将该图像样本I(x,y)的尺度空间定义为:L(x,y,σ)=G(x,y,σ)*I(x,y),其中L(x,y,σ)代表着该图像样本的尺度空间,
    Figure PCTCN2019102186-appb-100023
    σ为像素的尺度参数,当σ连续变化,G(x,y,σ)构成可变尺度空间的2维高斯函数;
    对尺度空间G(x,y,σ)进行二次泰勒展开:
    Figure PCTCN2019102186-appb-100024
    并进行求导,令D(x)=0,得到该图像样本的候选特征点的位置:
    Figure PCTCN2019102186-appb-100025
    将所述候选特征点带入到所述D(x)函数中,利用二次泰勒展开式进行最小二乘拟合,得到
    Figure PCTCN2019102186-appb-100026
    如果
    Figure PCTCN2019102186-appb-100027
    预设阈值,则保留该候选特征点,否则将该候选特征点作为 低对比度特征点丢弃;
    将候选特征点的D(x)函数的主曲率与2×2H的特征值成正比:H为候选特征点邻域对应位置的差分矩阵,
    Figure PCTCN2019102186-appb-100028
    其中,D xx,D xy,D yx,D yy是候选特征点邻域对应位置的差分求得;
    设α=λ max为H的最大特征值,β=λ min为H的最小特征值,则:Th(H)=D xx+D yy=α+β,Det(H)=D xx+D yy-D xy 2=α·β,其中,Th(H)为矩阵H的迹,Det(H)为矩阵H的行列式;
    Figure PCTCN2019102186-appb-100029
    表示最大特征值和最小特征值的比值,则
    Figure PCTCN2019102186-appb-100030
    Figure PCTCN2019102186-appb-100031
    Figure PCTCN2019102186-appb-100032
    时,剔除该候选特征点,否则保留该候选特征点,其中,T γ为预设阈值。
  18. 如权利要求16所述的计算机可读存储介质,其特征在于,所述构造所述显著特征点的描述子的步骤包括:
    旋转所述显著特征点的坐标,使坐标轴旋转为所述显著特征点的主方向上,确保旋转不变性;
    在旋转后的图像上,以所述显著特征点为中心取8*8大小的窗口,设所述显著特征点位于该窗口的中央位置,所述显著特征点周围的方格代表所述显著特征点的邻域范围,每个小方格代表一个像素,在每个像素上计算梯度,箭头的方向和长度分别表示像素的方向和模值;
    将所述窗口平均分为4*4的子窗口,再利用高斯模糊方法增加与所述显著特征点邻近域的权重值、降低所述显著特征点较远的权重值,最后计算每个区域的0°、45°、90°、135°、180°、225°、270°、315°方向的梯度累加值,以得到所述显著特征点的描述子的特征向量。
  19. 如权利要求15所述的计算机可读存储介质,其特征在于,所述显著特征点的主方向为:
    θ(x,y)=αtan2((L(x+1,y)-L(x-1,y))/(L(x,y+1)-L(x,y-1)))
    其中,L为每个显著特征点所在的尺度,α=λ max为H的最大特征值,H为显著特征点邻域对应位置的差分矩阵。
  20. 如权利要求15所述的计算机可读存储介质,其特征在于,所述卷积神经网络模型为ResNet50模型,利用所述图像样本和上述得到的图像样本的图像标注训练所述构建的ResNet50模型的步骤包括:
    对训练集图像进行批量标准化;
    将所述训练集图像输入至由输入层、卷积层、激活函数和输出层构成的ResNet50结构的卷积神经网络模型;
    利用图像集合,构建标准ResNet50网络结构,计算显著特征点的损失函 数与分类器的损失,并将其用于进行反向传播计算误差值,更新权重训练卷积神经网络模型,根据损失函数调整各层参数,不断迭代直至收敛,最终得到训练好的ResNet50模型;及
    将待分类的图像输入到训练好的ResNet50模型中,提取所述待分类的图像的显著特征点,并根据所述显著特征点进行图像分类。
PCT/CN2019/102186 2019-04-04 2019-08-23 图像分类方法、装置及计算机可读存储介质 WO2020199468A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910269283.2 2019-04-04
CN201910269283.2A CN110097051A (zh) 2019-04-04 2019-04-04 图像分类方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2020199468A1 true WO2020199468A1 (zh) 2020-10-08

Family

ID=67444264

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/102186 WO2020199468A1 (zh) 2019-04-04 2019-08-23 图像分类方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110097051A (zh)
WO (1) WO2020199468A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308152A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于光谱分割与同质区域检测的高光谱图像地物分类方法
CN112750143A (zh) * 2020-12-02 2021-05-04 上海海洋大学 一种基于极值法的茎柔鱼形态特征提取方法
CN112749670A (zh) * 2021-01-18 2021-05-04 西安电子科技大学 一种多源遥感图像的逐像素分类方法、介质及设备
CN112884036A (zh) * 2021-02-09 2021-06-01 北京京能能源技术研究有限责任公司 一种锅炉受热面异常图像识别方法、标记方法及系统
CN112883850A (zh) * 2021-02-03 2021-06-01 湖北工业大学 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN112907639A (zh) * 2021-01-20 2021-06-04 云南电网有限责任公司电力科学研究院 一种电力设备x射线影像配准方法
CN113066130A (zh) * 2021-04-21 2021-07-02 国家基础地理信息中心 航空摄影影像中心位置解算方法、装置、电子设备和可读存储介质
CN113191361A (zh) * 2021-04-19 2021-07-30 苏州大学 一种形状识别方法
CN113343853A (zh) * 2021-06-08 2021-09-03 深圳格瑞健康管理有限公司 一种儿童牙龋齿智能筛查方法及装置
CN113393543A (zh) * 2021-06-15 2021-09-14 武汉大学 高光谱图像压缩方法、装置、设备及可读存储介质
CN113591931A (zh) * 2021-07-06 2021-11-02 厦门路桥信息股份有限公司 一种弱监督目标定位方法、装置、设备及介质
CN113643066A (zh) * 2021-08-16 2021-11-12 京东城市(北京)数字科技有限公司 客流量推断模型的训练方法以及推断客流量的方法和装置
CN113688928A (zh) * 2021-08-31 2021-11-23 禾多科技(北京)有限公司 图像匹配方法、装置、电子设备和计算机可读介质
CN113807362A (zh) * 2021-09-03 2021-12-17 西安电子科技大学 基于层间语义信息融合深度卷积网络的图像分类方法
CN113865859A (zh) * 2021-08-25 2021-12-31 西北工业大学 多尺度多源异构信息融合的齿轮箱状态故障诊断方法
CN114998278A (zh) * 2022-06-16 2022-09-02 福州大学 基于特征金字塔网络fpn的nled/qled/oled像素缺陷检测方法及系统
CN115272587A (zh) * 2022-09-26 2022-11-01 深圳市纵维立方科技有限公司 用于3d打印的模型文件生成方法、介质及电子设备
CN115908920A (zh) * 2022-11-21 2023-04-04 浙江大学 基于卷积神经网络的急性主动脉综合征ct图像分类方法
CN116402816A (zh) * 2023-06-08 2023-07-07 中国人民解放军海军青岛特勤疗养中心 一种体检ct影像数据的管理方法及系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097051A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
CN110781911B (zh) * 2019-08-15 2022-08-19 腾讯科技(深圳)有限公司 一种图像匹配方法、装置、设备及存储介质
CN110633711B (zh) * 2019-09-09 2022-02-11 长沙理工大学 训练特征点检测器的计算机装置、方法及特征点检测方法
CN110929779B (zh) * 2019-11-19 2023-05-02 腾讯科技(深圳)有限公司 重建神经元质量检测方法、有序点云分类方法及装置
CN110990616B (zh) * 2019-11-20 2022-06-10 中科视元科技(杭州)有限公司 一种基于图片的人员属性分类方法及系统
CN111178418B (zh) * 2019-12-23 2023-07-25 东软集团股份有限公司 图像分类方法和装置、存储介质和电子设备
CN111695441B (zh) * 2020-05-20 2024-05-10 平安科技(深圳)有限公司 图像文档处理方法、装置及计算机可读存储介质
CN111797925B (zh) * 2020-07-03 2024-04-30 河南辉铠智能科技有限公司 一种电力系统视觉图像分类方法及装置
CN112330787B (zh) * 2020-11-24 2023-12-15 沈阳东软智能医疗科技研究院有限公司 图像标注方法、装置、存储介质和电子设备
CN113188661A (zh) * 2021-03-12 2021-07-30 浙江黑卡电气有限公司 一种红外热图的智能拍摄记录方法及装置
CN113139579B (zh) * 2021-03-23 2024-02-02 广东省科学院智能制造研究所 一种基于图像特征自适应卷积网络的图像分类方法和系统
CN113239935A (zh) * 2021-04-15 2021-08-10 广州广电运通金融电子股份有限公司 基于区块链的图像特征提取方法、装置、设备及介质
CN113298087B (zh) * 2021-04-29 2022-11-18 上海淇玥信息技术有限公司 图片分类模型冷启动的方法、系统、装置及介质
CN117037272B (zh) * 2023-08-08 2024-03-19 深圳市震有智联科技有限公司 一种老人摔倒监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700078A (zh) * 2015-02-13 2015-06-10 武汉工程大学 一种基于尺度不变特征极限学习机的机器人场景识别方法
CN105894037A (zh) * 2016-04-21 2016-08-24 北京航空航天大学 一种基于sift训练样本提取的遥感图像全监督分类方法
CN106446965A (zh) * 2016-10-21 2017-02-22 西北工业大学 一种航天器可见光图像分类方法
CN107871098A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸特征点的获取方法和装置
CN110097051A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848034B1 (ko) * 2007-03-23 2008-07-23 한양대학교 산학협력단 크기에 불변한 특징점을 이용한 모멘트 기반 지역 서술자생성방법
CN109284781A (zh) * 2018-09-10 2019-01-29 湖北工业大学 基于流形学习的图像分类算法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700078A (zh) * 2015-02-13 2015-06-10 武汉工程大学 一种基于尺度不变特征极限学习机的机器人场景识别方法
CN105894037A (zh) * 2016-04-21 2016-08-24 北京航空航天大学 一种基于sift训练样本提取的遥感图像全监督分类方法
CN107871098A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸特征点的获取方法和装置
CN106446965A (zh) * 2016-10-21 2017-02-22 西北工业大学 一种航天器可见光图像分类方法
CN110097051A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308152B (zh) * 2020-11-03 2023-04-28 西安电子科技大学 基于光谱分割与同质区域检测的高光谱图像地物分类方法
CN112308152A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于光谱分割与同质区域检测的高光谱图像地物分类方法
CN112750143B (zh) * 2020-12-02 2024-04-26 上海海洋大学 一种基于极值法的茎柔鱼形态特征提取方法
CN112750143A (zh) * 2020-12-02 2021-05-04 上海海洋大学 一种基于极值法的茎柔鱼形态特征提取方法
CN112749670A (zh) * 2021-01-18 2021-05-04 西安电子科技大学 一种多源遥感图像的逐像素分类方法、介质及设备
CN112749670B (zh) * 2021-01-18 2023-09-05 西安电子科技大学 一种多源遥感图像的逐像素分类方法、介质及设备
CN112907639A (zh) * 2021-01-20 2021-06-04 云南电网有限责任公司电力科学研究院 一种电力设备x射线影像配准方法
CN112907639B (zh) * 2021-01-20 2024-04-26 云南电网有限责任公司电力科学研究院 一种电力设备x射线影像配准方法
CN112883850A (zh) * 2021-02-03 2021-06-01 湖北工业大学 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN112883850B (zh) * 2021-02-03 2023-06-09 湖北工业大学 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN112884036A (zh) * 2021-02-09 2021-06-01 北京京能能源技术研究有限责任公司 一种锅炉受热面异常图像识别方法、标记方法及系统
CN113191361A (zh) * 2021-04-19 2021-07-30 苏州大学 一种形状识别方法
CN113191361B (zh) * 2021-04-19 2023-08-01 苏州大学 一种形状识别方法
CN113066130A (zh) * 2021-04-21 2021-07-02 国家基础地理信息中心 航空摄影影像中心位置解算方法、装置、电子设备和可读存储介质
CN113343853A (zh) * 2021-06-08 2021-09-03 深圳格瑞健康管理有限公司 一种儿童牙龋齿智能筛查方法及装置
CN113393543A (zh) * 2021-06-15 2021-09-14 武汉大学 高光谱图像压缩方法、装置、设备及可读存储介质
CN113591931A (zh) * 2021-07-06 2021-11-02 厦门路桥信息股份有限公司 一种弱监督目标定位方法、装置、设备及介质
CN113643066A (zh) * 2021-08-16 2021-11-12 京东城市(北京)数字科技有限公司 客流量推断模型的训练方法以及推断客流量的方法和装置
CN113865859A (zh) * 2021-08-25 2021-12-31 西北工业大学 多尺度多源异构信息融合的齿轮箱状态故障诊断方法
CN113865859B (zh) * 2021-08-25 2024-05-14 西北工业大学 多尺度多源异构信息融合的齿轮箱状态故障诊断方法
CN113688928B (zh) * 2021-08-31 2022-09-27 禾多科技(北京)有限公司 图像匹配方法、装置、电子设备和计算机可读介质
CN113688928A (zh) * 2021-08-31 2021-11-23 禾多科技(北京)有限公司 图像匹配方法、装置、电子设备和计算机可读介质
CN113807362B (zh) * 2021-09-03 2024-02-27 西安电子科技大学 基于层间语义信息融合深度卷积网络的图像分类方法
CN113807362A (zh) * 2021-09-03 2021-12-17 西安电子科技大学 基于层间语义信息融合深度卷积网络的图像分类方法
CN114998278A (zh) * 2022-06-16 2022-09-02 福州大学 基于特征金字塔网络fpn的nled/qled/oled像素缺陷检测方法及系统
CN115272587A (zh) * 2022-09-26 2022-11-01 深圳市纵维立方科技有限公司 用于3d打印的模型文件生成方法、介质及电子设备
CN115908920A (zh) * 2022-11-21 2023-04-04 浙江大学 基于卷积神经网络的急性主动脉综合征ct图像分类方法
CN115908920B (zh) * 2022-11-21 2023-10-03 浙江大学 基于卷积神经网络的急性主动脉综合征ct图像分类方法
CN116402816A (zh) * 2023-06-08 2023-07-07 中国人民解放军海军青岛特勤疗养中心 一种体检ct影像数据的管理方法及系统
CN116402816B (zh) * 2023-06-08 2023-08-15 中国人民解放军海军青岛特勤疗养中心 一种体检ct影像数据的管理方法及系统

Also Published As

Publication number Publication date
CN110097051A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
WO2020199468A1 (zh) 图像分类方法、装置及计算机可读存储介质
WO2021164228A1 (zh) 一种图像数据的增广策略选取方法及系统
US10740647B2 (en) Detecting objects using a weakly supervised model
WO2022017245A1 (zh) 一种文本识别网络、神经网络训练的方法以及相关设备
WO2021114832A1 (zh) 样本图像数据增强方法、装置、电子设备及存储介质
TWI821671B (zh) 一種文本區域的定位方法及裝置
WO2017113232A1 (zh) 一种基于深度学习的产品分类方法及装置
US11816149B2 (en) Electronic device and control method thereof
WO2021237570A1 (zh) 影像审核方法及装置、设备、存储介质
WO2021012494A1 (zh) 基于深度学习的人脸识别方法、装置及计算机可读存储介质
EP4099217A1 (en) Image processing model training method and apparatus, device, and storage medium
WO2021136027A1 (zh) 相似图像检测方法、装置、设备及存储介质
US9575566B2 (en) Technologies for robust two-dimensional gesture recognition
WO2020098257A1 (zh) 一种图像分类方法、装置及计算机可读存储介质
WO2020253508A1 (zh) 异常细胞检测方法、装置及计算机可读存储介质
Yan et al. Multiscale convolutional neural networks for hand detection
WO2021012493A1 (zh) 短视频关键词提取方法、装置及存储介质
WO2020248848A1 (zh) 智能化异常细胞判断方法、装置及计算机可读存储介质
CN111666905B (zh) 模型训练方法、行人属性识别方法和相关装置
Hsu et al. Age and gender recognition with random occluded data augmentation on facial images
CN111598149B (zh) 一种基于注意力机制的回环检测方法
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
WO2021043023A1 (zh) 图像处理方法及装置、分类器训练方法以及可读存储介质
Zhou et al. Learning a superpixel-driven speed function for level set tracking

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19923050

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19923050

Country of ref document: EP

Kind code of ref document: A1