WO2020192471A1 - 一种图像分类模型训练的方法、图像处理的方法及装置 - Google Patents

一种图像分类模型训练的方法、图像处理的方法及装置 Download PDF

Info

Publication number
WO2020192471A1
WO2020192471A1 PCT/CN2020/079496 CN2020079496W WO2020192471A1 WO 2020192471 A1 WO2020192471 A1 WO 2020192471A1 CN 2020079496 W CN2020079496 W CN 2020079496W WO 2020192471 A1 WO2020192471 A1 WO 2020192471A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
trained
network
model
classification
Prior art date
Application number
PCT/CN2020/079496
Other languages
English (en)
French (fr)
Inventor
揭泽群
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to EP20777689.9A priority Critical patent/EP3951654A4/en
Priority to JP2021522436A priority patent/JP7185039B2/ja
Priority to KR1020217013575A priority patent/KR102698958B1/ko
Publication of WO2020192471A1 publication Critical patent/WO2020192471A1/zh
Priority to US17/238,634 priority patent/US20210241109A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • This application relates to the field of artificial intelligence, and in particular to an image classification model training method, image processing method and device.
  • the determining module is further configured to use the classification loss function to determine the first corresponding to the offset network to be trained based on the image content category information and the fourth predicted category label information acquired by the acquiring module Five model parameters;
  • the training module is specifically configured to perform processing on the image to be trained according to the second model parameter, the third model parameter, the fourth model parameter, and the fifth model parameter determined by the determining module 302
  • the semantic segmentation network model is trained to obtain the image semantic segmentation network model.
  • the training module is specifically configured to use the second model parameter and the third model parameter to train the offset network to be trained for N times, according to each training of the offset network to be trained
  • the offset variable of determines the image content area corresponding to the image to be trained, where N is an integer greater than or equal to 1;
  • the image semantic segmentation network model is generated.
  • the objective loss function is expressed as:
  • the L seg represents the target loss function
  • the N represents the total number of categories
  • the c represents the c-th category
  • the k is greater than or equal to 1, and less than or equal to the N
  • the I() represents the Dirac function
  • the Re represents the predicted probability value of the c-th category at the pixel
  • the i represents the abscissa position of the pixel in the image to be trained
  • the j represents the position of the pixel in the image to be trained The ordinate position.
  • a fourth aspect of the present application provides an image processing device, which is used in computer equipment and includes:
  • the acquisition module is used to acquire the image to be processed
  • the acquisition module is further configured to acquire the semantic segmentation result of the image to be processed through the image semantic segmentation network model, wherein the image semantic segmentation network model is alternately trained according to the image classification network to be trained and the offset network to be trained Obtained, the offset network to be trained is used to classify images according to offset variables, and the image classification network to be trained is used to classify image content in the images;
  • the processing module is configured to process the image to be processed according to the semantic segmentation result acquired by the acquiring module.
  • the processor is used to execute the program in the memory and includes the following steps:
  • the first prediction category label information of the image to be trained is obtained through the image classification network to be trained, wherein the offset network to be trained is used to Variables classify images, and the image classification network to be trained is used to classify image content in the images;
  • the bus system is used to connect the memory and the processor, so that the memory and the processor communicate.
  • a sixth aspect of the present application provides a server, including: a memory, a transceiver, a processor, and a bus system;
  • the memory is used to store programs
  • the semantic segmentation result of the image to be processed is obtained through the image semantic segmentation network model, wherein the image semantic segmentation network model is obtained by alternate training according to the image classification network to be trained and the offset network to be trained.
  • the shift network is used to classify images according to offset variables, and the image classification network to be trained is used to classify image content in the images;
  • the bus system is used to connect the memory and the processor, so that the memory and the processor communicate.
  • the seventh aspect of the present application provides a computer-readable storage medium having instructions stored in the computer-readable storage medium, which when run on a computer, cause the computer to execute the methods described in the above aspects.
  • a method for training an image classification model is provided.
  • the image to be trained is first obtained, and when the first model parameter of the offset network to be trained is fixed, the first image classification network to be trained is used to obtain the first image of the image to be trained.
  • the offset network and the image classification network can be used to train the images to be trained, which are marked as image-level.
  • image-level annotation is not required, thereby reducing manual labor.
  • the cost of labeling improves the efficiency of model training.
  • FIG. 2 is a schematic diagram of a process framework of an image semantic segmentation network model in an embodiment of the application
  • FIG. 4 is a schematic structural diagram of an offset network and an image classification network in an embodiment of this application.
  • Fig. 5 is a schematic structural diagram of a deformable convolutional neural network in an embodiment of the application.
  • FIG. 7 is a schematic diagram of an image processing flow based on a deformable convolutional neural network in an embodiment of the application.
  • Fig. 8 is a schematic diagram of an embodiment of a model training device in an embodiment of the application.
  • FIG. 9 is a schematic diagram of an embodiment of an image processing device in an embodiment of the application.
  • FIG. 10 is a schematic structural diagram of a server in an embodiment of the application.
  • FIG. 11 is a schematic diagram of a structure of a terminal device in an embodiment of this application.
  • the embodiments of the present application provide a method for training an image classification model, a method and device for image processing, which can train images to be trained that are marked as image levels, and do not need to be manually performed while ensuring the performance of the image semantic segmentation network model Pixel-level labeling reduces the cost of manual labeling and improves the efficiency of model training.
  • this application proposes a method for training an image semantic segmentation network model and a method for image processing using the image semantic segmentation network model. This method can reduce the manual labeling in the model training process of image semantic segmentation through artificial intelligence, and improve the efficiency of model training.
  • AI Artificial Intelligence
  • digital computers or machines controlled by digital computers to simulate, extend and expand human intelligence, perceive the environment, acquire knowledge, and use knowledge to obtain the best results.
  • artificial intelligence is a comprehensive technology of computer science, which attempts to understand the essence of intelligence and produce a new kind of intelligent machine that can react in a similar way to human intelligence.
  • Artificial intelligence is to study the design principles and implementation methods of various intelligent machines, so that the machines have the functions of perception, reasoning and decision-making.
  • Artificial intelligence technology is a comprehensive discipline, covering a wide range of fields, including both hardware-level technology and software-level technology.
  • Basic artificial intelligence technologies generally include technologies such as sensors, dedicated artificial intelligence chips, cloud computing, distributed storage, big data processing technologies, operation/interaction systems, and mechatronics.
  • Artificial intelligence software technology mainly includes computer vision technology, speech processing technology, natural language processing technology, and machine learning/deep learning.
  • Computer Vision is a science that studies how to make machines "see”. Furthermore, it refers to the use of cameras and computers instead of human eyes to identify, track, and measure objects. And further graphics processing, so that the computer processing becomes more suitable for human eyes to observe or send to the instrument to detect images.
  • Computer vision technology usually includes image processing, image recognition, image semantic understanding, image retrieval, Optical Character Recognition (ORC), video processing, video semantic understanding, video content/behavior recognition, three-dimensional object reconstruction, 3D technology, virtual Technologies such as reality, augmented reality, synchronized positioning and map construction also include common facial recognition, fingerprint recognition and other biometric recognition technologies.
  • Machine Learning is a multi-field interdisciplinary subject, involving probability theory, statistics, approximation theory, convex analysis, algorithm complexity theory and other subjects. Specializing in the study of how computers simulate or realize human learning behaviors in order to acquire new knowledge or skills, and reorganize the existing knowledge structure to continuously improve its own performance.
  • Machine learning is the core of artificial intelligence, the fundamental way to make computers intelligent, and its applications cover all areas of artificial intelligence.
  • Machine learning and deep learning usually include artificial neural networks, belief networks, reinforcement learning, transfer learning, inductive learning, and teaching learning techniques.
  • the method provided in this application is mainly used in the field of computer vision in the field of artificial intelligence.
  • the problems of segmentation, detection, recognition, and tracking are closely connected.
  • image semantic segmentation is to understand the image from the pixel level, and it is necessary to determine the corresponding target category of each pixel in the image.
  • the category has never-ending requirements for the accuracy of the algorithm.
  • the computer's understanding of the image content can start with a semantic label (image classification) for the entire image, and then progress to drawing the image content position that appears in the picture.
  • it is necessary for the computer to understand the semantic information of each pixel in the image so that the computer can see the image like a person. This is image semantic segmentation.
  • the goal of image semantic segmentation is to label each pixel in the image with a label. It is simple to understand that semantic segmentation is a very important field in computer vision. It refers to the pixel level. Identify the image, that is, mark the object category to which each pixel in the image belongs. Based on the image processing method provided in this application, it can be applied to an autonomous driving scenario, that is, it is necessary to add necessary perception to the vehicle to understand the environment in which the vehicle is located, so that the autonomous vehicle can drive safely. It can also be used for medical image diagnosis. The machine can enhance the analysis performed by radiologists and greatly reduce the time required to run diagnostic tests. For example, the chest X-ray can be segmented to get the heart area and lung area.
  • the client can download the image semantic segmentation network model from the server, and then input the image to be processed into the image semantic segmentation network model, and output the semantic segmentation result of the image to be processed through the image semantic segmentation network model.
  • the client may upload the image to be processed to the server, and the server uses the image semantic segmentation network model to process the image to be processed, thereby obtaining the semantic segmentation result, and returning the voice segmentation result to the client.
  • the server can also directly use the image semantic segmentation network model to process the image to be processed in the background to obtain the semantic segmentation result.
  • Terminal devices include but are not limited to unmanned vehicles, robots, tablets, laptops, handheld computers, mobile phones, voice interactive devices, and personal computers (PCs). ), not limited here.
  • Figure 2 is a schematic diagram of a process framework of an image semantic segmentation network model in an embodiment of this application. As shown in the figure, first obtain training images 21 and image-level category annotation information 22, and then use training Image 21 and category annotation information 22 are trained to obtain a weakly supervised image semantic segmentation network model 23. Next, an unknown test image 24 is obtained, and the test image 24 is input to the image semantic segmentation network model 23, and the image semantic segmentation network The model 23 performs segmentation 24 on the unknown test image, thereby predicting the semantic segmentation result 25 of the test image.
  • the model training device first needs to obtain the image to be trained, where the image to be trained has category label information.
  • the category labeling information is used to indicate the category information of the image content existing in the image to be trained, for example, the image content category information such as "person”, “horse”, “TV”, and “sofa” is marked in the image to be trained.
  • the image content category information may not only refer to category information corresponding to objects in the image, but also category information corresponding to scenes such as sky, clouds, lawn, and sea.
  • the image to be trained may be downloaded from the database, and then the image to be trained is annotated by manual annotation, thereby obtaining the category label information of the image to be trained. It can also automatically crawl images to be trained with category annotation information from websites with massive user data.
  • the first prediction category label information of the image to be trained is obtained through the image classification network to be trained, where the offset network to be trained is used to pair according to the offset variable
  • the image is classified, and the image classification network to be trained is used to classify the image content in the image;
  • the offset network 42 to be trained is used to provide input point positions that have a weaker contribution to classification.
  • the changed offset variable 44 the purpose of positioning the image content area with weaker discriminability can be achieved.
  • the image classification network 41 to be trained is used to classify the image content area in the overall image.
  • the image content category information and the first prediction category label information use a classification loss function to determine the second model parameter corresponding to the image classification network to be trained;
  • the model training device uses a classification loss function to train the image classification network to be trained.
  • the classification loss function is used to estimate the degree of inconsistency between the model predicted value and the true value.
  • the image content category information of the image to be trained belongs to the true value.
  • the first prediction category labeling information of the image to be trained belongs to the predicted value. The smaller the classification loss function, the better the robustness of the image classification network. Therefore, the second model parameter corresponding to the image classification network to be trained can be obtained according to the classification loss function.
  • the weight value of the image classification network to be trained needs to be fixed at this time, that is, the image classification network to be trained is fixed.
  • the image to be trained is input to the offset network to be trained, and the offset network to be trained outputs the second prediction category label information of the image to be trained.
  • the image semantic segmentation network model to be trained to obtain the image semantic segmentation network model, where the image semantic segmentation network model is used to determine the semantic segmentation result of the image to be processed.
  • the model training device trains the semantic segmentation network model of the image to be trained based on the model parameters obtained in each round of training (including the second and third model parameters obtained through training) .
  • the offset variables predicted by the offset network during the training process are fused into an image content area, and finally, the obtained image content area is used as a pixel-level segmentation
  • Use the supervision information to train the semantic segmentation network model of the image to be trained to obtain the image semantic segmentation network model.
  • the image semantic segmentation network model outputs the corresponding semantic segmentation result.
  • the offset network and the image classification network can be used to train the images to be trained that are marked as image level. Under the condition that the performance of the image semantic segmentation network model is guaranteed, manual pixel level is not required. Labeling, thereby reducing the cost of manual labeling, thereby improving the efficiency of model training.
  • the information is labeled according to the image content category information and the first prediction category.
  • the classification loss function to determine the second model parameters corresponding to the image classification network to be trained, including:
  • the second model parameter corresponding to the image classification network to be trained is determined.
  • a method for determining the parameters of the second model is introduced. First, according to the true value (that is, the image content category information of the image to be trained) and the predicted value (that is, the first predicted category labeling information of the image to be trained), the predicted probability value corresponding to each category is determined. Suppose there are five categories, namely "person”, “horse”, “refrigerator”, “TV” and "sofa”.
  • the first prediction category label information includes "person”, “refrigerator”, “TV” and “Sofa”, the predicted probability value can be obtained, the predicted probability value of "person” is 0.93, the predicted probability value of "refrigerator” is 0.88, the predicted probability value of "horse” is 0, and the predicted probability value of "TV” is 0.5 , The predicted probability of "sofa” is 0.65.
  • the classification loss of the classification loss function is determined according to the predicted probability value corresponding to each category.
  • the model parameter corresponding to the image classification network to be trained under the minimum value can be obtained, and the model parameter is the second model parameter.
  • the classification loss of the classification loss function in this application may refer to the cross-entropy classification loss.
  • Using the classification loss function to determine the third model parameter corresponding to the offset network to be trained includes:
  • the third model parameter corresponding to the offset network to be trained is determined.
  • a method for determining the parameters of the third model is introduced. First, according to the true value (ie, the image content category information of the image to be trained) and the predicted value (ie the second predicted category labeling information of the image to be trained), the predicted probability value corresponding to each category is determined, where the second predicted category
  • the labeling information is obtained after being processed by a deformable convolutional neural network. Suppose there are five categories, namely "person”, “horse”, “refrigerator”, "TV” and "sofa”.
  • the second prediction category labeled information includes "person”, “horse”, “refrigerator”, For “TV” and “Sofa”, the predicted probability value can be obtained, the predicted probability value of "person” is 0.75, the predicted probability value of "refrigerator” is 0.65, the predicted probability value of "horse” is 0.19, and the predicted probability of "refrigerator” is The probability value is 0.66, the predicted probability value of "TV” is 0.43, and the predicted probability value of "Sofa” is 0.78.
  • the classification loss of the classification loss function is determined according to the predicted probability value corresponding to each category.
  • the model parameter corresponding to the offset network to be trained under the maximum value can be obtained, and the model parameter is the third model parameter. It is understandable that the classification loss of the classification loss function in this application may refer to the cross-entropy classification loss.
  • the offset network can also provide the position of the input point that has a weaker contribution to the classification. According to the changed offset variable, it can be positioned to the weaker discriminative The purpose of the image content area.
  • the classification loss function It can be expressed as:
  • L represents the classification loss function
  • I() represents the Dirac function
  • N represents the total number of categories
  • c represents the c category
  • k is greater than or equal to 1 and less than or equal to N
  • P c represents the prediction corresponding to the c category Probability value.
  • a classification loss function for training the image classification network and the offset network is defined, that is, the following classification loss function is used:
  • the first image of the image to be trained is obtained through the offset network to be trained.
  • the second prediction category Before labeling information for the second prediction category, it can also include:
  • the second prediction category corresponding to the feature image to be trained is labeled by the offset network to be trained.
  • a method of generating the second prediction category label information using a deformable convolutional neural network is introduced.
  • the image to be trained is first input to a deformable convolutional neural network (deformable convolution), and a predicted offset variable is output through the deformable convolutional neural network.
  • the offset variable is a convolution Check the position offset of the input pixel corresponding to each weight value, and use the offset variable to change the actual input characteristics of the operation.
  • Figure 5 is a structural diagram of a deformable convolutional neural network in an embodiment of this application.
  • the traditional convolution window only needs to train the pixel weight value of each convolution window.
  • the deformable convolutional network needs additional parameters to train the shape of the convolution window.
  • the offset area 51 in Figure 5 is the parameter to be trained plus the deformed convolution.
  • the size of the parameter to be trained is the same as the size of the image 52 to be trained.
  • the convolution window slides on the offset area 51 to show the convolution pixel offset. The effect of, achieve the effect of sampling point optimization, and finally output the feature image 53 to be trained.
  • the feature image to be trained is input to the offset network to be trained, and the offset network to be trained outputs the second prediction category labeling information.
  • the position offset variable of the input pixel corresponding to each weight in a convolution kernel can be predicted to change the actual input characteristics of the convolution operation, thereby training to obtain the most effective transformation In this way, the mode of confrontation training can be realized.
  • a deformable convolutional neural network is used to obtain the feature image to be trained corresponding to the image.
  • the feature image to be trained corresponding to the image may include:
  • y(p 0 ) represents the feature image to be trained
  • p 0 represents the pixel value in the feature image to be trained
  • p n represents the position of the sampling point in the convolution kernel
  • ⁇ p n represents the offset variable
  • w(p n ) represents The weight value of the convolution kernel performing the convolution operation at the corresponding position of the image to be trained
  • x(p 0 +p n + ⁇ p n ) represents the pixel value of the corresponding position of the image to be trained.
  • the classification loss function is used to determine the third model parameter corresponding to the image classification network to be trained, it may also include:
  • the classification loss function is used to determine the fourth model parameter corresponding to the image classification network to be trained
  • the fourth prediction category label information of the image to be trained is obtained through the offset network to be trained;
  • the classification loss function is used to determine the fifth model parameter corresponding to the offset network to be trained
  • the image semantic segmentation network model to be trained is trained to obtain the image semantic segmentation network model, including:
  • the image semantic segmentation network model to be trained is trained to obtain the image semantic segmentation network model.
  • the process of another round of model alternate training is introduced.
  • the model training device completes one alternate training, the next round of conditional training can be started.
  • the model training device uses the classification loss function to train the image classification network to be trained.
  • the classification loss function is used to estimate the degree of inconsistency between the predicted value of the model and the true value.
  • the image content category information of the image to be trained belongs to the true value, and the image to be trained
  • the third prediction category labeling information belongs to the predicted value.
  • the smaller the classification loss function the better the robustness of the image classification network. Therefore, the fourth model parameter corresponding to the image classification network to be trained can be obtained according to the classification loss function.
  • the weight value of the image classification network to be trained needs to be fixed at this time, that is, the fourth model parameter of the image classification network to be trained is fixed , And then input the image to be trained into the offset network to be trained, and the offset network to be trained outputs the fourth prediction category label information of the image to be trained.
  • the model training device uses the same classification loss function to train the offset network to be trained.
  • the classification loss function is used to estimate the degree of inconsistency between the predicted value of the model and the true value.
  • the image content category information of the image to be trained belongs to the true value and needs to be trained
  • the label information of the fourth prediction category of the image belongs to the prediction value. Therefore, the fifth model parameter corresponding to the offset network can be obtained according to the classification loss function.
  • the model training device After multiple rounds of alternating training, the model training device performs semantic segmentation of the training image according to the model parameters obtained in each round of training (including the second model parameter, the third model parameter, the fourth model parameter, and the fifth model parameter obtained through training)
  • the network model is trained.
  • the offset variables predicted by the offset network during the training process are fused into a relatively complete image content area, and finally, the obtained image content area is used as the pixel
  • the supervision information of the first-level segmentation is used to train the semantic segmentation network model of the image to be trained to obtain the image semantic segmentation network model.
  • the image semantic segmentation network model outputs the corresponding semantic segmentation result.
  • the strategy of fixing one branch and training the other branch through the above-mentioned method can make the image classification network and the offset network continue to conduct adversarial learning.
  • the image classification network is more informative. Weak regions are continuously enhanced for training the classifier after input.
  • the branch of the offset network can also continuously locate regions with weaker discrimination.
  • the method for training an image classification model provided in the embodiment of this application is a seventh optional embodiment, according to the second model parameter and the third model parameter, the training The image semantic segmentation network model is trained to obtain the image semantic segmentation network model, which may include:
  • the image content area corresponding to the image to be trained is determined according to the offset variable of each training offset network, where , N is an integer greater than or equal to 1;
  • L seg represents the objective loss function
  • N represents the total number of categories
  • c represents the c-th category
  • k is greater than or equal to 1 and less than or equal to N
  • I() represents the Dirac function
  • It represents the predicted probability value of the c-th category at the pixel
  • i represents the abscissa position of the pixel in the image to be trained
  • j represents the ordinate position of the pixel in the image to be trained.
  • the pixel-level image is used as the training object, and the resulting image semantic segmentation network model can predict the category of each feature point in the image.
  • the image to be processed includes but is not limited to the following formats, BMP format, PCX format, TIF, GIF, JPEG format, EXIF, SVG format, DXF, EPS format, PNG format, HDRI format and WMF.
  • the image processing device inputs the image to be processed into the image semantic segmentation network model, and the image semantic segmentation network model outputs the corresponding semantic segmentation result.
  • the image semantic segmentation network model is obtained through alternate training of the image classification network to be trained and the offset network to be trained.
  • the offset network to be trained is used to classify images according to the offset variable, and the image classification network to be trained is used To classify the image content in the image. It can be understood that the training process of the image semantic segmentation network model is as described in the first to eighth embodiments corresponding to FIG. 3 and FIG. 3, so it is not repeated here.
  • image semantic segmentation network model can be based on Fully Convolutional Networks (FCN), Conditional Random Field (CRF) or Markov Random Field (Markov Random Field, MRF) training
  • FCN Fully Convolutional Networks
  • CRF Conditional Random Field
  • MRF Markov Random Field
  • the image processing device processes the image to be processed according to the semantic segmentation result.
  • the semantic segmentation result can be used in a website to search for images, that is, to search for other images related to the image to be processed. It can also be a personalized recommendation based on image content analysis.
  • Semantic segmentation results usually have the following characteristics. First, the different regions obtained by segmentation are smooth and their textures and gray levels are similar; second, adjacent semantic segmentation regions have obvious differences in the nature of the segmentation; third, After segmentation, the boundaries of different semantic regions are clear and regular.
  • weakly-supervised image semantic segmentation can be realized, which can be applied to the case of lack of fine pixel-level segmentation and annotation data, and only rely on full image classification and annotation to achieve high-accuracy image segmentation.
  • the input image of interest can be pooled first to obtain a 3 ⁇ 3 feature map 74, and then Through the fully connected layer 75, the output is the offset variable 76 corresponding to each area. After another fully connected layer 77, a semantic segmentation result (including classification information 78 and positioning information 79) is obtained.
  • FIG. 8 is a schematic diagram of an embodiment of a model training device in an embodiment of the application.
  • the model training device 30 includes:
  • the obtaining module 301 is configured to obtain an image to be trained, wherein the image to be trained has category label information, and the category label information is used to indicate the category information of the image content existing in the image to be trained;
  • the acquiring module 301 is also configured to acquire the first prediction category label information of the image to be trained through the image classification network to be trained when the first model parameter of the offset network to be trained is fixed, wherein The offset network is used to classify the image according to the offset variable, and the image classification network to be trained is used to classify the image content in the image;
  • the determining module 302 is configured to use a classification loss function to determine the second model parameter corresponding to the image classification network to be trained according to the image content category information and the first prediction category label information acquired by the acquiring module 301;
  • the obtaining module 301 is further configured to obtain the second prediction category label information of the image to be trained through the offset network to be trained when the second model parameter of the image classification network to be trained is fixed;
  • the determining module 302 is further configured to use the classification loss function to determine the corresponding offset network to be trained based on the image content category information and the second predicted category label information acquired by the acquiring module 301
  • the training module 303 is configured to train the image semantic segmentation network model to be trained according to the second model parameter and the third model parameter determined by the determining module 302 to obtain an image semantic segmentation network model, wherein the image
  • the semantic segmentation network model is used to determine the semantic segmentation result of the image to be processed.
  • the determining module 302 is specifically configured to determine the predicted probability value corresponding to each category according to the image content category information and the first predicted category labeling information;
  • the second model parameter corresponding to the image classification network to be trained is determined.
  • the determining module 302 is specifically configured to determine the predicted probability value corresponding to each category according to the image content category information and the second predicted category labeling information;
  • the offset network can also provide the position of the input point that has a weaker contribution to the classification. According to the changed offset variable, it can be positioned to the weaker discriminative The purpose of the image content area.
  • the determining module 302 is further configured to use the classification loss function to determine the image classification network corresponding to the image classification network according to the image content category information and the third prediction category label information acquired by the acquisition module 301
  • the obtaining module 301 is further configured to obtain the fourth prediction category label information of the image to be trained through the offset network to be trained when the fourth model parameter of the image classification network to be trained is fixed;
  • the strategy of fixing one branch and training the other branch through the above-mentioned method can make the image classification network and the offset network continue to conduct adversarial learning.
  • the image classification network is more informative. Weak regions are continuously enhanced for training the classifier after input.
  • the branch of the offset network can also continuously locate regions with weaker discrimination.
  • the training module 303 is specifically configured to use the second model parameter and the third model parameter to train the offset network to be trained for N times, according to the training offset for each training
  • the offset variable of the network determines the image content area corresponding to the image to be trained, wherein the N is an integer greater than or equal to 1;
  • the image semantic segmentation network model is generated.
  • exemplary content of the target loss function is provided.
  • the obtaining module 401 is used to obtain an image to be processed
  • weakly-supervised image semantic segmentation can be realized, which can be applied to the case of lack of fine pixel-level segmentation and annotation data, and only rely on full image classification and annotation to achieve high-accuracy image segmentation.
  • FIG. 10 is a schematic diagram of a server structure provided by an embodiment of the present application.
  • the server 500 may have relatively large differences due to different configurations or performance, and may include one or more central processing units (CPU) 522 (for example, , One or more processors) and memory 532, and one or more storage media 530 (for example, one or more storage devices with a large amount of storage) storing application programs 542 or data 544.
  • the memory 532 and the storage medium 530 may be short-term storage or persistent storage.
  • the program stored in the storage medium 530 may include one or more modules (not shown in the figure), and each module may include a series of command operations on the server.
  • the central processing unit 522 may be configured to communicate with the storage medium 530 and execute a series of instruction operations in the storage medium 530 on the server 500.
  • the server 500 may also include one or more power supplies 526, one or more wired or wireless network interfaces 550, one or more input and output interfaces 558, and/or one or more operating systems 541, such as Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM, etc.
  • the steps performed by the server in the foregoing embodiment may be based on the server structure shown in FIG. 10.
  • the CPU 522 included in the server may also be used to execute all or part of the steps in the embodiment shown in FIG. 3 or FIG. 6.
  • the embodiment of the present application also provides another image processing device, as shown in FIG. 11.
  • the terminal device can be any terminal device including a mobile phone, a tablet computer, a personal digital assistant (PDA), a point of sales (POS), a vehicle-mounted computer, etc. Take the terminal device as a mobile phone as an example:
  • FIG. 11 shows a block diagram of a part of the structure of a mobile phone related to a terminal device provided in an embodiment of the present application.
  • the mobile phone includes: a radio frequency (RF) circuit 610, a memory 620, an input unit 630, a display unit 640, a sensor 650, an audio circuit 660, a wireless fidelity (WiFi) module 670, and a processor 680 , And power supply 690 and other components.
  • RF radio frequency
  • the RF circuit 610 can be used for receiving and sending signals during the process of sending and receiving information or talking.
  • the processor 680 After receiving the downlink information of the base station, it is processed by the processor 680; in addition, the designed uplink data is sent to the base station.
  • the memory 620 may be used to store software programs and modules.
  • the processor 680 executes various functional applications and data processing of the mobile phone by running the software programs and modules stored in the memory 620.
  • the input unit 630 may be used to receive inputted digital or character information, and generate key signal input related to user settings and function control of the mobile phone.
  • the input unit 630 may include a touch panel 631 and other input devices 632.
  • the input unit 630 may also include other input devices 632.
  • the other input device 632 may include, but is not limited to, one or more of a physical keyboard, function keys (such as volume control buttons, switch buttons, etc.), trackball, mouse, and joystick.
  • the display unit 640 may be used to display information input by the user or information provided to the user and various menus of the mobile phone.
  • the display unit 640 may include a display panel 641.
  • the display panel 641 may be configured in the form of a liquid crystal display (LCD), an organic light-emitting diode (OLED), etc.
  • the touch panel 631 can cover the display panel 641.
  • the touch panel 631 and the display panel 641 are used as two independent components to realize the input and input functions of the mobile phone, but in some embodiments, the touch panel 631 and the display panel 641 can be integrated. Realize the input and output functions of mobile phones.
  • the mobile phone may also include at least one sensor 650, such as a light sensor, a motion sensor, and other sensors.
  • at least one sensor 650 such as a light sensor, a motion sensor, and other sensors.
  • the audio circuit 660, the speaker 661, and the microphone 662 can provide an audio interface between the user and the mobile phone.
  • the processor 680 is the control center of the mobile phone. It uses various interfaces and lines to connect various parts of the entire mobile phone. It executes by running or executing software programs and/or modules stored in the memory 620, and calling data stored in the memory 620. Various functions and processing data of the mobile phone can be used to monitor the mobile phone as a whole.
  • the disclosed system, device, and method may be implemented in other ways.
  • the device embodiments described above are only illustrative.
  • the division of the units is only a logical function division, and there may be other divisions in actual implementation, for example, multiple units or components can be combined or It can be integrated into another system, or some features can be ignored or not implemented.
  • the displayed or discussed mutual coupling or direct coupling or communication connection may be indirect coupling or communication connection through some interfaces, devices or units, and may be in electrical, mechanical or other forms.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • each unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit can be implemented in the form of hardware or software functional unit.
  • the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a computer readable storage medium.
  • the technical solution of this application essentially or the part that contributes to the existing technology or all or part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium , Including several instructions to make a computer device (which can be a personal computer, a server, or a network device, etc.) execute all or part of the steps of the method described in each embodiment of the present application.
  • the aforementioned storage media include: U disk, mobile hard disk, read-only memory (read-only memory, ROM), random access memory (random access memory, RAM), magnetic disk or optical disk and other media that can store program code .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种图像分类模型训练的方法,包括:获取待训练图像;当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取待训练图像的第一预测类别标注信息;根据图像内容类别信息以及第一预测类别标注信息,采用分类损失函数确定第二模型参数;当固定待训练图像分类网络的第二模型参数时,通过待训练偏移量网络获取待训练图像的第二预测类别标注信息;根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定第三模型参数;根据第二模型参数与第三模型参数得到图像语义分割网络模型。本申请通过AI实现像素级标记和模型训练,无需人工标注,从而减少人工标注成本,进而提升了模型训练的效率。

Description

一种图像分类模型训练的方法、图像处理的方法及装置
本申请要求于2019年03月26日提交的申请号为201910233985.5、发明名称为“一种图像分类模型训练的方法、图像处理的方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能领域,尤其涉及一种图像分类模型训练的方法、图像处理的方法及装置。
背景技术
图像语义分割是图像理解的基石性技术,在自动驾驶系统(比如街景识别与理解)、无人机应用(比如对着陆点判断)以及穿戴式设备应用中都起着举足轻重的左右。图像是由许多像素组成的,而语义分割就是将像素按照图像中表达语义含义的不同进行分割,使得机器自动分割并识别出图像中的内容。
目前,通常训练一个深度卷积神经网络来实现全图分类,再根据该深度卷积神经网络定位待训练图像中所对应图像内容区域,然后利用这些经过全图分类标注的图像内容区域作为分割的监督信息,最后训练得到图像语义分割网络模型。
然而,在训练图像语义分割网络模型时,所使用的待训练图像往往需要经过像素级标注。以分辨率为1024×2048的待训练图像为例,人工进行像素级别标注一张该分辨率大小的图像通常需要1.5小时,由此导致人工标注成本过高,且导致模型训练效率较低。
发明内容
本申请实施例提供了一种图像分类模型训练的方法、图像处理的方法及装置,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。
有鉴于此,本申请第一方面提供一种图像分类模型训练的方法,所述方法由计算机设备执行,包括:
获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
本申请第二方面提供一种图像处理的方法,所述方法由计算机设备执行,包括:
获取待处理图像;
通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义 分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
根据所述语义分割结果对所述待处理图像进行处理。
本申请第三方面提供一种模型训练装置,所述装置用于计算机设备中,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
所述获取模块,还用于当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
确定模块,用于根据所述图像内容类别信息以及所述获取模块获取的所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
所述获取模块,还用于当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
训练模块,用于根据所述确定模块确定的所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
所述确定模块,具体用于根据所述图像内容类别信息以及所述第一预测类别标注信息,确定在各个类别所对应的预测概率值;
根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
当所述分类损失函数的分类损失为最小值时,确定所述待训练图像分类网络所对应的所述第二模型参数。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,
所述确定模块,具体用于根据所述图像内容类别信息以及所述第二预测类别标注信息,确定在各个类别所对应的预测概率值;
根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
当所述分类损失函数的分类损失为最大值时,确定所述待训练偏移量网络所对应的所述第三模型参数。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,
所述分类损失函数表示为:
Figure PCTCN2020079496-appb-000001
其中,所述L表示所述分类损失函数,所述I()表示狄拉克函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述P c表示所述第c类别所对应的预测概率值。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,
所述获取模块,还用于通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前,通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,其中,所述可变形卷积神经网络用于预测所述待训练图像的偏移变量;
所述获取模块,具体用于通过所述待训练偏移量网络获取所述待训练特征图像所对应的所述第二预测类别标注信息。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
所述获取模块,具体用于采用如下方式生成所述待训练特征图像;
Figure PCTCN2020079496-appb-000002
其中,所述y(p 0)表示所述待训练特征图像所述p 0表示所述待训练特征图像中的像素值,所述p n表示采样点在卷积核中的位置,所述Δp n表示所述偏移变量,所述w(p n)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值,所述x(p 0+p n+Δp n)表示所述待训练图像对应位置的像素值。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,
所述获取模块,还用于所述确定模块根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后,当固定所述待训练偏移量网络所对应的所述第三模型参数时,通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息;
所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第三预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数;
所述获取模块,还用于当固定所述待训练图像分类网络的所述第四模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息;
所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第四预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数;
所述训练模块,具体用于根据所述确定模块302确定的所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数,对所述待训练图像语义分割网络模型进行训练,得到所述图像语义分割网络模型。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,
所述训练模块,具体用于当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时,根据每次训练所述待训练偏移量网络的偏移变量,确定所述待训练图像所对应的图像内容区域,其中,所述N为大于或等于1的整数;
根据所述图像内容区域,采用目标损失函数对待训练图像语义分割网络模型进行训练;
当所述目标损失函数的损失结果为最小值时,生成所述图像语义分割网络模型。
在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,
所述目标损失函数表示为:
Figure PCTCN2020079496-appb-000003
其中,所述L seg表示所述目标损失函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述I()表示狄拉克函数,所述
Figure PCTCN2020079496-appb-000004
表示所述第c类别在像素点的预测概率值,所述i表示所述像素点在所述待训练图像中的横坐标位置,所述j表示所述像素点在所述待训练图像中的纵坐标位置。
本申请第四方面提供一种图像处理装置,所述装置用于计算机设备中,包括:
获取模块,用于获取待处理图像;
所述获取模块,还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
处理模块,用于根据所述获取模块获取的所述语义分割结果对所述待处理图像进行处理。
本申请第五方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第六方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待处理图像;
通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
根据所述语义分割结果对所述待处理图像进行处理;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种图像分类模型训练的方法,首先获取待训练图像,当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取待训练图像的第一预测类别标注信息,然后根据图像内容类别信息以及第一预测类别标注信息,采用分类损失函数确定待训练图像分类网络所对应的第二模型参数,当固定待训练图像分类网络的第二模型参数时,通过待训练偏移量网络获取待训练图像的第二预测类别标注信息,然后根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定待训练偏移量网络所对应的第三模型参数,最后可以根据第二模型参数与第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型。通过上述方式,采用偏移量网络以及图像分类网络,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。
附图说明
图1为本申请实施例中图像处理系统的一个架构示意图;
图2为本申请实施例中图像语义分割网络模型的一个流程框架示意图;
图3为本申请实施例中图像分类模型训练的方法一个实施例示意图;
图4为本申请实施例中偏移量网络与图像分类网络的一个结构示意图;
图5为本申请实施例中可变形卷积神经网络的一个结构示意图;
图6为本申请实施例中图像处理的方法一个实施例示意图;
图7为本申请实施例中基于可变形卷积神经网络的一个图像处理流程示意图;
图8为本申请实施例中模型训练装置一个实施例示意图;
图9为本申请实施例中图像处理装置一个实施例示意图;
图10为本申请实施例中服务器一个结构示意图;
图11为本申请实施例中终端设备一个结构示意图。
具体实施方式
本申请实施例提供了一种图像分类模型训练的方法、图像处理的方法及装置,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提出一种图像语义分割网络模型的训练方法,以及利用该图像语义分割网络模型进行图像处理的方法。该方法可以通过人工智能来减少图像语义分割的模型训练过程中的人工标记,提高模型训练效率。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,ORC)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习 是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请所提供的方法主要应用于人工智能领域下的计算机视觉领域,在计算机视觉领域中,分割、检测、识别以及跟踪这几个问题是紧密相连的。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题,图像语义分割是从像素级理解图像,需要确定图像中每个像素的对应的目标类别。类别对于算法精度的要求是永无止境的,计算机对图像内容的理解可以从一开始整幅图像给出一个语义标签(图像分类),进步到画出图中出现的图像内容位置。更进一步地,需要让计算机理解图像中的每一个像素点的语义信息,从而让计算机像人一样去看图像,这就是图像语义分割。
与图像分类与图像内容检测不同的是,图像语义分割的目标是给图像中的每一个像素点都标注一个标签,简单理解,语义分割是计算机视觉中十分重要的领域,它是指像素级地识别图像,即标注出图像中每个像素所属的对象类别。基于本申请提供的图像处理方法,可以应用于自动驾驶场景,即需要为车辆增加必要的感知,以了解车辆所处的环境,以便自动驾驶的汽车可以安全行驶。还可以用于医学图像诊断,机器可以增强放射医生进行的分析,大大减少了运行诊断测试所需的时间,比如对胸部X光片进行分割,可以得到心脏区域和肺部区域。
为了便于理解,本申请提出了一种图像处理的方法,该方法应用于图1所示的图像处理系统,请参阅图1,图1为本申请实施例中图像处理系统的一个架构示意图,如图所示,本申请所提供的模型训练装置可以部署于服务器,图像处理装置可以部署于客户端,可选的,图像处理装置也可以部署于服务器,此处以图像处理装置部署于客户端为例进行说明。首先,服务器训练一个可变形的卷积神经网络实现全图的分类,然后,服务器利用对抗学习的策略,使网络主干(即图像分类网络)和网络分支(即偏移量网络)进行交替训练,在每次训练偏移量网络时,服务器利用增大分类损失函数产生的梯度更新该网络分支,使其能够逐渐找到对全图分类贡献较弱的区域,从而获得目标图像内容的图像内容区域。最后,将定位得到的图像内容区域作为分割的监督信息,由此训练得到一个图像语义分割网络模型,以实现图像分割。
当客户端与服务器联网时,客户端可以从服务器中下载图像语义分割网络模型,进而将待处理图像输入至该图像语义分割网络模型,通过图像语义分割网络模型输出待处理图像的语义分割结果。或者,客户端也可以将待处理图像上传至服务器,由服务器利用图像语义分割网络模型对待处理图像进行处理,从而得到语义分割结果,并将语音分割结果返回给客户端。当客户端与服务器未联网时,服务器也可以直接在后台利用图像语义分割网络模型对待处理图像进行处理,从而得到语义分割结果。
需要说明的是,客户端可以部署于终端设备上,其中,终端设备包含但不仅限于无人车、机器人、平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。
为了便于理解,请参阅图2,图2为本申请实施例中图像语义分割网络模型的一个流程框架示意图,如图所示,先获取训练图像21以及图像级别的类别标注信息22,然后利用训练图像21以及类别标注信息22训练得到一个弱监督的图像语义分割网络模型23,接下来获取一个未知的测试图像24,将该测试图像24输入至图像语义分割网络模型23,由该图像语义分割网络模型23对未知的测试图像进行分割24,从而预测得到测试图像的语义分割结果25。
结合上述介绍,下面将对本申请中图像分类模型训练的方法进行介绍。其中,该方法可以由计算机设备执行,例如,可以由计算机设备中的模型训练装置来执行,其中该计算机设备可以是上述图1所示系统中的服务器。请参阅图3,本申请实施例中图像分类模型训练的方法一个实施例包括:
101、获取待训练图像,其中,待训练图像具有类别标注信息,类别标注信息用于表示待训练图像中存在的图像内容类别信息;
本实施例中,模型训练装置首先需要获取待训练图像,其中,待训练图像具有类别标注信息。类别标注信息用于表示待训练图像中存在的图像内容类别信息,比如,在待训练图像中标注出“人”、“马”、“电视”以及“沙发”等图像内容类别信息。可选地,图像内容类别信息除了可以是指图像中的物体所对应的类别信息以外,还可以是天空、云朵、草坪以及大海等场景所对应的类别信息。
在一个示例中,可以是从数据库中下载待训练图像,然后以人工标注的方式对待训练图像进行标注,由此得到待训练图像的类别标注信息。也可以是在具有海量用户数据的网站中自动爬取带有类别标注信息的待训练图像。可以理解的是,待训练图像包含但不仅限于如下格式,位图(BitMaP,BMP)格式、个人电脑交换(Personal Computer Exchange,PCX)格式、标签图像文件格式(TagImage FileFormat,TIF)、图形交换格式(Graphics Interchange Format,GIF)、联合照片专家组(Joint Photographic Expert Group,JPEG)格式、可交换的图像文件格式(Exchangeable Image file Format,EXIF)、可缩放矢量图形(Scalable Vector Graphics,SVG)格式、图纸交换格式(Drawing Exchange Format,DXF)、封装式页描述语言(Encapsulated PostScript,EPS)格式、便携式网络图形(Portable Network Graphics,PNG)格式、高动态范围成像(High Dynamic Range Imaging,HDRI)以及图元文件格式(Windows Metafile Format,WMF)。
在爬取网站中的待训练图像时,该待训练图像可存在于超级文本标记语言(HyperText Markup Language,HTML)、图片、文档(Document,Doc)、多媒体、动态网页以及便携式文档格式(Portable Document Format,PDF)等格式中。
102、当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取待训练图像的第一预测类别标注信息,其中,待训练偏移量网络用于根据偏移变量对图像进行分类,待训练图像分类网络用于对图像中的图像内容进行分类;
本实施例中,在模型训练装置获取到待训练图像以及该待训练图像所对应的类别标注信息之后,开始进行图像分类网络与偏移量网络的交替训练。例如,请参阅图4,图4为本申请实施例中偏移量网络与图像分类网络的一个结构示意图,如图所示,在训练待训练图像分类网络41的时候,需要先固定待训练偏移量网络42的权重值,即固定待训练偏移量网络42的第一模型参数,然后将待训练图像43输入至待训练图像分类网络41,由该待训练图像分类网络41输出待训练图像43的第一预测类别标注信息。
其中,待训练偏移量网络42用于提供对分类贡献较弱的输入点位置,根据改变后的偏移变量44,可达到定位到判别性较弱的图像内容区域的目的。待训练图像分类网络41用于对整体图像中的图像内容区域进行分类。
103、根据图像内容类别信息以及第一预测类别标注信息,采用分类损失函数确定待训练图像分类网络所对应的第二模型参数;
本实施例中,模型训练装置采用分类损失函数对待训练图像分类网络进行训练,分类损失函数用于估计模型预测值与真实值的不一致程度,其中,待训练图像的图像内容类别信息属于真实值,待训练图像的第一预测类别标注信息属于预测值,分类损失函数越小,表示图像分类网络的鲁棒性就越好。于是,根据分类损失函数能够得到待训练图像分类网络所对应的第二模型参数。
104、当固定待训练图像分类网络的第二模型参数时,通过待训练偏移量网络获取待训练图像的第二预测类别标注信息;
本实施例中,在模型训练装置在训练得到待训练图像分类网络的第二模型参数之后,基于模型的交替训练,此时需要固定待训练图像分类网络的权重值,即固定待训练图像分类网络的第二模型参数,然后将待训练图像输入至待训练偏移量网络,由该待训练偏移量网络输出待训练图像的第二预测类别标注信息。
可以理解的是,在待训练图像分类网络与待训练偏移量网络进行交替训练的时候,可以先固定待训练偏移量网络的模型参数,然后对待训练图像分类网络进行训练。也可以先固定待训练图像分类网络的模型参数,然后对待训练偏移量网络进行训练。本申请以先固定待训练偏移量网络的模型参数,再对待训练图像分类网络进行训练为例进行介绍,然而,这并不应理解为对本申请的限定。
105、根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定待训练偏移量网络所对应的第三模型参数;
本实施例中,模型训练装置采用同一个分类损失函数对待训练偏移量网络进行训练,分类损失函数用于估计模型预测值与真实值的不一致程度,其中,待训练图像的图像内容类别信息属于真实值,待训练图像的第二预测类别标注信息属于预测值。于是,根据分类损失函数能够得到偏移量网络所对应的第二模型参数。
106、根据第二模型参数与第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,图像语义分割网络模型用于确定待处理图像的语义分割结果。
本实施例中,在经过至少一轮交替训练之后,模型训练装置根据每轮训练得到的模型参数(包括训练得到的第二模型参数和第三模型参数),对待训练图像语义分割网络模型进行训练。在一种示例性的方案中,在交替训练结束之后,将偏移量网络在训练过程中预测到的偏移变量融合为一个图像内容区域,最后,利用所得到的图像内容区域作为像素级分割的监督信息,采用该监督信息对待训练图像语义分割网络模型进行训练,从而得到图像语义分割网络模型。当待处理图像输入至图像语义分割网络模型时,由该图像语义分割网络模型输出相应的语义分割结果。
监督学习(supervised learning)主要用于解决两类问题,分别为回归(regression)以及分类(classification),回归对应于定量输出,分类对应于定性输出。简单地说,由已知数据通过计算得到一个明确的值就是回归,例如y=f(x)就是典型的回归关系。由已知数据或已标注的数据,通过计算得到一个类别就是分类。
本申请实施例中,通过上述方式,采用偏移量网络以及图像分类网络,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的图像分类模型训练的方法的第一个可选实施例中,根据图像内容类别信息以及第一预测类别标注信息,采用分类损失函数确定待训练图像分类网络所对应的第二模型参数,包括:
根据图像内容类别信息以及第一预测类别标注信息,确定在各个类别所对应的预测概率值;
根据各个类别所对应的预测概率值确定分类损失函数的分类损失;
当分类损失函数的分类损失为最小值时,确定待训练图像分类网络所对应的第二模型参数。
本实施例中,介绍了一种确定第二模型参数的方法。首先,根据真实值(即待训练图像的图像内容类别信息)以及预测值(即待训练图像的第一预测类别标注信息),确定每个类别所对应的预测概率值。假设有5个类别,分别为“人”、“马”、“冰箱”、“电视”和“沙发”五个类别,第一预测类别标注信息包括“人”、“冰箱”、“电视”和“沙发”,可以得到预测概率值为,“人”的预测概率值为0.93,“冰箱”的预测概率值为0.88,“马”的预测概率值为0,“电视”的预测概率值为0.5,“沙发”的预测概率值为0.65。接下来,根据每个类别所对应的预测概率值确定分类损失函数的分类损失。
当该分类损失函数的分类损失达到最小值时,即可获取该最小值下待训练图像分类网络所对应的模型参数,该模型参数即为第二模型参数。可以理解的是,本申请中分类损失函数的分类损失可以是指交叉熵分类损失。
其次,本申请实施例中,通过上述方式,通过最小化图像级别的分类损失函数的分类损失,能够得到具有全图分类能力的图像分类网络,且该图像分类网络具有较好的鲁棒性,具有更强的图像分类效果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的图像分类模型训练的方法第二个可选实施例中,根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定待训练偏移量网络所对应的第三模型参数,包括:
根据图像内容类别信息以及第二预测类别标注信息,确定在各个类别所对应的预测概率值;
根据各个类别所对应的预测概率值确定分类损失函数的分类损失;
当分类损失函数的分类损失为最大值时,确定待训练偏移量网络所对应的第三模型参数。
本实施例中,介绍了一种确定第三模型参数的方法。首先,根据真实值(即待训练图像的图像内容类别信息)以及预测值(即待训练图像的第二预测类别标注信息),确定每个类别所对应的预测概率值,这里的第二预测类别标注信息是经过可变形卷积神经网络处理后得到的。假设有5个类别,分别为“人”、“马”、“冰箱”、“电视”和“沙发”五个类别,第二预测类别标注信息包括“人”、“马”、“冰箱”、“电视”和“沙发”,可以得到预测概率值为,“人”的预测概率值为0.75,“冰箱”的预测概率值为0.65,“马”的预测概率值为0.19,“冰箱”的预测概率值为0.66,“电视”的预测概率值为0.43,“沙发”的预测概率值为0.78。接下来,根据每个类别所对应的预测概率值确定分类损失函数的分类损失。
当该分类损失函数的分类损失达到最大值时,即可获取该最大值下待训练偏移量网络所对应的模型参数,该模型参数即为第三模型参数。可以理解的是,本申请中分类损失函数的分类损失可以是指交叉熵分类损失。
在实际应用中,时间序列或图像往往都是连续的,而我们输入到模型中的数据,往往是不连续的,因此,可以在输入中加入微小的扰动使得模型可以更好地对抗噪声扰动。即获取一个对抗样本,使它尽可能被分类为好,并且与某个原来的样本在样本空间里还很接近(距离无限小)。可以理解的是,可以采用梯度下降法或者牛顿法等,计算得到模型参数。
其次,本申请实施例中,通过上述方式,通过最大化图像级别的分类损失函数的分类损失,能够提升图像分类网络的分类难度,达到对抗训练的效果,从而使得图像分类网络的分类效果更好,即具有更强的图像分类效果。此外,通过最大化图像级别的分类损失函数的分类损失,还可以使偏移量网络提供对分类贡献较弱的输入点的位置,根据改变后的偏移变量,达到定位到判别性较弱的图像内容区域的目的。
可选地,在上述图3以及图3对应的第一个或第二个实施例的基础上,本申请实施例提供的图像分类模型训练的方法第三个可选实施例中,分类损失函数可以表示为:
Figure PCTCN2020079496-appb-000005
其中,L表示分类损失函数,I()表示狄拉克函数,N表示类别总数,c表示第c类别,k为大于或等于1,且小于或等于N,P c表示第c类别所对应的预测概率值。
本实施例中,定义了一个用于训练得到图像分类网络和偏移量网络的分类损失函数,即采用如下分类损失函数:
Figure PCTCN2020079496-appb-000006
由此可见,在训练图像分类网络和偏移量网络时,以图像级别的图像内容区域作为训练对象,从而得到的图像分类网络和偏移量网络能够预测图像中每个图像内容区域的类别。
再次,本申请实施例中,提供了分类损失函数的示例性的内容。通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的图像分类模型训练的 方法第四个可选实施例中,通过待训练偏移量网络获取待训练图像的第二预测类别标注信息之前,还可以包括:
通过可变形卷积神经网络获取待训练图像所对应的待训练特征图像,其中,可变形卷积神经网络用于预测待训练图像的偏移变量;
通过待训练偏移量网络获取待训练图像的第二预测类别标注信息,可以包括:
通过待训练偏移量网络待训练特征图像所对应的第二预测类别标注信息。
本实施例中,介绍了一种利用可变形卷积神经网络生成第二预测类别标注信息。在一示例性的方案中,首先将待训练图像输入至可变形卷积神经网络(deformable convolution),通过可变形卷积神经网络输出一个预测得到的偏移变量,偏移变量即为一个卷积核每个权重值对应的输入像素的位置偏移量,采用偏移变量能够改变操作的实际输入特征。
为了便于理解,请参阅图5,图5为本申请实施例中可变形卷积神经网络的一个结构示意图,如图所示,传统卷积窗口只要训练每个卷积窗口的像素权重值即可,而可变形卷积网络需要额外增加一些参数用来训练卷积窗口的形状。图5中的偏移区域51就是变形卷积外加的待训练参数,待训练参数的大小和待训练图像52的大小一样,卷积窗口在偏移区域51上滑动就呈现了卷积像素偏移的效果,达到采样点优化的效果,最后输出待训练特征图像53。将待训练特征图像输入至待训练偏移量网络,由待训练偏移量网络输出第二预测类别标注信息。
其次,本申请实施例中,通过上述方式,能够预测一个卷积核中每个权重对应的输入像素的位置偏移变量,来改变卷积操作的实际输入特征,由此训练得到最有效的变换方式,从而可以实现对抗训练的模式。
可选地,在上述图3对应的第四个实施例的基础上,本申请实施例提供的图像分类模型训练的方法第五个可选实施例中,通过可变形卷积神经网络获取待训练图像所对应的待训练特征图像,可以包括:
采用如下方式生成待训练特征图像;
Figure PCTCN2020079496-appb-000007
其中,y(p 0)表示待训练特征图像p 0表示待训练特征图像中的像素值,p n表示采样点在卷积核中的位置,Δp n表示偏移变量,w(p n)表示卷积核在待训练图像对应位置进行卷积运算的权重值,x(p 0+p n+Δp n)表示待训练图像对应位置的像素值。
本实施例中,介绍了一种通过可变形卷积神经网络获取待训练特征图像的方法,对输出位置为p 0的特征,若使用传统的卷积层,其相应的输入特征位置集合为p 0+p n,其中,p n∈R,R为所有以0为中心的标准的正方形偏移量,例如,一个3×3卷积核所对应的R为{(0,0),(-1,-1),(-1,1),(1,1),(1,-1),(-1,0),(1,0),(0,1),(0,1)}。而可变形卷积神经网络的输入特征集合在p 0+p n的基础上,引入一个预测得到的额外偏移变量,因此,实际输入的特征位置集合为p 0+p n+Δp n,即输出层y(p 0)表示为:
Figure PCTCN2020079496-appb-000008
其中,y(p 0)表示待训练特征图像p 0表示待训练特征图像中的像素值,p n表示采样点在卷积核中的位置,Δp n表示偏移变量,w(p n)表示卷积核在待训练图像对应位置进行卷积运算的权重值,x(p 0+p n+Δp n)表示待训练图像对应位置的像素值。
再次,本申请实施例中,提供了一种生成待训练特征图像的示例性的方式,通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的图像分类模型训练的方法第六个可选实施例中,根据图像内容类别信息以及第二预测类别标注信息,采用分类损失函数确定待训练图像分类网络所对应的第三模型参数之后,还可以包括:
当固定待训练偏移量网络所对应的第三模型参数时,通过待训练图像分类网络获取待训练图像的第三预测类别标注信息;
根据图像内容类别信息以及第三预测类别标注信息,采用分类损失函数确定待训练图像分类网络所对应的第四模型参数;
当固定待训练图像分类网络的第四模型参数时,通过待训练偏移量网络获取待训练图像的第四预测类别标注信息;
根据图像内容类别信息以及第四预测类别标注信息,采用分类损失函数确定待训练偏移量网络所对应的第五模型参数;
根据第二模型参数与第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,包括:
根据第二模型参数、第三模型参数、第四模型参数以及第五模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型。
本实施例中,介绍另一轮模型交替训练的过程,在模型训练装置完成一次交替训练之后,即可开始下一轮的条件训练。例如,在训练待训练图像分类网的时候,需要先固定待训练偏移量网络的权重值,即固定待训练偏移量网络的第三模型参数,然后将待训练图像输入至待训练图像分类网络,由该待训练图像分类网络输出待训练图像的第三预测类别标注信息。于是,模型训练装置采用分类损失函数对待训练图像分类网络进行训练,分类损失函数用于估计模型预测值与真实值的不一致程度,其中,待训练图像的图像内容类别信息属于真实值,待训练图像的第三预测类别标注信息属于预测值,分类损失函数越小,表示图像分类网络的鲁棒性就越好。于是,根据分类损失函数能够得到待训练图像分类网络所对应的第四模型参数。
在模型训练装置在训练得到待训练图像分类网络的第四模型参数之后,基于模型的交替训练,此时需要固定待训练图像分类网络的权重值,即固定待训练图像分类网络的第四模型参数,然后将待训练图像输入至待训练偏移量网络,由该待训练偏移量网络输出待训练图像的第四预测类别标注信息。
模型训练装置采用同一个分类损失函数对待训练偏移量网络进行训练,分类损失函数用于估计模型预测值与真实值的不一致程度,其中,待训练图像的图像内容类别信息属于真实值,待训练图像的第四预测类别标注信息属于预测值。于是,根据分类损失函数能够得到偏移量网络所对应的第五模型参数。
在经过多轮交替训练之后,模型训练装置根据每轮训练得到的模型参数(包括训练得到的第二模型参数、第三模型参数、第四模型参数以及第五模型参数),对待训练图像语义分割网络模型进行训练。在一示例性的方案中,在交替训练结束之后,将偏移量网络在训练过程中预测到的偏移变量融合为一个较为完整的图像内容区域,最后,利用所得到的图像内容区域作为像素级分割的监督信息,采用该监督信息对待训练图像语义分割网络模型进行训练,从而得到图像语义分割网络模型。当待处理图像输入至图像语义分割网络模型时,由该图像语义分割网络模型输出相应的语义分割结果。
其次,本申请实施例中,通过上述方式,固定其中一个分支,训练另一个分支的策略,能使图像分类网络与偏移量网络不断进行对抗学习,一方面使得图像分类网络在以信息量更弱的区域为输入后训练分类器不断增强,另一方面偏移量网络的分支亦能不断定位到判别性更弱的区域。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的图像分类模型训练的 方法第七个可选实施例中,根据第二模型参数与第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,可以包括:
当采用第二模型参数与第三模型参数对待训练偏移量网络经过N次训练时,根据每次训练待训练偏移量网络的偏移变量,确定待训练图像所对应的图像内容区域,其中,N为大于或等于1的整数;
根据图像内容区域,采用目标损失函数对待训练图像语义分割网络模型进行训练;
当目标损失函数的损失结果为最小值时,生成图像语义分割网络模型。
本实施例中,介绍一种生成图像语义分割网络模型的方法,在N次交替训练结束后,将偏移量网络在训练过程中预测得到的偏移变量全部融合,由此可得到较为完整的图像内容区域,即得到待训练图像所对应的图像内容区域,利用所得的的图像内容区域作为像素级分割的监督信息,然后采用目标损失函数对待训练图像语义分割网络模型进行训练,当目标损失函数的损失结果为最小值时,生成图像语义分割网络模型。
图像语义分割网络模型的应用范围很广,比如帮助修图师进行精确美图,或者辅助无人驾驶汽车准确的理解前方障碍等。利用图像语义分割网络模型进行语义分割的方法有多种,比如使用阈值法,阈值法的目标是将一个灰度图像转换为一个前背景分离的二值图像,假设灰度图中仅包含两个主要类别,前景图像内容以及背景图像,然后通过平衡图像统计直方图的方式,找到一个很好的像素阈值,将图像中所有点区分到这两类中去,其中,大于阈值的点是图像内容,反之则为背景。
又比如使用像素聚类的方法,首先选取K个中心点,然后按照每个像素点与这K个像素的差别大小,将图像的所有点分配到这K个中心,之后重新计算每个类中心,并按照上述步骤迭代优化,从而将图像中的所有像素分为K个类别。
又比如使用图像边缘分割的方法,利用所提取到的边缘信息,将图像中的不同区域分割出来。
其次,本申请实施例中,通过上述方式,克服了对数据标注的要求过高的问题,不需要对海量的图像进行像素级标注,从而实现弱监督条件下的图像语义分割,仅需提供图像级别标注,而不需要昂贵的像素级别信息即可取得与现有方法可比的语义分割精度。
可选地,在上述图3对应的第七个实施例的基础上,本申请实施例提供的图像分类模型训练的方法第八个可选实施例中,目标损失函数可以表示为:
Figure PCTCN2020079496-appb-000009
其中,L seg表示目标损失函数,N表示类别总数,c表示第c类别,k为大于或等于1,且小于或等于N,I()表示狄拉克函数,
Figure PCTCN2020079496-appb-000010
表示第c类别在像素点的预测概率值,i表示像素点在待训练图像中的横坐标位置,j表示像素点在待训练图像中的纵坐标位置。
本实施例中,定义了一个用于训练得到图像语义分割网络模型的目标损失函数,即采用如下目标损失函数:
Figure PCTCN2020079496-appb-000011
由此可见,在训练图像语义分割网络模型时,以像素级别的图像作为训练对象,从而得到的图像语义分割网络模型能够预测图像中每个特征点的类别。
再次,本申请实施例中,提供了目标损失函数的示例性内容。通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
结合上述介绍,下面将对本申请中图像处理的方法进行介绍。其中,该方法可以由计算机设备执行,例如,可以由计算机设备中的模型训练装置来执行,其中该计算机设备可以是上述图1所示系统中的终端设备或者服务器。请参阅图6,本申请实施例中图像处理的方法 一个实施例包括:
201、获取待处理图像;
本实施例中,在模型训练装置训练得到一个图像语义分割网络模型之后,图像处理装置可以获取一个待处理图像。其中,当图像处理装置部署在无人车中时,图像处理装置可以通过摄像头获取无人车在行驶过程中采集到的街景图。当图像处理装置部署在机器人中时,图像处理装置可以实时采集机器人所在环境下的实景图。当图像处理装置部署在手机或者平板电脑等手持设备上时,图像处理装置可以获取用户拍摄的照片,或者从网站上下载的图片,这些图像均可以作为待处理图像。
可以理解的是,待处理图像包含但不仅限于如下格式,BMP格式、PCX格式、TIF、GIF、JPEG格式、EXIF、SVG格式、DXF、EPS格式、PNG格式、HDRI格式以及WMF。
202、通过图像语义分割网络模型获取待处理图像的语义分割结果,其中,图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,待训练偏移量网络用于根据偏移变量对图像进行分类,待训练图像分类网络用于对图像中的图像内容进行分类;
本实施例中,图像处理装置将待处理图像输入至图像语义分割网络模型,由该图像语义分割网络模型输出相应的语义分割结果。其中,图像语义分割网络模型是通过待训练图像分类网络以及待训练偏移量网络交替训练得到的,该待训练偏移量网络用于根据偏移变量对图像进行分类,待训练图像分类网络用于对图像中的图像内容进行分类。可以理解的是,图像语义分割网络模型的训练过程如上述图3以及图3对应的第一个至第八个实施例所描述的内容,故此处不做赘述。
可以理解的是,图像语义分割网络模型可以是基于全卷积神经网络(Fully Convolutional Networks,FCN)、条件随机场(conditional random field,CRF)或者马尔科夫随机场(Markov random field,MRF)训练得到的,也可以是通过其他结构的神经网络训练得到的,此处不做限定。
其中,FCN主要使用了卷积化(Convolutional)、上采样(Upsample)以及跳跃结构(Skip Layer)三种技术。卷积化即是将普通的分类网络,比如VGG16或者残差网络(Residual Neural Network,ResNet)50/101等网络丢弃全连接层,更换对应的卷积层即可。上采样即是反卷积(Deconvolution),反卷积和卷积类似,都是相乘相加的运算。反卷积是一对多,反卷积的前向和后向传播,只用颠倒卷积的前后向传播即可。跳跃结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是较为粗糙的,所以需要将不同池化层的结果进行上采样之后来优化输出。
203、根据语义分割结果对待处理图像进行处理。
本实施例中,图像处理装置根据语义分割结果对该待处理图像进行处理,可选地,语义分割结果可以用于网站进行以图搜图,即搜索与待处理图像相关的其他图像。还可以应基于图像内容分析的个性化推荐等。语义分割结果通常具有如下特点,第一,分割得到的不同区域内部平整,其纹理和灰度有相似性;第二,相邻语义分割区域对分割所依据的性质有明显的差异;第三,分割后不同语义区域的边界有明确且规整。
本申请实施例中,通过上述方式,可以实现弱监督的图像语义分割,能够应用于缺乏精细像素级别分割标注数据的情况,仅仅依靠全图分类标注,实现高准确率的图像分割。
为了便于理解,请参阅图7,图7为本申请实施例中基于可变形卷积神经网络的一个图像处理流程示意图,如图所示,首先获取一个待处理图像71,从该待处理图像中提取感兴趣图像,比如图7所示的红色汽车,将从待处理图像中提取的感兴趣图像输入至卷积层72,通过感兴趣区域池化层73得到感兴趣图像的特征图74。在一示例性的方案中,假设池化的目标为一个3×3的特征图,那么可以首先将输入的感兴趣图像的进行感兴趣区域池化,得到3×3大小的特征图74,然后通过全连接层75,输出为每一个区域对应的偏移变量76。经过另一个全连接层77,从而得到语义分割结果(包括分类信息78和定位信息79)。
下面对本申请中的模型训练装置进行详细描述。其中,该装置可以用于计算机设备中,例如,该计算机设备可以是上述图1所示系统中的服务器。请参阅图8,图8为本申请实施例中模型训练装置一个实施例示意图,模型训练装置30包括:
获取模块301,用于获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
所述获取模块301,还用于当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
确定模块302,用于根据所述图像内容类别信息以及所述获取模块301获取的所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
所述获取模块301,还用于当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
所述确定模块302,还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
训练模块303,用于根据所述确定模块302确定的所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
本实施例中,获取模块301获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息,当固定待训练偏移量网络的第一模型参数时,所述获取模块301通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类,确定模块302根据所述图像内容类别信息以及所述获取模块301获取的所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数,当固定所述待训练图像分类网络的所述第二模型参数时,所述获取模块301通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息,所述确定模块302根据所述图像内容类别信息以及所述获取模块301获取的所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数,训练模块303根据所述确定模块302确定的所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
本申请实施例中,通过上述方式,采用偏移量网络以及图像分类网络,可以对标注为图像级别的待训练图像进行训练,在保证图像语义分割网络模型性能的情况下,无需人工进行像素级别标注,从而减少了人工标注成本,进而提升了模型训练的效率。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述确定模块302,具体用于根据所述图像内容类别信息以及所述第一预测类别标注信息,确定在各个类别所对应的预测概率值;
根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
当所述分类损失函数的分类损失为最小值时,确定所述待训练图像分类网络所对应的所述第二模型参数。
其次,本申请实施例中,通过上述方式,通过最小化图像级别的分类损失函数的分类损失,能够得到具有全图分类能力的图像分类网络,且该图像分类网络具有较好的鲁棒性,具有更强的图像分类效果。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30 的另一实施例中,
所述确定模块302,具体用于根据所述图像内容类别信息以及所述第二预测类别标注信息,确定在各个类别所对应的预测概率值;
根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
当所述分类损失函数的分类损失为最大值时,确定所述待训练偏移量网络所对应的所述第三模型参数。
其次,本申请实施例中,通过上述方式,通过最大化图像级别的分类损失函数的分类损失,能够提升图像分类网络的分类难度,达到对抗训练的效果,从而使得图像分类网络的分类效果更好,即具有更强的图像分类效果。此外,通过最大化图像级别的分类损失函数的分类损失,还可以使偏移量网络提供对分类贡献较弱的输入点的位置,根据改变后的偏移变量,达到定位到判别性较弱的图像内容区域的目的。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述分类损失函数表示为:
Figure PCTCN2020079496-appb-000012
其中,所述L表示所述分类损失函数,所述I()表示狄拉克函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述P c表示所述第c类别所对应的预测概率值。
再次,本申请实施例中,提供了分类损失函数的具体内容。通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述获取模块301,还用于通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前,通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,其中,所述可变形卷积神经网络用于预测所述待训练图像的偏移变量;
所述获取模块,具体用于通过所述待训练偏移量网络获取所述待训练特征图像所对应的所述第二预测类别标注信息。
其次,本申请实施例中,通过上述方式,能够预测一个卷积核中每个权重对应的输入像素的位置偏移变量,来改变卷积操作的实际输入特征,由此训练得到最有效的变换方式,从而可以实现对抗训练的模式。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述获取模块301,具体用于采用如下方式生成所述待训练特征图像;
Figure PCTCN2020079496-appb-000013
其中,所述y(p 0)表示所述待训练特征图像所述p 0表示所述待训练特征图像中的像素值,所述p n表示采样点在卷积核中的位置,所述Δp n表示所述偏移变量,所述w(p n)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值,所述x(p 0+p n+Δp n)表示所述待训练图像对应位置的像素值。
再次,本申请实施例中,提供了一种生成待训练特征图像的示例性方式,通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30 的另一实施例中,
所述获取模块301,还用于所述确定模块302根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后,当固定所述待训练偏移量网络所对应的所述第三模型参数时,通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息;
所述确定模块302,还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第三预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数;
所述获取模块301,还用于当固定所述待训练图像分类网络的所述第四模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第四预测类别标注信息;
所述确定模块302,还用于根据所述图像内容类别信息以及所述获取模块301获取的所述第四预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数;
所述训练模块303,具体用于根据所述确定模块302确定的所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数,对所述待训练图像语义分割网络模型进行训练,得到所述图像语义分割网络模型。
其次,本申请实施例中,通过上述方式,固定其中一个分支,训练另一个分支的策略,能使图像分类网络与偏移量网络不断进行对抗学习,一方面使得图像分类网络在以信息量更弱的区域为输入后训练分类器不断增强,另一方面偏移量网络的分支亦能不断定位到判别性更弱的区域。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述训练模块303,具体用于当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时,根据每次训练所述待训练偏移量网络的偏移变量,确定所述待训练图像所对应的图像内容区域,其中,所述N为大于或等于1的整数;
根据所述图像内容区域,采用目标损失函数对待训练图像语义分割网络模型进行训练;
当所述目标损失函数的损失结果为最小值时,生成所述图像语义分割网络模型。
其次,本申请实施例中,通过上述方式,克服了对数据标注的要求过高的问题,不需要对海量的图像进行像素级标注,从而实现弱监督条件下的图像语义分割,仅需提供图像级别标注,而不需要昂贵的像素级别信息即可取得与现有方法可比的语义分割精度。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
所述目标损失函数表示为:
Figure PCTCN2020079496-appb-000014
其中,所述L seg表示所述目标损失函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述I()表示狄拉克函数,所述
Figure PCTCN2020079496-appb-000015
表示所述第c类别在像素点的预测概率值,所述i表示所述像素点在所述待训练图像中的横坐标位置,所述j表示所述像素点在所述待训练图像中的纵坐标位置。
再次,本申请实施例中,提供了目标损失函数的示例性内容。通过上述方式,能够为方案的实现提供可行的方法,从而提升方案的可行性和可操作性。
下面对本申请中的图像处理装置进行详细描述。其中,该装置可以用于计算机设备中,例如,该计算机设备可以是上述图1所示系统中的服务器或者终端设备。请参阅图9,图9为本申请实施例中图像处理装置一个实施例示意图,图像处理装置40包括:
获取模块401,用于获取待处理图像;
所述获取模块401,还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
处理模块402,用于根据所述获取模块401获取的所述语义分割结果对所述待处理图像进行处理。
本实施例中,获取模块401获取待处理图像,所述获取模块401通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类,处理模块402根据所述获取模块401获取的所述语义分割结果对所述待处理图像进行处理。
本申请实施例中,通过上述方式,可以实现弱监督的图像语义分割,能够应用于缺乏精细像素级别分割标注数据的情况,仅仅依靠全图分类标注,实现高准确率的图像分割。
图10是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
在本申请实施例中,该服务器所包括的CPU522还可以用于执行上述图3或图6所示实施例中的全部或者部分步骤。
本申请实施例还提供了另一种图像处理装置,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端设备(point of sales,POS)、车载电脑等任意终端设备设备,以终端设备为手机为例:
图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。例如,输入单元630可包括触控面板631以及其他输入设备632。除了触控面板631,输入单元630还可以包括其他输入设备632。例如,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作 杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641。虽然在图11中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。
虽然图11示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。
手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器680还可以用于执行上述图3或图6所示实施例中的全部或者部分步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

  1. 一种图像分类模型训练的方法,其特征在于,所述方法由计算机设备执行,包括:
    获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
    当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
    当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
    根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
    根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数,包括:
    根据所述图像内容类别信息以及所述第一预测类别标注信息,确定在各个类别所对应的预测概率值;
    根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
    当所述分类损失函数的分类损失为最小值时,确定所述待训练图像分类网络所对应的所述第二模型参数。
  3. 根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数,包括:
    根据所述图像内容类别信息以及所述第二预测类别标注信息,确定在各个类别所对应的预测概率值;
    根据所述各个类别所对应的预测概率值确定所述分类损失函数的分类损失;
    当所述分类损失函数的分类损失为最大值时,确定所述待训练偏移量网络所对应的所述第三模型参数。
  4. 根据权利要求1至3中任一项所述的方法,其特征在于,所述分类损失函数表示为:
    Figure PCTCN2020079496-appb-100001
    其中,所述L表示所述分类损失函数,所述I( )表示狄拉克函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述P c表示所述第c类别所对应的预测概率值。
  5. 根据权利要求1所述的方法,其特征在于,所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息之前,所述方法还包括:
    通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,其中,所述可变形卷积神经网络用于预测所述待训练图像的偏移变量;
    所述通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息,包括:
    通过所述待训练偏移量网络获取所述待训练特征图像所对应的所述第二预测类别标注信息。
  6. 根据权利要求5所述的方法,其特征在于,所述通过可变形卷积神经网络获取所述待训练图像所对应的待训练特征图像,包括:
    采用如下方式生成所述待训练特征图像;
    Figure PCTCN2020079496-appb-100002
    其中,所述y(p 0)表示所述待训练特征图像所述p 0表示所述待训练特征图像中的像素值,所述p n表示采样点在卷积核中的位置,所述Δp n表示所述偏移变量,所述w(p n)表示所述卷积核在所述待训练图像对应位置进行卷积运算的权重值,所述x(p 0+p n+Δp n)表示所述待训练图像对应位置的像素值。
  7. 根据权利要求1所述的方法,其特征在于,所述根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第三模型参数之后,所述方法还包括:
    当固定所述待训练偏移量网络所对应的所述第三模型参数时,通过所述待训练图像分类网络获取所述待训练图像的第三预测类别标注信息;
    根据所述图像内容类别信息以及所述第三预测类别标注信息,采用所述分类损失函数确定所述待训练图像分类网络所对应的第四模型参数;
    当固定所述待训练图像分类网络的所述第四模型参数时,通过所述待训练偏移量网络获 取所述待训练图像的第四预测类别标注信息;
    根据所述图像内容类别信息以及所述第四预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第五模型参数;
    所述根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,包括:
    根据所述第二模型参数、所述第三模型参数、所述第四模型参数以及所述第五模型参数,对所述待训练图像语义分割网络模型进行训练,得到所述图像语义分割网络模型。
  8. 根据权利要求1所述的方法,其特征在于,所述根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,包括:
    当采用所述第二模型参数与所述第三模型参数对所述待训练偏移量网络经过N次训练时,根据每次训练所述待训练偏移量网络的偏移变量,确定所述待训练图像所对应的图像内容区域,其中,所述N为大于或等于1的整数;
    根据所述图像内容区域,采用目标损失函数对待训练图像语义分割网络模型进行训练;
    当所述目标损失函数的损失结果为最小值时,生成所述图像语义分割网络模型。
  9. 根据权利要求8所述的方法,其特征在于,所述目标损失函数表示为:
    Figure PCTCN2020079496-appb-100003
    其中,所述L seg表示所述目标损失函数,所述N表示类别总数,所述c表示第c类别,所述k为大于或等于1,且小于或等于所述N,所述I( )表示狄拉克函数,所述
    Figure PCTCN2020079496-appb-100004
    表示所述第c类别在像素点的预测概率值,所述i表示所述像素点在所述待训练图像中的横坐标位置,所述j表示所述像素点在所述待训练图像中的纵坐标位置。
  10. 一种图像处理的方法,其特征在于,所述方法由计算机设备执行,包括:
    获取待处理图像;
    通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    根据所述语义分割结果对所述待处理图像进行处理。
  11. 一种模型训练装置,其特征在于,所述装置用于计算机设备中,包括:
    获取模块,用于获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
    所述获取模块,还用于当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    确定模块,用于根据所述图像内容类别信息以及所述获取模块获取的所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
    所述获取模块,还用于当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获取所述待训练图像的第二预测类别标注信息;
    所述确定模块,还用于根据所述图像内容类别信息以及所述获取模块获取的所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
    训练模块,用于根据所述确定模块确定的所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果。
  12. 一种图像处理装置,其特征在于,所述装置用于计算机设备中,包括:
    获取模块,用于获取待处理图像;
    所述获取模块,还用于通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    处理模块,用于根据所述获取模块获取的所述语义分割结果对所述待处理图像进行处理。
  13. 一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
    其中,所述存储器用于存储程序;
    所述处理器用于执行所述存储器中的程序,包括如下步骤:
    获取待训练图像,其中,所述待训练图像具有类别标注信息,所述类别标注信息用于表示所述待训练图像中存在的图像内容类别信息;
    当固定待训练偏移量网络的第一模型参数时,通过待训练图像分类网络获取所述待训练图像的第一预测类别标注信息,其中,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    根据所述图像内容类别信息以及所述第一预测类别标注信息,采用分类损失函数确定所述待训练图像分类网络所对应的第二模型参数;
    当固定所述待训练图像分类网络的所述第二模型参数时,通过所述待训练偏移量网络获 取所述待训练图像的第二预测类别标注信息;
    根据所述图像内容类别信息以及所述第二预测类别标注信息,采用所述分类损失函数确定所述待训练偏移量网络所对应的第三模型参数;
    根据所述第二模型参数与所述第三模型参数,对待训练图像语义分割网络模型进行训练,得到图像语义分割网络模型,其中,所述图像语义分割网络模型用于确定待处理图像的语义分割结果;
    所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
  14. 一种终端设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
    其中,所述存储器用于存储程序;
    所述处理器用于执行所述存储器中的程序,包括如下步骤:
    获取待处理图像;
    通过图像语义分割网络模型获取所述待处理图像的语义分割结果,其中,所述图像语义分割网络模型为根据待训练图像分类网络以及待训练偏移量网络交替训练得到的,所述待训练偏移量网络用于根据偏移变量对图像进行分类,所述待训练图像分类网络用于对图像中的图像内容进行分类;
    根据所述语义分割结果对所述待处理图像进行处理;
    所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
  15. 一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9中任一项所述的方法,或执行如权利要求10所述的方法。
PCT/CN2020/079496 2019-03-26 2020-03-16 一种图像分类模型训练的方法、图像处理的方法及装置 WO2020192471A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP20777689.9A EP3951654A4 (en) 2019-03-26 2020-03-16 METHOD FOR TRAINING AN IMAGE CLASSIFICATION MODEL AND METHOD AND APPARATUS FOR IMAGE PROCESSING
JP2021522436A JP7185039B2 (ja) 2019-03-26 2020-03-16 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
KR1020217013575A KR102698958B1 (ko) 2019-03-26 2020-03-16 이미지 분류 모델 훈련 방법, 및 이미지 처리 방법 및 디바이스
US17/238,634 US20210241109A1 (en) 2019-03-26 2021-04-23 Method for training image classification model, image processing method, and apparatuses

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910233985.5A CN109784424B (zh) 2019-03-26 2019-03-26 一种图像分类模型训练的方法、图像处理的方法及装置
CN201910233985.5 2019-03-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/238,634 Continuation US20210241109A1 (en) 2019-03-26 2021-04-23 Method for training image classification model, image processing method, and apparatuses

Publications (1)

Publication Number Publication Date
WO2020192471A1 true WO2020192471A1 (zh) 2020-10-01

Family

ID=66490551

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/079496 WO2020192471A1 (zh) 2019-03-26 2020-03-16 一种图像分类模型训练的方法、图像处理的方法及装置

Country Status (6)

Country Link
US (1) US20210241109A1 (zh)
EP (1) EP3951654A4 (zh)
JP (1) JP7185039B2 (zh)
KR (1) KR102698958B1 (zh)
CN (1) CN109784424B (zh)
WO (1) WO2020192471A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257727A (zh) * 2020-11-03 2021-01-22 西南石油大学 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN112418232A (zh) * 2020-11-18 2021-02-26 北京有竹居网络技术有限公司 图像分割方法、装置、可读介质及电子设备
CN112950639A (zh) * 2020-12-31 2021-06-11 山西三友和智慧信息技术股份有限公司 一种基于SA-Net的MRI医学图像分割方法
CN113033436A (zh) * 2021-03-29 2021-06-25 京东鲲鹏(江苏)科技有限公司 障碍物识别模型训练方法及装置、电子设备、存储介质
CN113139618A (zh) * 2021-05-12 2021-07-20 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113887662A (zh) * 2021-10-26 2022-01-04 北京理工大学重庆创新中心 一种基于残差网络的图像分类方法、装置、设备及介质
CN113963220A (zh) * 2021-12-22 2022-01-21 熵基科技股份有限公司 安检图像分类模型训练方法、安检图像分类方法及装置
CN114612663A (zh) * 2022-03-11 2022-06-10 浙江工商大学 基于弱监督学习的域自适应实例分割方法及装置
CN114677677A (zh) * 2022-05-30 2022-06-28 南京友一智能科技有限公司 一种质子交换膜燃料电池气体扩散层材料比例预测方法
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
WO2023082870A1 (zh) * 2021-11-10 2023-05-19 腾讯科技(深圳)有限公司 图像分割模型的训练方法、图像分割方法、装置及设备
CN116403163A (zh) * 2023-04-20 2023-07-07 慧铁科技有限公司 一种截断塞门手把开合状态的识别方法和装置
CN116503686A (zh) * 2023-03-28 2023-07-28 北京百度网讯科技有限公司 图像矫正模型的训练方法、图像矫正方法、装置及介质

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161274B (zh) * 2018-11-08 2023-07-07 上海市第六人民医院 腹部图像分割方法、计算机设备
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN110210544B (zh) * 2019-05-24 2021-11-23 上海联影智能医疗科技有限公司 图像分类方法、计算机设备和存储介质
CN110223230A (zh) * 2019-05-30 2019-09-10 华南理工大学 一种多前端深度图像超分辨率系统及其数据处理方法
CN111047130B (zh) * 2019-06-11 2021-03-02 北京嘀嘀无限科技发展有限公司 用于交通分析和管理的方法和系统
CN110363709A (zh) * 2019-07-23 2019-10-22 腾讯科技(深圳)有限公司 一种图像处理方法、图像展示方法、模型训练方法及装置
CN110458218B (zh) * 2019-07-31 2022-09-27 北京市商汤科技开发有限公司 图像分类方法及装置、分类网络训练方法及装置
CN110490239B (zh) * 2019-08-06 2024-02-27 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN110807760B (zh) * 2019-09-16 2022-04-08 北京农业信息技术研究中心 一种烟叶分级方法及系统
CN110705460B (zh) * 2019-09-29 2023-06-20 北京百度网讯科技有限公司 图像类别识别方法及装置
CN110737783B (zh) * 2019-10-08 2023-01-17 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
CN110826596A (zh) * 2019-10-09 2020-02-21 天津大学 一种基于多尺度可变形卷积的语义分割方法
CN110704661B (zh) * 2019-10-12 2021-04-13 腾讯科技(深圳)有限公司 一种图像分类方法和装置
CN110930417B (zh) * 2019-11-26 2023-08-08 腾讯科技(深圳)有限公司 图像分割模型的训练方法和装置、图像分割方法和装置
CN110956214B (zh) * 2019-12-03 2023-10-13 北京车和家信息技术有限公司 一种自动驾驶视觉定位模型的训练方法及装置
CN112750128B (zh) * 2019-12-13 2023-08-01 腾讯科技(深圳)有限公司 图像语义分割方法、装置、终端及可读存储介质
CN113053332B (zh) * 2019-12-28 2022-04-22 Oppo广东移动通信有限公司 背光亮度调节方法、装置、电子设备及可读存储介质
CN111259904B (zh) * 2020-01-16 2022-12-27 西南科技大学 一种基于深度学习和聚类的语义图像分割方法及系统
CN111369564B (zh) * 2020-03-04 2022-08-09 腾讯科技(深圳)有限公司 一种图像处理的方法、模型训练的方法及装置
CN111523548B (zh) * 2020-04-24 2023-11-28 北京市商汤科技开发有限公司 一种图像语义分割、智能行驶控制方法及装置
CN113673668A (zh) * 2020-05-13 2021-11-19 北京君正集成电路股份有限公司 一种车辆检测训练中二级损失函数的计算方法
CN111723813B (zh) 2020-06-05 2021-07-06 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
CN111814833B (zh) * 2020-06-11 2024-06-07 浙江大华技术股份有限公司 票据处理模型的训练方法及图像处理方法、图像处理设备
CN111783635A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像标注方法、装置、设备以及存储介质
CN111784673B (zh) * 2020-06-30 2023-04-18 创新奇智(上海)科技有限公司 缺陷检测模型训练和缺陷检测方法、设备及存储介质
CN112132841B (zh) * 2020-09-22 2024-04-09 上海交通大学 医疗图像切割方法及装置
CN112333402B (zh) * 2020-10-20 2021-10-22 浙江大学 一种基于声波的图像对抗样本生成方法及系统
CN112487479B (zh) * 2020-12-10 2023-10-13 支付宝(杭州)信息技术有限公司 一种训练隐私保护模型的方法、隐私保护方法及装置
CN112232355B (zh) * 2020-12-11 2021-04-02 腾讯科技(深圳)有限公司 图像分割网络处理、图像分割方法、装置和计算机设备
CN112819008B (zh) * 2021-01-11 2022-10-28 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN112767420B (zh) * 2021-02-26 2021-11-23 中国人民解放军总医院 基于人工智能的核磁影像分割方法、装置、设备和介质
CN113033549B (zh) * 2021-03-09 2022-09-20 北京百度网讯科技有限公司 定位图获取模型的训练方法和装置
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN113822901B (zh) * 2021-07-21 2023-12-12 南京旭锐软件科技有限公司 图像分割方法、装置、存储介质及电子设备
CN113610807B (zh) * 2021-08-09 2024-02-09 西安电子科技大学 基于弱监督多任务学习的新冠肺炎分割方法
CN113673607A (zh) * 2021-08-24 2021-11-19 支付宝(杭州)信息技术有限公司 图像标注模型的训练及图像标注的方法及装置
CN114004854B (zh) * 2021-09-16 2024-06-07 清华大学 一种显微镜下的切片图像实时处理显示系统和方法
KR102430989B1 (ko) 2021-10-19 2022-08-11 주식회사 노티플러스 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템
CN113723378B (zh) * 2021-11-02 2022-02-08 腾讯科技(深圳)有限公司 一种模型训练的方法、装置、计算机设备和存储介质
CN114049516A (zh) * 2021-11-09 2022-02-15 北京百度网讯科技有限公司 训练方法、图像处理方法、装置、电子设备以及存储介质
CN113780249B (zh) * 2021-11-10 2022-02-15 腾讯科技(深圳)有限公司 表情识别模型的处理方法、装置、设备、介质和程序产品
TWI806392B (zh) * 2022-01-27 2023-06-21 國立高雄師範大學 表格文本的表格辨識方法
CN114792398B (zh) * 2022-06-23 2022-09-27 阿里巴巴(中国)有限公司 图像分类的方法、存储介质、处理器及系统
CN115170809B (zh) * 2022-09-06 2023-01-03 浙江大华技术股份有限公司 图像分割模型训练、图像分割方法、装置、设备及介质
CN116363374B (zh) * 2023-06-02 2023-08-29 中国科学技术大学 图像语义分割网络持续学习方法、系统、设备及存储介质
CN117218686B (zh) * 2023-10-20 2024-03-29 广州脉泽科技有限公司 一种开放场景下的掌静脉roi提取方法及系统
CN117333493B (zh) * 2023-12-01 2024-03-15 深圳市志达精密科技有限公司 一种基于机器视觉的显示器底座生产用检测系统以及方法
CN117911501B (zh) * 2024-03-20 2024-06-04 陕西中铁华博实业发展有限公司 一种金属加工钻孔高精度定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436583A (zh) * 2011-09-26 2012-05-02 哈尔滨工程大学 基于对标注图像学习的图像分割方法
CN107871117A (zh) * 2016-09-23 2018-04-03 三星电子株式会社 用于检测对象的设备和方法
US20190015059A1 (en) * 2017-07-17 2019-01-17 Siemens Healthcare Gmbh Semantic segmentation for cancer detection in digital breast tomosynthesis
CN109493330A (zh) * 2018-11-06 2019-03-19 电子科技大学 一种基于多任务学习的细胞核实例分割方法
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
EP3617991A4 (en) * 2017-04-26 2020-12-09 Sony Interactive Entertainment Inc. LEARNING DEVICE, IMAGE RECOGNITION DEVICE, LEARNING PROCEDURE AND PROGRAM
CN108764164B (zh) * 2018-05-30 2020-12-08 华中科技大学 一种基于可变形卷积网络的人脸检测方法及系统
CN109101897A (zh) * 2018-07-20 2018-12-28 中国科学院自动化研究所 水下机器人的目标检测方法、系统及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436583A (zh) * 2011-09-26 2012-05-02 哈尔滨工程大学 基于对标注图像学习的图像分割方法
CN107871117A (zh) * 2016-09-23 2018-04-03 三星电子株式会社 用于检测对象的设备和方法
US20190015059A1 (en) * 2017-07-17 2019-01-17 Siemens Healthcare Gmbh Semantic segmentation for cancer detection in digital breast tomosynthesis
CN109493330A (zh) * 2018-11-06 2019-03-19 电子科技大学 一种基于多任务学习的细胞核实例分割方法
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3951654A4 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257727B (zh) * 2020-11-03 2023-10-27 西南石油大学 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN112257727A (zh) * 2020-11-03 2021-01-22 西南石油大学 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN112418232A (zh) * 2020-11-18 2021-02-26 北京有竹居网络技术有限公司 图像分割方法、装置、可读介质及电子设备
CN112950639B (zh) * 2020-12-31 2024-05-10 山西三友和智慧信息技术股份有限公司 一种基于SA-Net的MRI医学图像分割方法
CN112950639A (zh) * 2020-12-31 2021-06-11 山西三友和智慧信息技术股份有限公司 一种基于SA-Net的MRI医学图像分割方法
CN113033436A (zh) * 2021-03-29 2021-06-25 京东鲲鹏(江苏)科技有限公司 障碍物识别模型训练方法及装置、电子设备、存储介质
CN113033436B (zh) * 2021-03-29 2024-04-16 京东鲲鹏(江苏)科技有限公司 障碍物识别模型训练方法及装置、电子设备、存储介质
CN113139618B (zh) * 2021-05-12 2022-10-14 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113139618A (zh) * 2021-05-12 2021-07-20 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113642581A (zh) * 2021-08-12 2021-11-12 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113642581B (zh) * 2021-08-12 2023-09-22 福州大学 基于编码多路径语义交叉网络的图像语义分割方法及系统
CN113887662A (zh) * 2021-10-26 2022-01-04 北京理工大学重庆创新中心 一种基于残差网络的图像分类方法、装置、设备及介质
WO2023082870A1 (zh) * 2021-11-10 2023-05-19 腾讯科技(深圳)有限公司 图像分割模型的训练方法、图像分割方法、装置及设备
CN113963220A (zh) * 2021-12-22 2022-01-21 熵基科技股份有限公司 安检图像分类模型训练方法、安检图像分类方法及装置
CN114612663A (zh) * 2022-03-11 2022-06-10 浙江工商大学 基于弱监督学习的域自适应实例分割方法及装置
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
CN115019038B (zh) * 2022-05-23 2024-04-30 杭州海马体摄影有限公司 一种相似图像像素级语义匹配方法
CN114677677B (zh) * 2022-05-30 2022-08-19 南京友一智能科技有限公司 一种质子交换膜燃料电池气体扩散层材料比例预测方法
CN114677677A (zh) * 2022-05-30 2022-06-28 南京友一智能科技有限公司 一种质子交换膜燃料电池气体扩散层材料比例预测方法
CN116503686A (zh) * 2023-03-28 2023-07-28 北京百度网讯科技有限公司 图像矫正模型的训练方法、图像矫正方法、装置及介质
CN116403163B (zh) * 2023-04-20 2023-10-27 慧铁科技有限公司 一种截断塞门手把开合状态的识别方法和装置
CN116403163A (zh) * 2023-04-20 2023-07-07 慧铁科技有限公司 一种截断塞门手把开合状态的识别方法和装置

Also Published As

Publication number Publication date
US20210241109A1 (en) 2021-08-05
KR102698958B1 (ko) 2024-08-27
CN109784424B (zh) 2021-02-09
EP3951654A4 (en) 2022-05-25
KR20210072051A (ko) 2021-06-16
EP3951654A1 (en) 2022-02-09
JP7185039B2 (ja) 2022-12-06
CN109784424A (zh) 2019-05-21
JP2022505775A (ja) 2022-01-14

Similar Documents

Publication Publication Date Title
WO2020192471A1 (zh) 一种图像分类模型训练的方法、图像处理的方法及装置
EP3940638B1 (en) Image region positioning method, model training method, and related apparatus
JP7238139B2 (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
CN112232425B (zh) 图像处理方法、装置、存储介质及电子设备
US12100192B2 (en) Method, apparatus, and electronic device for training place recognition model
CN110555481B (zh) 一种人像风格识别方法、装置和计算机可读存储介质
WO2020182121A1 (zh) 表情识别方法及相关装置
US11468571B2 (en) Apparatus and method for generating image
CN112419326B (zh) 图像分割数据处理方法、装置、设备及存储介质
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
WO2022042120A1 (zh) 目标图像提取方法、神经网络训练方法及装置
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN117854156B (zh) 一种特征提取模型的训练方法和相关装置
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN117351192A (zh) 一种对象检索模型训练、对象检索方法、装置及电子设备
WO2023207531A1 (zh) 一种图像处理方法及相关设备
Osuna-Coutiño et al. Structure extraction in urbanized aerial images from a single view using a CNN-based approach
Rawat et al. Indian sign language recognition system for interrogative words using deep learning
CN114283290B (zh) 图像处理模型的训练、图像处理方法、装置、设备及介质
CN111742345B (zh) 通过着色的视觉跟踪
Rahman et al. A Smartphone Based Real-Time Object Recognition System for Visually Impaired People

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20777689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021522436

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20217013575

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020777689

Country of ref document: EP

Effective date: 20211026