WO2020156303A1 - 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 - Google Patents

语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 Download PDF

Info

Publication number
WO2020156303A1
WO2020156303A1 PCT/CN2020/073121 CN2020073121W WO2020156303A1 WO 2020156303 A1 WO2020156303 A1 WO 2020156303A1 CN 2020073121 W CN2020073121 W CN 2020073121W WO 2020156303 A1 WO2020156303 A1 WO 2020156303A1
Authority
WO
WIPO (PCT)
Prior art keywords
semantic segmentation
pixel
loss function
function value
value
Prior art date
Application number
PCT/CN2020/073121
Other languages
English (en)
French (fr)
Inventor
王俊东
梁德澎
张树业
张壮辉
梁柱锦
Original Assignee
广州市百果园信息技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州市百果园信息技术有限公司 filed Critical 广州市百果园信息技术有限公司
Publication of WO2020156303A1 publication Critical patent/WO2020156303A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Definitions

  • the embodiments of this application relate to the field of image processing technology, such as a method for training a semantic segmentation network, an image processing method based on a semantic segmentation network, a training device for a semantic segmentation network, and an image processing based on a semantic segmentation network Devices, equipment and storage media.
  • image semantic segmentation processing is to predict an accurate object category label for each pixel of the input image, so as to realize the semantic level understanding of the image, which is used in road segmentation, medical imaging, automatic matting, drones, automatic monitoring, etc.
  • the scene has important application value.
  • the semantic segmentation network based on the full convolutional neural network adopts the architecture of encoder and decoder. By extracting and fusing features of different levels, each pixel is finally assigned a semantic category, but the loss function used by the semantic segmentation network simply combines the semantics
  • the segmentation problem is treated as a pixel-level classification task.
  • the semantic segmentation map output by the semantic segmentation network is visually unstable and alternates between light and dark. There may even be a dense checkerboard effect, which greatly affects users. Visual experience.
  • the embodiments of the present application provide a method for training a semantic segmentation network, an image processing method based on a semantic segmentation network, a training device for a semantic segmentation network, and an image processing device, equipment and storage medium based on a semantic segmentation network,
  • a method for training a semantic segmentation network an image processing method based on a semantic segmentation network
  • a training device for a semantic segmentation network and an image processing device, equipment and storage medium based on a semantic segmentation network
  • the embodiment of the present application provides a method for training a semantic segmentation network, including:
  • the training data set includes a training image and an annotated semantic segmentation map paired with the training image
  • the semantic segmentation network is adjusted according to the classification loss function value and the consistency loss function value.
  • the embodiment of the present application provides an image processing method based on a semantic segmentation network, including:
  • semantic segmentation network is trained in the following manner:
  • the training data set includes a training image and an annotated semantic segmentation map paired with the training image
  • the semantic segmentation network is adjusted according to the classification loss function value and the consistency loss function value.
  • the embodiment of the application provides a training device for a semantic segmentation network, including:
  • a training data acquisition module configured to acquire a training data set, the training data set including a training image and annotated semantic segmentation map paired with the training image;
  • a prediction semantic segmentation map generation module configured to input the training image into a pre-built semantic segmentation network for processing to generate a prediction semantic segmentation map
  • a loss function value determination module configured to determine a classification loss function value and a consistency loss function value according to the predicted semantic segmentation map and the labeled semantic segmentation map;
  • the embodiment of the present application provides an image processing device based on a semantic segmentation network, including:
  • the target image acquisition module is set to acquire the target image
  • An image processing module configured to input the target image into a pre-trained semantic segmentation network for process processing to generate a semantic segmentation map of the target image
  • semantic segmentation network is trained through the following modules:
  • a training data acquisition module configured to acquire a training data set, the training data set including a training image and annotated semantic segmentation map paired with the training image;
  • a prediction semantic segmentation map generation module configured to input the training image into a pre-built semantic segmentation network for processing to generate a prediction semantic segmentation map
  • a loss function value determination module configured to determine a classification loss function value and a consistency loss function value according to the predicted semantic segmentation map and the labeled semantic segmentation map;
  • the parameter adjustment module is configured to adjust the semantic segmentation network according to the classification loss function value and the consistency loss function value.
  • An embodiment of the present application provides a device including a memory, a processor, and a computer program stored on the memory and capable of running on the processor.
  • the processor executes the program described in any of the embodiments of the present application when the processor runs Semantic segmentation network training method and/or image processing method based on semantic segmentation network.
  • the embodiments of the present application provide a computer-readable storage medium on which a computer program is stored.
  • the program is executed by a processor, the method for training a semantic segmentation network described in any of the embodiments of the present application and/or is based on semantic segmentation Network image processing method.
  • Figure 1 is a schematic diagram of a semantic segmentation map output by a semantic segmentation network in related technologies
  • FIG. 2A is a flowchart of a method for training a semantic segmentation network provided by Embodiment 1 of the present application;
  • FIG. 2C is a schematic diagram of a convolution kernel for hole convolution according to Embodiment 1 of the present application.
  • 2D is a schematic diagram of a comparison between a semantic segmentation network and a semantic segmentation network output by a semantic segmentation network in related technologies according to Embodiment 1 of the present application;
  • FIG. 3A is a flowchart of a method for training a semantic segmentation network provided by Embodiment 2 of the present application;
  • FIG. 3B is a schematic diagram of a neighborhood of a pixel provided in Embodiment 2 of the present application.
  • FIG. 4 is a flowchart of an image processing method based on image semantic segmentation network provided in the third embodiment of the present application.
  • FIG. 5 is a structural block diagram of a training device for a semantic segmentation network provided by Embodiment 4 of the present application;
  • Fig. 6 is a structural block diagram of an image processing device based on an image semantic segmentation network provided by the fifth embodiment of the present application.
  • FIG. 7 is a structural block diagram of a device provided in Embodiment 6 of the present application.
  • FIG. 2A is a flowchart of a method for training a semantic segmentation network provided in Embodiment 1 of this application.
  • the embodiment of this application is applicable to the case of training a semantic segmentation network to process images.
  • the method can be trained by the semantic segmentation network.
  • the device can be implemented by means of software and/or hardware, and integrated into the device for executing the method. As shown in FIG. 2A, the method may include the following steps:
  • training images and annotated semantic segmentation maps paired with training images can be obtained from a pre-stored image database.
  • a semantic segmentation network provided by an embodiment of the present application may be a fully convolutional neural network, and the fully convolutional neural network adopts an encoder-decoder architecture.
  • the encoder gradually reduces the spatial dimension through the pooling layer. For example, the encoder can perform three downsampling to extract high-level semantic features of the input training image.
  • the decoder gradually upsamples the high-level semantic features through the deconvolution layer, gradually recovers the details and spatial dimensions of the training image, and finally outputs a semantic segmentation map with the same resolution as the input training image.
  • a hole convolution kernel can be used in a fully convolutional neural network, as shown in Figure 2C.
  • Figure a is a schematic diagram of an existing convolution kernel
  • Figure b is a schematic diagram of a hole convolution kernel.
  • the convolution kernel A in a is continuous, and the convolution kernel B in figure b has a hole c.
  • the hole convolution kernel Through the hole convolution kernel, the perception and coverage of each node of the high-level feature map can be increased, that is, the convolution kernel is increased
  • the high-level features of each node can contain more context information, which improves the accuracy of prediction.
  • the semantic segmentation network learns the predicted value of the two pixels as much as possible under the supervision of the consistent loss function value. Similarity means that the predicted values of the two pixels need to be constrained to make the difference between the predicted values of the two pixels as small as possible, as shown in Figure 2D.
  • the original image 2D-1 contains a human body, and the pixels forming the human body image should have similar Predicted value.
  • the output pixels in the human body in Figure 2D-3 have similar predicted values, compared to the semantic segmentation lacking consistent loss function value supervision
  • the output of the network (as shown in Figure 2D-2)
  • the output of the semantic segmentation network with consistent loss function value supervision is visually smoother, avoiding visual fluctuations in light and dark, so that the semantic segmentation network can output high-quality semantic segmentation maps , Thereby improving the user’s visual experience.
  • the training of the semantic segmentation network is a process of multiple iterations through training images and annotated semantic segmentation maps. After each iteration, the classification loss function value and consistency are calculated according to the output predicted semantic segmentation map and the annotated semantic segmentation map. Loss function value. When the error represented by the classification loss function value and the consistency loss function value is less than the preset value, the training of the semantic segmentation network is ended. When the error represented by the classification loss function value and the consistency loss function value is not less than the preset value When, adjust the parameters of the semantic segmentation network, such as adjusting the weight and bias of each convolutional layer of the semantic segmentation network.
  • the classification loss function value and the consistency loss function value are determined according to the predicted semantic segmentation map and the annotation semantic segmentation map, and according to the classification
  • the loss function value and the consistency loss function value adjust the semantic segmentation network.
  • the semantic segmentation network not only has pixel-level supervised classification, but also can make the semantic segmentation network subject to spatial consistency Constrained supervision can learn the relationship between pixels, so that the output of the semantic segmentation network has spatial consistency, and solves the phenomenon of visual instability and alternating light and dark in the semantic segmentation map output by the semantic segmentation network, and even a dense checkerboard effect After the semantic segmentation of the image through the semantic segmentation network, a high-quality semantic segmentation map can be obtained, thereby improving the user's visual experience.
  • FIG. 3A is a flowchart of a method for training a semantic segmentation network provided by Embodiment 2 of the application.
  • the embodiment of this application is described on the basis of Embodiment 1.
  • the method may include the following steps:
  • the training data set includes a training image and an annotated semantic segmentation map paired with the training image, and the annotated semantic segmentation map includes label values of pixels.
  • S2020 Input the training image into a pre-built semantic segmentation network for processing to generate a predicted semantic segmentation map, where the predicted semantic segmentation map includes predicted values of pixels.
  • the classification loss function value can be calculated by the minimum mean square error loss function.
  • the mean square value of each pixel is calculated according to the label value and the predicted value of the pixel, and the mean square value of all pixels is summed to obtain the classification loss function value.
  • the classification loss function value can be calculated by the following formula:
  • MSE is the classification loss function value
  • N is the number of pixels of the predicted semantic segmentation map
  • p i is the predicted value of pixel i
  • y i is the label value of pixel i.
  • step S2040 may include the following sub-steps:
  • S20410 For each center pixel in the prediction semantic segmentation map, determine different neighborhoods of the center pixel, where each neighborhood includes multiple neighborhood pixels, and the center pixel is the consistency to be calculated The pixel of the loss function value.
  • the window size of the neighborhood may be preset, and then different neighborhoods are generated according to different hole factors, and the neighborhood includes the neighborhood pixels of the pixel whose consistency loss function value is to be calculated.
  • the window size of the neighborhood is 3x3, and the location of the neighborhood will vary according to the hole factor. Assuming that the hole factor is 1 and 2, two neighborhoods can be generated for the center pixel i, as shown in Figure 3B As shown in 3B-1, the hole factor of the neighborhood is 1, and the window size is 3x3, then the neighborhood of the center pixel i is the neighboring 8 neighborhood pixels j. Similarly, when the hole factor is 2, then the center The neighborhood of pixel i is 8 neighborhood pixels j separated by 1 pixel, and different numbers of neighborhoods can be generated by setting different hole factors.
  • the pixel By adding a hole to determine the neighborhood of the center pixel, the pixel can obtain a different range of neighborhood so that the constraint of different neighborhood pixels on the center pixel can be obtained, and the accuracy of the pixel consistency loss function value is improved.
  • S20420 For each neighborhood, calculate the loss values of the central pixel and the multiple neighborhood pixels of the neighborhood to obtain multiple first loss values.
  • the distance between the predicted value of the center pixel and the predicted value of the neighborhood pixel can be calculated according to the predicted value of the center pixel and the predicted value of the neighborhood pixel, and the center pixel may be obtained
  • the distance and the preset first adjustment factor are used to calculate the first loss value
  • the label value of the center pixel is sum
  • the distance and the preset second adjustment factor are used to calculate the first loss value; where the first adjustment factor is that when the label value of the center pixel and the label value of the neighboring pixels are equal, the distance needs to be adjusted
  • the second adjustment factor is that the distance penalty threshold needs to be adjusted when the label value of the center pixel and the label value of the neighboring pixels are not equal.
  • the consistency loss function is as follows:
  • l ij is the consistency loss function value of the neighborhood pixel j to the center pixel i in the neighborhood centered on the center pixel i, Indicates the similarity between the center pixel i and the neighboring pixel j
  • n can be 1 or 2
  • is the first adjustment factor
  • is the second adjustment factor
  • is less than or equal to ⁇
  • the default value of ⁇ is 0.1
  • the first adjustment factor ⁇ is a penalty threshold for adjusting the distance between the central pixel i and the neighboring pixel j, and the penalty is performed when the distance is greater than the first adjustment factor ⁇ , There is no penalty when the distance is greater than the first adjustment factor ⁇ .
  • the distance is greater than the first adjustment factor ⁇ , the greater the distance, the greater the difference between the predicted value of the central pixel i and the neighboring pixel j, the greater the penalty and the smaller the distance .
  • the penalty is reduced; when the distance is less than the first adjustment factor ⁇ , it means that the predicted values of the central pixel i and the neighboring pixel j are close enough, and the consistency loss function does not penalize, that is, when the central pixel i and the neighboring pixel j belong to For the same semantic category, the goal of the consistency loss function is to reduce the distance between the center pixel i and the neighborhood pixel j.
  • the consistency loss function is:
  • the second adjustment factor ⁇ is a penalty threshold for adjusting the distance between the central pixel i and the neighboring pixel j, when the distance is smaller than the second adjustment factor ⁇ , No penalty when the distance is greater than the second adjustment factor ⁇ .
  • the second adjustment factor ⁇ When the distance is less than the second adjustment factor ⁇ , the smaller the distance, the smaller the difference between the predicted value of the central pixel i and the neighboring pixel j, the greater the penalty and the greater the distance , The penalty is reduced; when the distance is greater than the second adjustment factor ⁇ , it means that the difference between the predicted values of the central pixel i and the neighboring pixel j is large enough, and the consistency loss function does not penalize, that is, when the central pixel i and the neighboring pixel j They belong to different semantic categories, and the goal of the consistency loss function is to increase the distance between the center pixel i and the neighborhood pixel j.
  • S20430 Sum the multiple first loss values to obtain a second loss value of the center pixel in the neighborhood.
  • the neighborhood of the central pixel i includes multiple neighborhood pixels j, then the consistency loss function values of the central pixel i and multiple neighborhood pixels j in the neighborhood are sequentially calculated to obtain multiple first loss values , After summing the multiple first loss values, the consistent loss function value of the center pixel i in the neighborhood can be obtained.
  • S20440 Sum the second loss values of the center pixels in the different neighborhoods to obtain a uniform loss function value of the center pixels.
  • a central pixel may have multiple neighborhoods according to a fixed neighborhood size and different hole factors. For example, if there are three hole factors with values of 1, 2, and 5, the center pixel There are three neighborhoods.
  • the consistency loss function value of the pixel can be obtained by summing the second loss value of the center pixel in the three neighborhoods, and the consistency loss of multiple pixels can be obtained by traversing each pixel of the predicted semantic segmentation map Function value, that is, for a pixel, the consistency loss function value is:
  • N i is a neighborhood of pixel i
  • l ij is a pixel value of the coherency function i loss in the neighborhood of N i.
  • S2050 Calculate a gradient based on the classification loss function value and the consistency loss function value.
  • the loss function value of each pixel includes a classification loss function value and a consistency loss function value
  • step S2050 may include the following sub-steps:
  • S20510 For each pixel, calculate a first gradient of the classification loss function value to the pixel.
  • the classification loss function may be the minimum mean square error loss function, then the partial derivative of formula 1 can be obtained to obtain the first gradient calculation formula of the pixel:
  • p k is the predicted value of pixel k
  • y k is the label value of pixel k
  • S20520 Calculate the second gradient of the consistency loss function value of the pixel to the pixel.
  • the gradient between each neighborhood pixel in the neighborhood of the gradient pixel to be calculated and the gradient pixel to be calculated is calculated to obtain the third gradient
  • the gradient pixel to be calculated is calculated as the neighborhood pixel
  • the center pixel of the neighborhood obtains the gradient of the gradient pixel to be calculated to obtain the fourth gradient
  • formula 2 is the calculation formula of the consistency loss function
  • the L1 distance or the L2 distance may be used to calculate the consistency loss function, that is, n in the formula 2 is 1 or 2.
  • the L1 distance or the L2 distance is used to calculate the consistency loss function value according to the actual situation and the gradient is calculated accordingly, that is, n is 1 or 2, which is not limited in the embodiment of the application.
  • the gradient of each pixel includes the gradient of the classification loss function value to the pixel and the gradient of the consistency loss function value to the pixel, that is, for the pixel k:
  • the first gradient can be calculated by the classification loss function value for each pixel Calculate the second gradient from the consistency loss function value Then the first gradient and the second gradient are summed to obtain the gradient of the pixel.
  • S2060 Determine whether the classification loss function value and the consistency loss function value meet a preset iteration condition.
  • the sum of the classification loss function value and the consistency loss function value of the pixel is calculated to obtain the total loss function value of the pixel, and it is determined whether the total loss function value is less than the preset value; in response to the total loss function If the value is less than the preset value, it is determined that the classification loss function value of the pixel and the consistency loss function value of the pixel meet the preset iterative condition; in response to the total loss function value is not less than the preset value, the classification loss function value of the pixel and the pixel are determined The consistency loss function value of does not meet the preset iteration conditions.
  • each pixel has a total loss function value. It can be judged whether the total loss function value of each pixel meets the preset iterative conditions, or a weight can be set for each pixel, and the final value is calculated by the weight and the total loss function value.
  • the total loss function value of is used to determine whether the total loss function value meets the preset iteration condition, which is not limited in the embodiment of the present application.
  • the total loss function value meets the preset iterative conditions, it indicates that the error between the predicted semantic segmentation map output by the semantic segmentation network and the labeled semantic segmentation map is small, and the accuracy of the semantic segmentation network meets the requirements, and the semantic segmentation network can be stopped from training.
  • ⁇ i is the network parameter, Is the gradient, Is the learning rate.
  • Initial learning rate It can be set to 0.001, and then the learning rate is gradually reduced as the number of iterations increases.
  • the learning rate can be updated according to the following formula:
  • epoch_num is an iteration period.
  • the classification loss function value and the consistency loss function value are determined according to the predicted semantic segmentation map and the annotation semantic segmentation map, and according to the classification
  • the loss function value and the consistency loss function value adjust the semantic segmentation network.
  • the consistency loss function value of the pixel is calculated according to the neighborhood of the pixel. There is no need to calculate the consistency loss function value between all pixels, which greatly improves the training efficiency. At the same time, there is no need to Using the consistent loss function value does not increase the computational overhead of the original semantic segmentation network.
  • FIG. 4 is a flowchart of an image processing method based on image semantic segmentation network provided in the third embodiment of the application.
  • the embodiment of this application can be applied to the case of performing semantic segmentation processing on an image.
  • the image processing device can be implemented by software and/or hardware, and integrated in the device for executing the method. As shown in FIG. 4, the method may include the following steps:
  • the target image may be an image to be added with video special effects.
  • the live video application Application, APP
  • the live video application detects the user's operation and collects the information from the camera.
  • An image containing a human face is intercepted from the video frame as the target image.
  • the target image can also be the face image of the face to be authenticated collected by the face authentication device during face authentication, or it can be an image stored locally by the user.
  • the embodiment of the present application does not impose restrictions on the method of obtaining the target image.
  • the semantic segmentation network is trained through the following steps:
  • S30230 Determine a classification loss function value and a consistency loss function value according to the predicted semantic segmentation map and the labeled semantic segmentation map.
  • the target image can be input into the semantic segmentation network to extract the semantic segmentation map, and the image can be processed by the semantic segmentation map.
  • the semantic segmentation The figure realizes the tracking of the target object in the video, for example, the tracking of the person in the video.
  • the classification loss function value is determined and consistent according to the predicted semantic segmentation map and the labeled semantic segmentation map
  • the semantic loss function value is adjusted according to the classification loss function value and the consistency loss function value.
  • the semantic segmentation network not only has pixel-level supervised classification, but also The semantic segmentation network can be supervised by spatial consistency constraints, and can learn the relationship between pixels, so that the output of the semantic segmentation network has spatial consistency, and solves the problem of visual instability and alternating light and dark in the semantic segmentation map output by the semantic segmentation network There is even a problem of dense checkerboard effect.
  • a high-quality semantic segmentation map of the target image can be obtained, thereby improving the user's visual experience.
  • FIG. 5 is a structural block diagram of a training device for a semantic segmentation network provided in the fourth embodiment of this application.
  • the training device for a semantic segmentation network in this embodiment of the application may include the following modules: a training data acquisition module 401 configured to acquire a training data set , The training data set includes a training image, an annotated semantic segmentation map paired with the training image; a predicted semantic segmentation map generation module 402, configured to input the training image into a pre-built semantic segmentation network for processing to generate Prediction semantic segmentation map; a loss function value determination module 403, configured to determine a classification loss function value and a consistency loss function value according to the prediction semantic segmentation map and the labeled semantic segmentation map; a parameter adjustment module 404, configured to The classification loss function value and the consistency loss function value adjust the semantic segmentation network.
  • FIG. 6 is a structural block diagram of an image processing apparatus based on a semantic segmentation network provided by Embodiment 5 of the present application.
  • the image processing apparatus based on a semantic segmentation network in an embodiment of the present application may include the following modules: a target image acquisition module 501 configured to Obtain a target image; the image processing module 502 is configured to input the target image into a pre-trained semantic segmentation network for process processing to generate a semantic segmentation map of the target image; wherein, the semantic segmentation network is trained by the following modules:
  • the training data acquisition module is configured to acquire a training data set, the training data set includes a training image and an annotated semantic segmentation map paired with the training image;
  • a prediction semantic segmentation map generation module is configured to input the training image into a pre-built Processing in the semantic segmentation network of, to generate a predicted semantic segmentation map; a loss function value determination module configured to determine the classification loss function value and the consistency loss function value according to the predicted semantic segmentation map and the labeled
  • the device may include: a processor 60, a memory 61, a display screen 62 with a touch function, an input device 63, an output device 64, and a communication device 65.
  • the memory 61 can be configured to store software programs, computer-executable programs, and modules, such as program instructions/modules corresponding to the semantic segmentation network training method described in any embodiment of the present application (for example, the above).
  • the program instructions/modules corresponding to the image processing method for example, the target image acquisition module 501 and the image processing module 502 in the image processing device based on the semantic segmentation network described above).
  • the processor 60 executes various functional applications and data processing of the device by running the software programs, instructions, and modules stored in the memory 61, that is, realizing the steps of the above-mentioned semantic segmentation network training method and/or the image based on the semantic segmentation network Approach.
  • the processor 60 when the processor 60 executes one or more programs stored in the memory 61, it implements the steps of the semantic segmentation network training method provided in the embodiments of the present application and/or the image processing method based on the semantic segmentation network.
  • the embodiment of the present application also provides a computer-readable storage medium.
  • the instructions in the storage medium are executed by the processor of the device, the device can execute the semantic segmentation network training method and/or method described in the above method embodiment. Image processing method based on semantic segmentation network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本文公开了一种语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质,语义分割网络的训练方法包括:获取训练数据集,所述训练数据集包括训练图像、与训练图像配对的标注语义分割图;将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图;根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值;根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整。

Description

语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
本申请要求在2019年01月30日提交中国专利局、申请号为201910091543.1的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及图像处理技术领域,例如涉及一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质。
背景技术
随着深度学习的发展,基于深度学习的图像语义分割取得了极大的进步。图像语义分割处理的目的是为输入图像的每个像素预测一个准确的物体类别标签,从而实现对图像进行语义级别理解,其在道路分割、医学影像、自动抠图、无人机、自动监控等场景具有重要的应用价值。
基于全卷积神经网络的语义分割网络采用编码器和解码器的架构,通过提取和融合不同层次的特征,最终为每个像素分配一个语义类别,但语义分割网络采用的损失函数简单地将语义分割问题当作一个像素级的分类任务,导致语义分割网络输出的语义分割图存在如图1所示在视觉上不平稳和明暗交替的现象,甚至会出现密集的棋盘效应,极大地影响了用户的视觉体验。
发明内容
本申请实施例提供一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质,以解决语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,以使得通过语义分割网络对图像语义分割后可以获得较高质量的语义分割图,从而提高用户的视觉体验。
本申请实施例提供了一种语义分割网络的训练方法,包括:
获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语 义分割图;
根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
本申请实施例提供了一种基于语义分割网络的图像处理方法,包括:
获取目标图像;
将所述目标图像输入预先训练的语义分割网络中,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过以下方式训练:
获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
本申请实施例提供了一种语义分割网络的训练装置,包括:
训练数据获取模块,设置为获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,设置为将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
本申请实施例提供了一种基于语义分割网络的图像处理装置,包括:
目标图像获取模块,设置为获取目标图像;
图像处理模块,设置为将所述目标图像输入预先训练的语义分割网络中进 程处理,以生成所述目标图像的语义分割图;
其中,所述语义分割网络通过以下模块训练:
训练数据获取模块,设置为获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
预测语义分割图生成模块,设置为将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
损失函数值确定模块,设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
参数调整模块,设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
本申请实施例提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述程序时执行本申请任一实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请任一实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。
附图说明
图1是相关技术中的一种语义分割网络输出的语义分割图的示意图;
图2A是本申请实施例一提供的一种语义分割网络的训练方法的流程图;
图2B是本申请实施例一提供的一种语义分割网络的架构示意图;
图2C是本申请实施例一提供的一种空洞卷积的卷积核示意图;
图2D是本申请实施例一提供的一种语义分割网络和相关技术中的语义分割网络输出的语义分割图的对比示意图;
图3A是本申请实施例二提供的一种语义分割网络的训练方法的流程图;
图3B是本申请实施例二提供的一种像素的邻域的示意图;
图4是本申请实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图;
图5是本申请实施例四提供的一种语义分割网络的训练装置的结构框图;
图6是本申请实施例五提供的一种基于图像语义分割网络的图像处理装置 的结构框图;
图7是本申请实施例六提供的一种设备的结构框图。
具体实施方式
下面结合附图和实施例对本申请进行说明。此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图2A为本申请实施例一提供的一种语义分割网络的训练方法的流程图,本申请实施例可适用于训练语义分割网络以对图像进行处理的情况,该方法可以由语义分割网络的训练装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,如图2A所示,该方法可以包括如下步骤:
S1010、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。
本实施例中,训练数据集可以包括训练图像以及与训练图像配对的标注语义分割图,其中,训练图像可以是位图(Bitmap,BMP)、联合图像专家组(Joint Photographic Experts Group,JPG)、便携式网络图形(Portable Network Graphics,PNG)、标签图像文件(Tag Image File,TIF)等存储格式的图像,标注的语义分割图可以是对训练图像中每个像素进行分类和标注的图像,分类可以是根据训练图像的语义信息,对每个像素进行分类,例如训练图像中每个像素属于图像中的人物上的像素或者其它物体上的像素,标注可以是为每个像素所属分类添加标签值。
在实际应用中,可以从预先存储的图像数据库中获取训练图像以及与训练图像配对的标注语义分割图。
S1020、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图。
如图2B所示,本申请实施例提供的一种语义分割网络可以为全卷积神经网络,全卷积神经网络采用编码器-解码器架构。编码器通过池化层逐渐减少空间维度,比如,编码器可以进行三次下采样,提取出输入的训练图像的高层语义特征。解码器在高层语义特征上逐步通过反卷积层上采样,逐渐恢复训练图像的细节和空间维度,最终输出与输入训练图像分辨率一致的语义分割图。
如图2C所示,全卷积神经网络中可以采用空洞卷积核,如图2C中所示,图a中为现有的卷积核的示意图,图b为空洞卷积核的示意图,图a中卷积核A 是连续的,图b中卷积核B存在空洞c,通过空洞卷积核可以增加高层特征图每个节点对底层特征图的感受和覆盖范围,即增加了卷积核的感受野,以达到不增加计算量的情况下增加感受野范围,使得每个节点的高层特征可以包含更多的上下文信息,提高了预测的准确性。
S1030、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。
本申请实施例中,分类损失函数值可以监督语义分割网络学习训练图像的高层语义特征,以对训练图像中的每个像素进行拟合,从而使得输出的预测语义分割图更为接近于标注语义分割图,可选地,分类损失函数值可以通过最小均方差损失函数、交叉熵损失函数等损失函数计算;一致性损失函数值可以监督语义分割网络学习像素之间的关系,使得语义分割网络输出的语义分割图具有结构性和空间一致性。例如像素之间的关系可以是局部空间内,两个像素在语义类别、颜色、纹理等方面的近似性,语义分割网络在一致性损失函数值的监督下学习到两个像素的预测值尽可能相似,即需要约束两个像素的预测值,使两个像素之间的预测值差距尽可能小,如图2D,原图2D-1中包含一个人体,形成该人体图像的像素应该具有相似的预测值,通过一致性损失函数值监督语义分割网络学习像素之间的约束关系后,输出图2D-3中人体内的像素具有相近的预测值,相对于缺乏一致性损失函数值监督的语义分割网络输出(如图2D-2)具有一致性损失函数值监督的语义分割网络输出在视觉上更为平滑,避免了出现视觉上明暗起伏的情况,使得语义分割网络可以输出高质量的语义分割图,从而提高了用户的视觉体验。
S1040、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
在实际应用中,语义分割网络的训练是通过训练图像和标注语义分割图进行多次迭代的过程,每次迭代后根据输出的预测语义分割图和标注语义分割图计算分类损失函数值和一致性损失函数值,当分类损失函数值和一致性损失函数值表示的误差小于预设值时,结束对语义分割网络训练,当分类损失函数值和一致性损失函数值表示的误差不小于预设值时,对语义分割网络的参数进行调整,比如调整语义分割网络每个卷积层的权重、偏置等网络参数。
本申请实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,根据分类损失函数值和一致性损失函数值对语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的 监督,能够学习到像素之间的关系,使得语义分割网络输出具有空间一致性,解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高用户的视觉体验。
实施例二
图3A为本申请实施例二提供的一种语义分割网络的训练方法的流程图,本申请实施例在实施例一的基础上进行说明,如图3A所示,该方法可以包括如下步骤:
S2010、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图,所述标注语义分割图包括像素的标签值。
S2020、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图,所述预测语义分割图包括像素的预测值。
S2030、采用所述像素的标签值和所述像素的预测值,计算所述分类损失函数值。
在本申请实施例中,可以通过最小均方差损失函数计算分类损失函数值。一实施例中,针对预测语义分割图中的每个像素,根据像素的标签值和预测值计算每个像素的均方值,并对所有像素的均方值求和以得到分类损失函数值。
一实施例中,可以通过以下公式计算分类损失函数值:
Figure PCTCN2020073121-appb-000001
其中,MSE为分类损失函数值,N为预测语义分割图的像素的数量,p i为像素i的预测值,y i为像素i的标签值。
S2040、采用所述像素的标签值和所述像素的预测值,计算所述一致性损失函数值。
在本申请的一种实施例中,步骤S2040可以包括如下子步骤:
S20410,针对所述预测语义分割图中的每个中心像素,确定所述中心像素的不同邻域,其中,每个邻域包括多个邻域像素,所述中心像素为待计算所述一致性损失函数值的像素。
在本申请实施例中,可以预先设置邻域的窗口大小,然后根据不同的空洞因子生成不同的邻域,该邻域中包括待计算一致性损失函数值的像素的邻域像素。
如图3B所示,邻域的窗口大小为3x3,邻域的位置会根据空洞因子不同而不同,假设空洞因子为1和2,则对于中心像素i可以生成两个邻域,如图3B中的3B-1所示,该邻域的空洞因子为1,窗口大小为3x3,则中心像素i的邻域为相邻的8个邻域像素j,同理,空洞因子为2时,则中心像素i的邻域为相隔1个像素的8个邻域像素j,设置不同的空洞因子可以生成不同数量的邻域。
上述示例虽然说明了窗口大小和空洞因子的取值,在实际应用中可以根据训练图像的大小设置其它窗口大小、不同数量的空洞因子和空洞因子的数量,本申请实施例对确定邻域的方式不加以限制。
通过增加空洞确定中心像素的邻域,可以使得该像素能够获取到不同范围的邻域从而可以获取到不同邻域像素对该中心像素的约束,提高了像素的一致性损失函数值的准确性。
S20420,针对每个邻域,计算所述中心像素分别与所述邻域的多个邻域像素的损失值,得到多个第一损失值。
一实施例中,针对邻域的每个邻域像素,可以根据中心像素的预测值和邻域像素的预测值,计算中心像素的预测值与邻域像素的预测值的距离,并获取中心像素的标签值和邻域像素的标签值;在中心像素的标签值和邻域像素的标签值相等时,采用距离和预设的第一调节因子计算第一损失值,在中心像素的标签值和邻域像素的标签值不相等时,采用距离和预设的第二调节因子计算第一损失值;其中,第一调节因子为中心像素的标签值和邻域像素的标签值相等时需要调整距离的惩罚阈值,第二调节因子为中心像素的标签值和邻域像素的标签值不相等时需要调整距离的惩罚阈值。
以下结合示例对计算第一损失值进行说明:
本示例中,一致性损失函数如下:
Figure PCTCN2020073121-appb-000002
其中,l ij为以中心像素i为中心的邻域中,邻域像素j对中心像素i的一致性损失函数值,
Figure PCTCN2020073121-appb-000003
表示中心像素i和邻域像素j之间的相似性,n可以为1或者2,δ为第一调节因子,γ为第二调节因子,δ小于或等于γ,默认δ取值为0.1,γ取值为1.0,Y i和Y j分别表示中心像素i和邻域像素j的标签值,若Y i=Y j,表示中心像素i和邻域像素j属于相同语义类别,若Y i≠Y j表示中心像素i和邻域像素j属于不同语义类别。
在中心像素i和邻域像素j的标签值相等时,即Y i=Y j,中心像素i和邻域像素j属于同个语义类别时,一致性损失函数为:
Figure PCTCN2020073121-appb-000004
p i和p j分别表示中心像素i的预测值和邻域像素j的预测值,
Figure PCTCN2020073121-appb-000005
表示中心像素i和邻域像素j之间的预测值的距离,第一调节因子δ为调节中心像素i和邻域像素j的距离的惩罚阈值,在距离大于第一调节因子δ时进行惩罚,在距离大于第一调节因子δ时不惩罚,在距离大于第一调节因子δ时,距离越大,说明中心像素i和邻域像素j的预测值相差越大,则惩罚越大,距离越小,则惩罚减少;当距离小于第一调节因子δ时,说明中心像素i和邻域像素j的预测值已经足够接近,一致性损失函数不进行惩罚,即当中心像素i和邻域像素j属于相同语义类别,一致性损失函数的目标为减少中心像素i和邻域像素j的距离。
在中心像素i和邻域像素j的标签值不相等时,即Y i≠Y j,中心像素i和邻域像素j属于不同语义类别时,一致性损失函数为:
Figure PCTCN2020073121-appb-000006
p i和p j分别表示中心像素i的预测值和邻域像素j的预测值,
Figure PCTCN2020073121-appb-000007
表示中心像素i和邻域像素j之间的预测值的距离,第二调节因子γ为调节中心像素i和邻域像素j的距离的惩罚阈值,在距离小于第二调节因子γ时进行惩罚,在距离大于第二调节因子γ时不惩罚,在距离小于第二调节因子γ时,距离越小,说明中心像素i和邻域像素j的预测值相差越小,则惩罚越大,距离越大,则惩罚减少;当距离大于第二调节因子γ时,说明中心像素i和邻域像素j的预测值相差已经足够大,一致性损失函数不进行惩罚,即当中心像素i和邻域像素j属于不相同语义类别,一致性损失函数的目标为增大中心像素i和邻域像素j的距离。
S20430,对所述多个第一损失值求和,得到所述中心像素在所述邻域内的第二损失值。
一实施例中,中心像素i的邻域包括多个邻域像素j,则依次计算该邻域范围内中心像素i和多个邻域像素j的一致性损失函数值得到多个第一损失值,对多个第一损失值求和后可以得到该邻域内中心像素i的一致性损失函数值。
S20440,对所述中心像素分别在所述不同邻域内的第二损失值求和,得到所述中心像素的一致性损失函数值。
在本申请实施例中,根据固定的邻域大小和不同的空洞因子,一个中心像素可以有多个邻域,例如,有取值为1,2,5的三个空洞因子,则该中心像素 具有三个邻域,对中心像素在三个邻域内的第二损失值求和即可以得到像素的一致性损失函数值,遍历预测语义分割图的每个像素可得到多个像素的一致性损失函数值,即对于一个像素,一致性损失函数值为:
Figure PCTCN2020073121-appb-000008
其中,M表示不同的邻域集,N i为像素i的一个邻域,l ij为像素i在邻域N i内的一致性损失函数值。
本申请实施例中,对于预测语义分割图中的每个像素,取该像素的邻域计算一致性损失函数值减少了数据处理量,提高了数据处理效率。
S2050、基于所述分类损失函数值和所述一致性损失函数值计算梯度。
一实施例中,每个像素的损失函数值包括分类损失函数值和一致性损失函数值,则步骤S2050可以包括如下子步骤:
S20510,针对每一个像素,计算所述分类损失函数值对所述像素的第一梯度。
本申请实施例中,分类损失函数可以为最小均方差损失函数,则对公式1求偏导可以得到像素的第一梯度计算公式:
Figure PCTCN2020073121-appb-000009
其中,
Figure PCTCN2020073121-appb-000010
为对最小均方差损失函数求偏导后得到最小均方差损失函数对像素k的第一梯度,p k为像素k的预测值,y k为像素k的标签值。
S20520,计算所述像素的一致性损失函数值对所述像素的第二梯度。
本实施例中,针对每个待计算梯度像素,计算待计算梯度像素的邻域中每个邻域像素与待计算梯度像素的梯度,得到第三梯度,计算待计算梯度像素作为邻域像素时邻域的中心像素对待计算梯度像素的梯度,得到第四梯度,最后对第三梯度和第四梯度求和,得到待计算梯度像素的第二梯度。
如公式2为一致性损失函数的计算公式,在本申请实施例中,可以采用L1距离或者L2距离计算一致性损失函数,即公式2中n为1或者2。
当n=1时,
Figure PCTCN2020073121-appb-000011
简化为|p i-p j|,即L1距离,公式2简化为:
Figure PCTCN2020073121-appb-000012
对上述公式3求偏导得到如下梯度计算公式:
Figure PCTCN2020073121-appb-000013
Figure PCTCN2020073121-appb-000014
其中,
Figure PCTCN2020073121-appb-000015
为一致性损失函数l ij对像素i的预测值p i的梯度计算公式,
Figure PCTCN2020073121-appb-000016
为一致性损失函数l ij对像素j的预测值p j的梯度计算公式。
当n=2时,
Figure PCTCN2020073121-appb-000017
简化为
Figure PCTCN2020073121-appb-000018
即L2距离,则公式2简化为:
Figure PCTCN2020073121-appb-000019
对上述公式6求偏导得到如下梯度计算公式:
Figure PCTCN2020073121-appb-000020
Figure PCTCN2020073121-appb-000021
其中,
Figure PCTCN2020073121-appb-000022
为一致性损失函数l ij对像素i的预测值p i的梯度计算公式,
Figure PCTCN2020073121-appb-000023
为一致性损失函数l ij对像素j的预测值p j的梯度计算公式。
则对于预测语义分割图像的一个像素k,一致性损失函数值对于像素k的梯度为:
Figure PCTCN2020073121-appb-000024
其中,
Figure PCTCN2020073121-appb-000025
表示以像素k为中心的邻域N k内,邻域像素j与中心像素k的梯度;
Figure PCTCN2020073121-appb-000026
Figure PCTCN2020073121-appb-000027
表示在包含像素k的像素i(i≠k)的邻域N i内,像素i对作为邻域像素k作用的梯度;即一致性损失函数值对于像素k的梯度由
Figure PCTCN2020073121-appb-000028
Figure PCTCN2020073121-appb-000029
累加计算,即像素k为中心像素时,邻域像素对其有作用,当像素k作为其他中心像素的邻域像素时,也会对像素k有作用。
在实际应用中,根据实际情况采用L1距离或者L2距离计算一致性损失函数值并相应的计算梯度,即取n为1或者2,本申请实施例对此不加以限制。
S20530,对所述第一梯度和所述第二梯度求和,得到所述像素的梯度。
本实施例中,每个像素的梯度包括分类损失函数值对像素的梯度和一致性损失函数值对像素的梯度,即对于像素k:
Figure PCTCN2020073121-appb-000030
对于预测语义分割图,针对每个像素可以通过分类损失函数值计算第一梯度
Figure PCTCN2020073121-appb-000031
通过一致性损失函数值计算第二梯度
Figure PCTCN2020073121-appb-000032
然后对第一梯度和第二梯度求和得到像素的梯度。
S2060、判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件。
本实施例中,针对每个像素,计算分类损失函数值和像素的一致性损失函数值的和值得到像素的总损失函数值,判断总损失函数值是否小于预设值;响应于总损失函数值小于预设值,确定像素的分类损失函数值和像素的一致性损失函数值满足预设的迭代条件;响应于总损失函数值不小于预设值,则确定像素的分类损失函数值和像素的一致性损失函数值不满足预设的迭代条件。
在实际应用中,每个像素具有一个总损失函数值,可以判断每个像素的总损失函数值是否满足预设迭代条件,也可以为每个像素设置权重,通过权重和总损失函数值计算最终的总损失函数值,以判断总损失函数值是否满足预设迭代条件,本申请实施例对此不加以限制。
S2070、结束训练所述语义分割网络。
在总损失函数值满足预设迭代条件时,说明语义分割网络输出的预测语义分割图与标注语义分割图的误差较小,语义分割网络的精度达到要求,可以停止对语义分割网络进行训练。
S2080、采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
如果总损失函数值不满足预设迭代条件时,说明语义分割网络的精度还不足,则在全卷积神经网络进行后向传播过程中,采用每个像素的梯度与预设学习率对全卷积神经网络的网络参数进行更新。一实施例中,可以通过以下公式更新网络参数:
Figure PCTCN2020073121-appb-000033
θ i为网络参数,
Figure PCTCN2020073121-appb-000034
为梯度,
Figure PCTCN2020073121-appb-000035
为学习率。
初始学习率
Figure PCTCN2020073121-appb-000036
可以设置为0.001,之后随着迭代次数的增加逐渐减少学习率,可选地,学习率的可以根据如下公式进行更新:
Figure PCTCN2020073121-appb-000037
其中,epoch_num为一个迭代周期。
本申请实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,根据分类损失函数值和一致性损失函数值对所述语 义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学习到像素之间的关系,使得语义分割网络输出具有空间一致性,解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图,从而提高用户的视觉体验。
一实施例中,在训练过程,根据像素的邻域计算像素的一致性损失函数值,无需计算所有像素之间的一致性损失函数值,极大的提升了训练效率,同时在测试中,无需使用一致性损失函数值,不会增加原有语义分割网络的计算开销。
实施例三
图4为本申请实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图,本申请实施例可适用于对图像进行语义分割处理的情况,该方法可以由基于图像语义分割网络的图像处理装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,如图4所示,该方法可以包括如下步骤:
S3010、获取目标图像。
在本申请实施例中,目标图像可以是待添加视频特效的图像。例如,可以是视频直播或者录制短视频过程中,用户选择美瞳、添加贴图、瘦脸等添加视频特效的操作时,视频直播应用程序(Application,APP)检测到用户的操作,从摄像头采集到的视频帧中截取一帧包含人脸的图像作为目标图像,目标图像还可以是人脸认证时通过人脸认证装置采集到待认证人脸的人脸图像,还可以是用户对存储在本地的图像进行图像处理时的图像,本申请实施例对获取目标图像的方式不加以限制。
S3020、将所述目标图像输入预先训练的语义分割网络中进行处理,以生成所述目标图像的语义分割图。
本申请实施例中,语义分割网络通过以下步骤训练:
S30210、获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。
S30220、将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图。
S30230、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。
S30240、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
S30210-S30240可参考实施例一和实施例二中的相关步骤,在此不再赘述。
本申请实施例在获取目标图像后,可以将目标图像输入语义分割网络中提取到语义分割图,通过该语义分割图可以对图像进行相关处理,在本申请的一个应用示例中,可以根据语义分割图实现视频中对目标对象的跟踪处理,例如,对视频中的人物进行追踪处理。
本申请实施例在训练语义分割网络时,在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后,根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值,根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整,通过分类损失函数值和一致性损失函数值,使得语义分割网络不仅有像素级别的监督分类,又可以使得语义分割网络受空间一致性约束的监督,能够学习到像素之间的关系,使得语义分割网络输出具有空间一致性,解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象,甚至出现密集的棋盘效应的问题,通过语义分割网络对目标图像处理后可以获得目标图像的高质量语义分割图,从而提高了用户的视觉体验。
实施例四
图5是本申请实施例四提供的一种语义分割网络的训练装置的结构框图,本申请实施例的语义分割网络的训练装置可以包括如下模块:训练数据获取模块401,设置为获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;预测语义分割图生成模块402,设置为将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;损失函数值确定模块403,设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;参数调整模块404,设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
实施例五
图6是本申请实施例五提供的一种基于语义分割网络的图像处理装置的结构框图,本申请实施例的基于语义分割网络的图像处理装置可以包括如下模块:目标图像获取模块501,设置为获取目标图像;图像处理模块502,设置为将所述目标图像输入预先训练的语义分割网络中进程处理,以生成所述目标图像的语义分割图;其中,所述语义分割网络通过以下模块训练:训练数据获取模块,设置为获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对 的标注语义分割图;预测语义分割图生成模块,设置为将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;损失函数值确定模块,设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;参数调整模块,设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
实施例六
参照图6,示出了本申请一个示例中的一种设备的结构示意图。如图6所示,该设备可以包括:处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。
存储器61作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的语义分割网络的训练方法对应的程序指令/模块(例如,上述语义分割网络的训练装置中的训练数据获取模块401、预测语义分割图生成模块402、损失函数值确定模块403和参数调整模块404),或如本申请任意实施例所述的基于语义分割网络的图像处理方法对应的程序指令/模块(例如,上述基于语义分割网络的图像处理装置中的目标图像获取模块501和图像处理模块502)。
处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的多种功能应用以及数据处理,即实现上述语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法。
实施例中,处理器60执行存储器61中存储的一个或多个程序时,实现本申请实施例提供的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法。
本申请实施例还提供一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如上述方法实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。

Claims (16)

  1. 一种语义分割网络的训练方法,包括:
    获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
    将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
    根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
    根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
  2. 如权利要求1所述的方法,其中,所述标注语义分割图包括像素的标签值,所述预测语义分割图包括像素的预测值,所述根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值,包括:
    采用所述像素的标签值和所述像素的预测值,计算所述分类损失函数值;
    采用所述像素的标签值和所述像素的预测值,计算所述一致性损失函数值。
  3. 如权利要求2所述的方法,其中,所述预测语义分割图中包括多个像素且所述预测语义分割图与所述训练图像的分辨率一致;
    所述采用所述像素的标签值和所述像素的预测值,计算所述分类损失函数值,包括:
    针对所述预测语义分割图中的每个像素,根据所述像素的标签值和预测值计算所述像素的均方值;
    对所有像素的均方值求和以得到所述分类损失函数值。
  4. 如权利要求3所述的方法,其中,所述预测语义分割图中的所有像素均为中心像素;
    所述采用所述像素的标签值和所述像素的预测值,计算所述一致性损失函数值,包括:
    针对所述预测语义分割图中的每个中心像素,确定所述中心像素的不同邻域,其中,每个邻域包括多个邻域像素,所述中心像素为待计算所述一致性损失函数值的像素;
    针对每个邻域,计算所述中心像素分别与所述邻域的多个邻域像素的损失值,得到多个第一损失值;
    对所述多个第一损失值求和,得到所述中心像素在所述邻域内的第二损失 值;
    对所述中心像素分别在所述不同邻域内的第二损失值求和,得到所述中心像素的一致性损失函数值。
  5. 如权利要求4所述的方法,其中,所述针对所述预测语义分割图中的每个中心像素,确定所述中心像素的不同邻域,包括:
    根据预设窗口大小确定所述邻域的大小;
    根据预设空洞因子和所述邻域的大小确定所述不同邻域。
  6. 如权利要求5所述的方法,其中,所述针对每个邻域,计算所述中心像素分别与所述邻域的多个邻域像素的损失值,得到多个第一损失值,包括:
    针对所述邻域的每个邻域像素,根据所述中心像素的预测值和所述邻域像素的预测值,计算所述中心像素的预测值与所述邻域像素的预测值的距离;
    获取所述中心像素的标签值和所述邻域像素的标签值;
    在所述中心像素的标签值和所述邻域像素的标签值相等的情况下,采用所述距离和预设的第一调节因子计算第一损失值;
    在所述中心像素的标签值和所述邻域像素的标签值不相等的情况下,采用所述距离和预设的第二调节因子计算第一损失值;
    其中,所述第一调节因子为在所述中心像素的标签值和所述邻域像素的标签值相等的情况下调整所述距离的惩罚阈值,所述第二调节因子为在所述中心像素的标签值和所述邻域像素的标签值不相等的情况下调整所述距离的惩罚阈值。
  7. 如权利要求1至6任一项所述的方法,其中,所述根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整,包括:
    基于所述分类损失函数值和所述一致性损失函数值计算梯度;
    判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件;
    响应于所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件,结束训练所述语义分割网络的;
    响应于所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件,采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
  8. 如权利要求7所述的方法,其中,所述基于所述分类损失函数值和所述一致性损失函数值计算梯度,包括:
    针对每一个像素,计算所述分类损失函数值对所述像素的第一梯度;
    计算所述像素的一致性损失函数值对所述像素的第二梯度;
    对所述第一梯度和所述第二梯度求和,得到所述像素的梯度。
  9. 如权利要求8所述的方法,其中,所述判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件,包括:
    针对每个像素,计算所述分类损失函数值和所述像素的一致性损失函数值的和值,得到所述像素的总损失函数值;
    判断所述总损失函数值是否小于预设值;
    响应于所述总损失函数值小于预设值,确定所述像素的分类损失函数值和所述像素的一致性损失函数值满足所述预设的迭代条件;
    响应于所述总损失函数值不小于预设值,确定所述像素的分类损失函数值和所述像素的一致性损失函数值不满足所述预设的迭代条件。
  10. 如权利要求8所述的方法,其中,所述计算所述像素的一致性损失函数值对所述像素的第二梯度,包括:
    针对每个待计算梯度像素,计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度,得到第三梯度;
    在所述待计算梯度像素作为邻域像素的情况下,计算所述待计算梯度像素所属邻域的中心像素对所述待计算梯度像素的梯度,得到第四梯度;
    对所述第三梯度和所述第四梯度求和,得到所述待计算梯度像素的第二梯度。
  11. 如权利要求8所述的方法,其中,所述语义分割网络为全卷积神经网络,所述采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新,包括:
    在所述全卷积神经网络进行后向传播过程中,采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。
  12. 一种基于语义分割网络的图像处理方法,包括:
    获取目标图像;
    将所述目标图像输入预先训练的语义分割网络中,以生成所述目标图像的语义分割图;
    其中,所述语义分割网络通过权利要求1至11任一项所述的语义分割网络的训练方法训练。
  13. 一种语义分割网络的训练装置,包括:
    训练数据获取模块,设置为获取训练数据集,所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图;
    预测语义分割图生成模块,设置为将所述训练图像输入预先构建的语义分割网络中进行处理,以生成预测语义分割图;
    损失函数值确定模块,设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值;
    参数调整模块,设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
  14. 一种基于语义分割网络的图像处理装置,包括:
    目标图像获取模块,设置为获取目标图像;
    图像处理模块,设置为将所述目标图像输入预先训练的语义分割网络中进程处理,以生成所述目标图像的语义分割图;
    其中,所述语义分割网络通过权利要求13所述的语义分割网络的训练装置训练。
  15. 一种设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述程序时执行以下至少之一:权利要求1-11中任一项所述的语义分割网络的训练方法、权利要求12所述的基于语义分割网络的图像处理方法。
  16. 一种计算机可读存储介质,存储有计算机程序,所述程序被处理器执行时实现以下至少之一:权利要求1-11中任一所述的语义分割网络的训练方法、权利要求12所述的基于语义分割网络的图像处理方法。
PCT/CN2020/073121 2019-01-30 2020-01-20 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 WO2020156303A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910091543.1 2019-01-30
CN201910091543.1A CN111507343B (zh) 2019-01-30 2019-01-30 语义分割网络的训练及其图像处理方法、装置

Publications (1)

Publication Number Publication Date
WO2020156303A1 true WO2020156303A1 (zh) 2020-08-06

Family

ID=71841158

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/073121 WO2020156303A1 (zh) 2019-01-30 2020-01-20 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质

Country Status (2)

Country Link
CN (1) CN111507343B (zh)
WO (1) WO2020156303A1 (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931782A (zh) * 2020-08-12 2020-11-13 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN112036275A (zh) * 2020-08-19 2020-12-04 华东师范大学 一种基于渐进式功能增强网络的物理模型材料识别方法
CN112200815A (zh) * 2020-10-12 2021-01-08 徐州医科大学附属医院 基于语义分割网络PSPNet的甲状腺结节超声图像的分割方法
CN112488020A (zh) * 2020-12-10 2021-03-12 西安交通大学 基于无人机航拍数据的水环境污染情况检测评估装置
CN112508029A (zh) * 2020-12-03 2021-03-16 苏州科本信息技术有限公司 一种基于目标框标注的实例分割方法
CN112651974A (zh) * 2020-12-29 2021-04-13 上海联影智能医疗科技有限公司 图像分割方法及系统、电子设备及存储介质
CN112669342A (zh) * 2020-12-25 2021-04-16 北京达佳互联信息技术有限公司 图像分割网络的训练方法及装置、图像分割方法及装置
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法
CN112686318A (zh) * 2020-12-31 2021-04-20 广东石油化工学院 一种基于球面嵌入、球面对齐和球面校准的零样本学习机制
CN112950642A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 点云实例分割模型的训练方法、装置、电子设备和介质
CN113012074A (zh) * 2021-04-21 2021-06-22 山东新一代信息产业技术研究院有限公司 一种适用于低照度环境的智能图像处理方法
CN113052180A (zh) * 2021-03-23 2021-06-29 中国人民解放军战略支援部队信息工程大学 融合语义流场的编解码网络港口影像分割方法
CN113066051A (zh) * 2021-02-23 2021-07-02 湖南大学 一种坡口缺陷检测方法、计算设备及可读存储介质
CN113096138A (zh) * 2021-04-13 2021-07-09 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
CN113205096A (zh) * 2021-04-26 2021-08-03 武汉大学 一种基于注意力的联合图像与特征自适应的语义分割方法
CN113240698A (zh) * 2021-05-18 2021-08-10 长春理工大学 一种多类分割损失函数及其构建方法和应用
CN113239930A (zh) * 2021-05-14 2021-08-10 广州广电运通金融电子股份有限公司 一种玻璃纸缺陷识别方法、系统、装置及存储介质
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113409340A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 语义分割模型训练方法、语义分割方法、装置及电子设备
CN113470029A (zh) * 2021-09-03 2021-10-01 北京字节跳动网络技术有限公司 训练方法及装置、图像处理方法、电子设备和存储介质
CN113569853A (zh) * 2021-06-25 2021-10-29 北京机械设备研究所 一种基于多任务学习的特征点提取与语义分割方法
CN113706564A (zh) * 2021-09-23 2021-11-26 苏州大学 基于多种监督方式的睑板腺分割网络的训练方法及装置
CN113781511A (zh) * 2021-09-17 2021-12-10 深圳市赛为智能股份有限公司 传送带边缘磨损检测方法、装置、计算机设备及存储介质
CN114092481A (zh) * 2021-11-19 2022-02-25 长春理工大学 一种基于U-Net的红外图像语义分割方法
CN114092815A (zh) * 2021-11-29 2022-02-25 自然资源部国土卫星遥感应用中心 一种大范围光伏发电设施遥感智能提取方法
CN114494973A (zh) * 2022-02-14 2022-05-13 中国科学技术大学 视频语义分割网络的训练方法、系统、设备及存储介质
CN114677567A (zh) * 2022-05-27 2022-06-28 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN114693934A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
CN115063591A (zh) * 2022-07-26 2022-09-16 之江实验室 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN115658903A (zh) * 2022-11-01 2023-01-31 百度在线网络技术(北京)有限公司 文本分类方法、模型训练方法、相关装置及电子设备
CN115984309A (zh) * 2021-12-10 2023-04-18 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN116229063A (zh) * 2023-01-08 2023-06-06 复旦大学 基于类别色彩化技术的语义分割网络模型及其训练方法
CN116385823A (zh) * 2023-03-20 2023-07-04 深圳市大数据研究院 类别语义一致性表示的半监督分割模型生成方法及系统
CN116757546A (zh) * 2023-07-05 2023-09-15 安徽如柒信息科技有限公司 一种基于工业互联网的生产监测预警系统
CN117197636A (zh) * 2023-11-07 2023-12-08 江苏玫源新材料有限公司 一种基于计算机辅助的汽车覆盖件回弹智能预测方法
GB2619999A (en) * 2022-03-24 2023-12-27 Supponor Tech Limited Image processing method and apparatus
CN114092481B (zh) * 2021-11-19 2024-05-31 长春理工大学 一种基于U-Net的红外图像语义分割方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132841B (zh) * 2020-09-22 2024-04-09 上海交通大学 医疗图像切割方法及装置
CN112418480A (zh) * 2020-10-14 2021-02-26 上海眼控科技股份有限公司 气象图像预测方法、装置、计算机设备和存储介质
CN112613515A (zh) * 2020-11-23 2021-04-06 上海眼控科技股份有限公司 语义分割方法、装置、计算机设备和存储介质
CN112465836B (zh) * 2020-12-09 2022-06-10 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112785601B (zh) * 2021-01-07 2022-02-18 重庆兆琨智医科技有限公司 一种图像分割方法、系统、介质及电子终端
CN113743410B (zh) * 2021-02-09 2024-04-09 京东科技控股股份有限公司 图像处理方法、装置和计算机可读存储介质
CN112862840B (zh) * 2021-03-04 2023-07-04 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及介质
CN112990218A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 图像语义分割模型的优化方法、装置和电子设备
CN113283434A (zh) * 2021-04-13 2021-08-20 北京工业大学 一种基于分割网络优化的图像语义分割方法及系统
CN113516201B (zh) * 2021-08-09 2023-10-31 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN113723231A (zh) * 2021-08-17 2021-11-30 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
CN113705574B (zh) * 2021-10-27 2022-02-08 海门市三德体育用品有限公司 基于图像处理的健身房设施布局优化方法及系统
CN114119976B (zh) * 2021-11-30 2024-05-14 广州文远知行科技有限公司 语义分割模型训练、语义分割的方法、装置及相关设备
CN114067118B (zh) * 2022-01-12 2022-04-15 湖北晓雲科技有限公司 一种航空摄影测量数据的处理方法
CN114648638A (zh) * 2022-04-02 2022-06-21 北京百度网讯科技有限公司 语义分割模型的训练方法、语义分割方法与装置
WO2023201681A1 (zh) * 2022-04-22 2023-10-26 北京航空航天大学杭州创新研究院 面向粗标签的语义分割模型的训练方法和装置
CN114898098B (zh) * 2022-06-27 2024-04-19 北京航空航天大学 脑组织图像分割方法
CN116385278B (zh) * 2022-12-30 2023-10-10 南京航空航天大学 一种低光照图像视觉特征自监督表示方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218810B (zh) * 2013-03-27 2016-04-20 华北电力大学 一种电力塔杆图像语意分割方法
CN104463867A (zh) * 2014-12-08 2015-03-25 南华大学 一种基于信息量的快速sift提取方法
CN107330973A (zh) * 2017-07-03 2017-11-07 深圳市唯特视科技有限公司 一种基于多视角监督的单视角重建方法
JP6989688B2 (ja) * 2017-07-21 2022-01-05 トヨタ モーター ヨーロッパ セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム
CN107392254A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种通过联合嵌入从像素中构造图像的语义分割方法
CN107730514B (zh) * 2017-09-29 2021-02-12 北京奇宝科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN108596184B (zh) * 2018-04-25 2021-01-12 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN111931782A (zh) * 2020-08-12 2020-11-13 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN112036275B (zh) * 2020-08-19 2023-02-03 华东师范大学 一种基于渐进式功能增强网络的物理模型材料识别方法
CN112036275A (zh) * 2020-08-19 2020-12-04 华东师范大学 一种基于渐进式功能增强网络的物理模型材料识别方法
CN112200815A (zh) * 2020-10-12 2021-01-08 徐州医科大学附属医院 基于语义分割网络PSPNet的甲状腺结节超声图像的分割方法
CN112508029A (zh) * 2020-12-03 2021-03-16 苏州科本信息技术有限公司 一种基于目标框标注的实例分割方法
CN112488020A (zh) * 2020-12-10 2021-03-12 西安交通大学 基于无人机航拍数据的水环境污染情况检测评估装置
CN112488020B (zh) * 2020-12-10 2023-09-19 西安交通大学 基于无人机航拍数据的水环境污染情况检测评估装置
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法
CN112669342A (zh) * 2020-12-25 2021-04-16 北京达佳互联信息技术有限公司 图像分割网络的训练方法及装置、图像分割方法及装置
CN112669342B (zh) * 2020-12-25 2024-05-10 北京达佳互联信息技术有限公司 图像分割网络的训练方法及装置、图像分割方法及装置
CN112651974A (zh) * 2020-12-29 2021-04-13 上海联影智能医疗科技有限公司 图像分割方法及系统、电子设备及存储介质
CN112686318B (zh) * 2020-12-31 2023-08-29 广东石油化工学院 一种基于球面嵌入、球面对齐和球面校准的零样本学习机制
CN112686318A (zh) * 2020-12-31 2021-04-20 广东石油化工学院 一种基于球面嵌入、球面对齐和球面校准的零样本学习机制
CN113066051A (zh) * 2021-02-23 2021-07-02 湖南大学 一种坡口缺陷检测方法、计算设备及可读存储介质
CN112950642A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 点云实例分割模型的训练方法、装置、电子设备和介质
CN113052180A (zh) * 2021-03-23 2021-06-29 中国人民解放军战略支援部队信息工程大学 融合语义流场的编解码网络港口影像分割方法
CN113096138A (zh) * 2021-04-13 2021-07-09 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
CN113096138B (zh) * 2021-04-13 2023-04-28 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
CN113012074A (zh) * 2021-04-21 2021-06-22 山东新一代信息产业技术研究院有限公司 一种适用于低照度环境的智能图像处理方法
CN113205096B (zh) * 2021-04-26 2022-04-15 武汉大学 一种基于注意力的联合图像与特征自适应的语义分割方法
CN113205096A (zh) * 2021-04-26 2021-08-03 武汉大学 一种基于注意力的联合图像与特征自适应的语义分割方法
US11790534B2 (en) 2021-04-26 2023-10-17 Wuhan University Attention-based joint image and feature adaptive semantic segmentation method
CN113239930A (zh) * 2021-05-14 2021-08-10 广州广电运通金融电子股份有限公司 一种玻璃纸缺陷识别方法、系统、装置及存储介质
CN113239930B (zh) * 2021-05-14 2024-04-05 广州广电运通金融电子股份有限公司 一种玻璃纸缺陷识别方法、系统、装置及存储介质
CN113240698A (zh) * 2021-05-18 2021-08-10 长春理工大学 一种多类分割损失函数及其构建方法和应用
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113378833B (zh) * 2021-06-25 2023-09-01 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113569853A (zh) * 2021-06-25 2021-10-29 北京机械设备研究所 一种基于多任务学习的特征点提取与语义分割方法
CN113569853B (zh) * 2021-06-25 2024-04-09 北京机械设备研究所 一种基于多任务学习的特征点提取与语义分割方法
CN113409340A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 语义分割模型训练方法、语义分割方法、装置及电子设备
CN113470029A (zh) * 2021-09-03 2021-10-01 北京字节跳动网络技术有限公司 训练方法及装置、图像处理方法、电子设备和存储介质
CN113470029B (zh) * 2021-09-03 2021-12-03 北京字节跳动网络技术有限公司 训练方法及装置、图像处理方法、电子设备和存储介质
CN113781511B (zh) * 2021-09-17 2024-04-05 深圳市赛为智能股份有限公司 传送带边缘磨损检测方法、装置、计算机设备及存储介质
CN113781511A (zh) * 2021-09-17 2021-12-10 深圳市赛为智能股份有限公司 传送带边缘磨损检测方法、装置、计算机设备及存储介质
CN113706564A (zh) * 2021-09-23 2021-11-26 苏州大学 基于多种监督方式的睑板腺分割网络的训练方法及装置
CN113706564B (zh) * 2021-09-23 2023-07-18 苏州大学 基于多种监督方式的睑板腺分割网络的训练方法及装置
CN114092481A (zh) * 2021-11-19 2022-02-25 长春理工大学 一种基于U-Net的红外图像语义分割方法
CN114092481B (zh) * 2021-11-19 2024-05-31 长春理工大学 一种基于U-Net的红外图像语义分割方法
CN114092815B (zh) * 2021-11-29 2022-04-15 自然资源部国土卫星遥感应用中心 一种大范围光伏发电设施遥感智能提取方法
CN114092815A (zh) * 2021-11-29 2022-02-25 自然资源部国土卫星遥感应用中心 一种大范围光伏发电设施遥感智能提取方法
CN115984309A (zh) * 2021-12-10 2023-04-18 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN115984309B (zh) * 2021-12-10 2024-03-15 北京百度网讯科技有限公司 用于训练图像分割模型和图像分割的方法、装置
CN114494973B (zh) * 2022-02-14 2024-03-29 中国科学技术大学 视频语义分割网络的训练方法、系统、设备及存储介质
CN114494973A (zh) * 2022-02-14 2022-05-13 中国科学技术大学 视频语义分割网络的训练方法、系统、设备及存储介质
GB2619999A (en) * 2022-03-24 2023-12-27 Supponor Tech Limited Image processing method and apparatus
CN114693934A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
CN115019038B (zh) * 2022-05-23 2024-04-30 杭州海马体摄影有限公司 一种相似图像像素级语义匹配方法
CN114677567A (zh) * 2022-05-27 2022-06-28 成都数联云算科技有限公司 模型训练方法、装置、存储介质及电子设备
CN115063591A (zh) * 2022-07-26 2022-09-16 之江实验室 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN115063591B (zh) * 2022-07-26 2022-11-29 之江实验室 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN115658903A (zh) * 2022-11-01 2023-01-31 百度在线网络技术(北京)有限公司 文本分类方法、模型训练方法、相关装置及电子设备
CN115658903B (zh) * 2022-11-01 2023-09-05 百度在线网络技术(北京)有限公司 文本分类方法、模型训练方法、相关装置及电子设备
CN116229063B (zh) * 2023-01-08 2024-01-26 复旦大学 基于类别色彩化技术的语义分割网络模型及其训练方法
CN116229063A (zh) * 2023-01-08 2023-06-06 复旦大学 基于类别色彩化技术的语义分割网络模型及其训练方法
CN116385823A (zh) * 2023-03-20 2023-07-04 深圳市大数据研究院 类别语义一致性表示的半监督分割模型生成方法及系统
CN116385823B (zh) * 2023-03-20 2023-12-01 深圳市大数据研究院 类别语义一致性表示的半监督分割模型生成方法及系统
CN116757546A (zh) * 2023-07-05 2023-09-15 安徽如柒信息科技有限公司 一种基于工业互联网的生产监测预警系统
CN116757546B (zh) * 2023-07-05 2023-12-12 安徽如柒信息科技有限公司 一种基于工业互联网的生产监测预警系统
CN117197636A (zh) * 2023-11-07 2023-12-08 江苏玫源新材料有限公司 一种基于计算机辅助的汽车覆盖件回弹智能预测方法

Also Published As

Publication number Publication date
CN111507343B (zh) 2021-05-18
CN111507343A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
WO2020156303A1 (zh) 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
WO2019228317A1 (zh) 人脸识别方法、装置及计算机可读介质
Tao et al. Manifold ranking-based matrix factorization for saliency detection
CN109815826B (zh) 人脸属性模型的生成方法及装置
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
WO2021043273A1 (zh) 图像增强方法和装置
WO2018196396A1 (zh) 基于一致性约束特征学习的行人再识别方法
WO2018076212A1 (zh) 基于反卷积神经网络的场景语义分割方法
Zhang et al. Actively learning human gaze shifting paths for semantics-aware photo cropping
US11501563B2 (en) Image processing method and system
WO2020015752A1 (zh) 一种对象属性识别方法、装置、计算设备及系统
CN111797683A (zh) 一种基于深度残差注意力网络的视频表情识别方法
JP2018535491A (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
BR112020018915A2 (pt) Método para identificação de um objeto em uma imagem e dispositivo móvel para execução do método
US20220148291A1 (en) Image classification method and apparatus, and image classification model training method and apparatus
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
EP4006777A1 (en) Image classification method and device
CN112052759B (zh) 一种活体检测方法和装置
WO2022022425A1 (en) Systems and methods for temperature measurement
US20220343525A1 (en) Joint depth prediction from dual-cameras and dual-pixels
CN114677730A (zh) 活体检测方法、装置、电子设备及存储介质
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN117133041A (zh) 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质
CN110163049B (zh) 一种人脸属性预测方法、装置及存储介质
CN111667495A (zh) 一种图像场景解析方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20748404

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20748404

Country of ref document: EP

Kind code of ref document: A1