WO2022033088A1 - 图像处理方法、装置、电子设备和计算机可读介质 - Google Patents

图像处理方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
WO2022033088A1
WO2022033088A1 PCT/CN2021/092743 CN2021092743W WO2022033088A1 WO 2022033088 A1 WO2022033088 A1 WO 2022033088A1 CN 2021092743 W CN2021092743 W CN 2021092743W WO 2022033088 A1 WO2022033088 A1 WO 2022033088A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
scale
feature
maps
image
Prior art date
Application number
PCT/CN2021/092743
Other languages
English (en)
French (fr)
Inventor
熊鹏飞
Original Assignee
北京迈格威科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京迈格威科技有限公司 filed Critical 北京迈格威科技有限公司
Publication of WO2022033088A1 publication Critical patent/WO2022033088A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions

Definitions

  • the present disclosure relates to the technical field of image processing, and in particular, to an image processing method, apparatus, electronic device, and computer-readable medium.
  • Salient Object Segmentation is an important topic in Computer Vision. It has a very wide range of applications in the fields of mobile phone autofocus, unmanned driving, scene understanding, and image editing.
  • the purpose of salient object segmentation is to distinguish the pixels of salient objects in an image from other background pixels. Unlike traditional semantic segmentation tasks, salient objects do not belong to the same class of objects and do not have semantically related labels. However, the salient objects are often in the middle of the image and have rich colors.
  • the image to be processed containing the salient objects is shown in Figure 1(a).
  • the result of processing Figure 1(a) using the salient object segmentation method can be seen in Figure 1(b)
  • Fig. 1(b) is a schematic diagram of the segmentation result of saliency objects corresponding to Fig. 1(a).
  • an embodiment of the present disclosure provides an image processing method, including: acquiring an image to be processed, and performing feature extraction on the to-be-processed image to obtain a multi-scale feature map; The part corresponding to the salient object is enhanced to obtain a multi-scale enhanced feature map; the image restoration is performed on the multi-scale enhanced feature map to obtain a mask of the salient object corresponding to the to-be-processed image.
  • performing feature extraction on the image to be processed includes: performing multi-layer downsampling processing on the image to be processed to obtain a multi-scale original feature map; performing optimization processing on the multi-scale original feature map to obtain the multi-scale original feature map.
  • the multi-scale feature maps are described.
  • performing the optimization process on the multi-scale original feature map includes: performing a first optimization process on the target original feature map in the multi-scale original feature map to obtain a first optimized feature map, wherein the The target original feature map is the feature map of the multi-scale original feature map, except the highest-dimensional original feature map; the second optimization process is performed on the highest-dimensional original feature map in the multi-scale original feature map to obtain the first Two optimized feature maps; the first optimized feature map and the second optimized feature map are used as the multi-scale feature maps.
  • performing enhancement processing on the part corresponding to the salient object in the multi-scale feature map includes: obtaining the initial position of the salient object according to the multi-scale feature map; At different expansion scales, crop the feature map of the highest dimension in the multi-scale feature map to obtain a plurality of cropped feature maps, and the plurality of cropped feature maps contain the feature information of the salient objects;
  • One or more of the feature maps are used as target feature maps, each of the target feature maps is used as the current target feature map one by one, the correlation between the multiple cropped feature maps and the current target feature map is calculated, and the current target feature map is obtained.
  • obtaining the initial position of the salient object according to the multi-scale feature map includes: performing dimension reduction processing on the highest-dimensional feature map in the multi-scale feature map to obtain a single-channel feature map;
  • the feature map of the channel is binarized to obtain a single-channel binarized feature map; the initial position of the salient object is determined according to the single-channel binarized feature map.
  • cropping the feature map of the highest dimension in the multi-scale feature map includes: determining the pixel width and pixel height of the salient object according to the initial position. ; Determine the expanded pixel width and the expanded pixel height according to the expanded scale, the pixel width and the pixel height; In the feature map of the highest dimension, expand the expanded pixel width and all the expanded pixel widths along the initial position. Crop at the position after expanding the pixel height described above.
  • acquiring the position enhancement feature map corresponding to the current target feature map includes: determining the center line of the salient object in the X direction and the center line in the Y direction based on the initial position of the salient object;
  • the center line of the X direction is set as the first target value, and linearly transformed into the second target value along the X direction to obtain the position enhancement feature map in the X direction;
  • the center line in the X direction is set as the first target value, along the X direction
  • the Y direction is linearly transformed into the second target value to obtain the position enhancement feature map in the Y direction;
  • the position enhancement feature map in the X direction and the position enhancement feature map in the Y direction are used as the position enhancement feature map.
  • an embodiment of the present disclosure further provides an image processing apparatus, including: a feature extraction unit, configured to acquire an image to be processed, and perform feature extraction on the to-be-processed image to obtain a multi-scale feature map; enhancement processing The unit is used for enhancing the part corresponding to the salient objects in the multi-scale feature map to obtain the multi-scale enhanced feature map; the image restoration unit is used for image restoration on the multi-scale enhanced feature map , to obtain the saliency object mask corresponding to the image to be processed.
  • a feature extraction unit configured to acquire an image to be processed, and perform feature extraction on the to-be-processed image to obtain a multi-scale feature map
  • enhancement processing The unit is used for enhancing the part corresponding to the salient objects in the multi-scale feature map to obtain the multi-scale enhanced feature map
  • the image restoration unit is used for image restoration on the multi-scale enhanced feature map , to obtain the saliency object mask corresponding to the image to be processed.
  • the feature extraction unit is further configured to: perform multi-layer downsampling processing on the to-be-processed image to obtain a multi-scale original feature map; perform optimization processing on the multi-scale original feature map to obtain the multi-scale original feature map. Scale feature map.
  • the enhancement processing unit is further configured to: obtain the initial position of the salient object according to the multi-scale feature map; according to the initial position, crop the multi-scale feature map with at least two different expansion scales The feature map with the highest dimension in the middle of the multi-scale feature map is obtained, and multiple cropped feature maps contain the feature information of the salient object; one or more of the multi-scale feature maps are used as the target feature map.
  • each target feature map as the current target feature map one by one, calculate the correlation between the multiple cropped feature maps and the current target feature map, and obtain the current target feature map and the multiple cropped feature maps One-to-one correspondence of multiple correlation feature maps; according to the multiple correlation feature maps and the current target feature map, an enhanced feature map corresponding to the current target feature map is obtained.
  • the image restoration unit is further configured to: upsample the multi-scale enhanced feature map to obtain a salient object mask corresponding to the to-be-processed image.
  • an embodiment of the present disclosure provides an electronic device, including a memory, a processor, and a computer program stored on the memory and executable on the processor, when the processor executes the computer program Implement the steps of the method according to any one of the above first aspects.
  • Fig. 1(a) is a schematic diagram of an image to be processed provided by an embodiment of the present disclosure
  • FIG. 1(b) is a schematic diagram of a salient object segmentation result corresponding to FIG. 1(a) provided by an embodiment of the present disclosure
  • FIG. 5 is a schematic diagram of a first optimization process provided by an embodiment of the present disclosure.
  • FIG. 8 is a flowchart of determining an enhanced feature map corresponding to a current target feature map according to an embodiment of the present disclosure
  • FIG. 9 is a schematic diagram of a position enhancement feature map provided by an embodiment of the present disclosure.
  • FIG. 11 is a schematic diagram of the results of training and testing the image processing method of the present disclosure and the existing saliency object segmentation method provided by an embodiment of the present disclosure on multiple public data sets;
  • FIG. 13 is a schematic diagram of an image processing apparatus provided by an embodiment of the present disclosure.
  • the processor 102 may adopt a digital signal processor (DSP, Digital Signal Processing), a field programmable gate array (FPGA, Field-Programmable Gate Array), a programmable logic array (PLA, Programmable Logic Array) and an ASIC (Application Specific Array).
  • DSP Digital Signal Processing
  • FPGA field programmable gate array
  • PLA programmable logic array
  • ASIC Application Specific Array
  • the processor 102 may be a central processing unit (CPU, Central Processing Unit) or other forms of processing units with data processing capability and/or instruction execution capability, and may Other components in the electronic device 100 are controlled to perform desired functions.
  • the memory 104 may include one or more computer program products, which may include various forms of computer-readable storage media, such as volatile memory and/or non-volatile memory.
  • the volatile memory may include, for example, random access memory (RAM) and/or cache memory, or the like.
  • the non-volatile memory may include, for example, read only memory (ROM), hard disk, flash memory, and the like.
  • One or more computer program instructions may be stored on the computer-readable storage medium, and the processor 102 may execute the program instructions to implement the client functions (implemented by the processor) in the embodiments of the present disclosure described below. and/or other desired functionality.
  • Various application programs and various data such as various data used and/or generated by the application program, etc. may also be stored in the computer-readable storage medium.
  • the input device 106 may be a device used by a user to input instructions, and may include one or more of a keyboard, mouse, microphone, touch screen, and the like.
  • the output device 108 may output various information (eg, images or sounds) to the outside (eg, a user), and may include one or more of a display, a speaker, and the like.
  • the electronic device for implementing the image processing method according to the embodiment of the present disclosure may be implemented as a smart terminal such as a smart phone, a tablet computer, a computer, a camera, and the like.
  • an embodiment of an image processing method is provided. It should be noted that the steps shown in the flowchart of the accompanying drawings may be executed in a computer system such as a set of computer-executable instructions and, although a logical order is shown in the flowcharts, in some cases the steps shown or described may be performed in an order different from that herein.
  • FIG. 3 is a flowchart of an image processing method according to an embodiment of the present disclosure. As shown in FIG. 3 , the method includes the following steps:
  • Step S302 acquiring the image to be processed, and performing feature extraction on the image to be processed to obtain a multi-scale feature map
  • the above-mentioned multi-scale feature maps represent feature maps with different sizes (ie, different heights and/or widths).
  • the feature extraction may be a multi-layer convolution down-sampling process for the image to be processed.
  • the embodiments of the present disclosure fully consider that a salient object is only related to the pixel values of its neighborhood, and the more prominent the salient object is in the image, the higher the accuracy of the salient object mask obtained by segmenting the salient object in the image. Therefore, after the multi-scale feature map is obtained in the embodiment of the present disclosure, the part corresponding to the salient object in the multi-scale feature map will be further enhanced, and the part corresponding to the salient object will be enhanced after the enhancement process. The features of the feature map will be more prominent, so that after image restoration of the multi-scale enhanced feature map, the obtained salient object mask will be more accurate and more accurate.
  • Step S306 performing image restoration on the multi-scale enhanced feature map to obtain a salient object mask corresponding to the image to be processed.
  • step S302 the step of performing feature extraction on the image to be processed includes the following processes (1)-(2):
  • Multi-layer downsampling is performed on the image to be processed to obtain a multi-scale original feature map
  • the multi-layer downsampling processing of the image to be processed may be to use multi-layer convolution to downsample the image to be processed layer by layer. After each layer of downsampling, original features of one scale can be obtained. Figure, the multi-scale original feature map can be obtained by layer-by-layer downsampling operation.
  • the high-dimensional original feature maps in the multi-scale original feature maps (such as the original feature maps obtained by downsampling above the third layer) have a greater impact on the accuracy of image processing, and the low-dimensional original features
  • the image (such as the original feature map obtained by the first layer downsampling and the second layer downsampling) has little effect on the accuracy of image processing. In order to improve the efficiency of image processing, it is not necessary to consider the first layer downsampling and the second layer downsampling.
  • the result of that is, the subsequent process does not process the original feature maps obtained by the first layer downsampling and the second layer downsampling, as shown in Figure 4, taking the five-layer convolution for layer-by-layer downsampling as an example to illustrate, you can directly Subsequent processing is performed based on the results of the third layer downsampling, the fourth layer downsampling and the fifth layer downsampling, and the results of the first layer downsampling and the second layer downsampling are no longer considered.
  • Step 21 Perform a first optimization process on the target original feature map in the multi-scale original feature map to obtain a first optimized feature map, wherein the target original feature map is the multi-scale original feature map, except the highest dimensional original feature.
  • High-dimensional original feature map other than the image taking Figure 4 as an example, the highest-dimensional original feature map is the feature map corresponding to the fifth layer of downsampling, and the high-dimensional original feature map other than the highest-dimensional original feature map is the third layer of downsampling The corresponding feature map and the corresponding feature map of the fourth layer downsampling.
  • Step 22 Perform a second optimization process on the highest-dimensional original feature map in the multi-scale original feature map to obtain a second optimized feature map.
  • a second optimization process that is, the GRB process in FIG. 4 , is performed on the highest-dimensional original feature map in the multi-scale original feature map.
  • the specific process of the second optimization processing is: using the second optimization module to optimize the highest-dimensional original feature map to obtain the optimization weight, and then multiply the optimization weight and the highest-dimensional original feature map to obtain the second initial The optimized feature map; the second initial optimized feature map and the highest-dimensional original feature map are added to obtain the second optimized feature map.
  • the second optimization module for optimizing the highest-dimensional original feature map may include: a second convolution layer, a global pooling layer, and a sigmoid function processing layer. Among them, the number of the second convolution layer, the global pooling layer and the Sigmoid function processing layer and the connection method are not limited here, and can be flexibly set according to the actual situation.
  • Step 23 using the first optimized feature map and the second optimized feature map as multi-scale feature maps.
  • step S304 the step of performing enhancement processing on the part corresponding to the salient object in the multi-scale feature map mainly includes the following steps S701 to S704 .
  • Step S701 obtaining the initial position of the salient object according to the multi-scale feature map
  • dimensionality reduction processing on the feature map with the highest dimension in the multi-scale feature map to obtain a single-channel feature map
  • perform binarization processing on the single-channel feature map to obtain a single-channel two-dimensional feature map.
  • Binarized feature maps determine the initial positions of salient objects based on single-channel binarized feature maps.
  • the second optimized feature map ie, the feature map with the highest dimension in the multi-scale feature map
  • GRB processing second optimization process
  • Figure referring to the feature map with size N*M and the number of channels is 1), and then binarize the feature map of the single channel to obtain the binarized feature map of the single channel (as shown below the GRB in Figure 4).
  • the position of the salient object can be marked with the position of the value 1 in the single-channel binarized feature map, for example, the part represented by 1 is the part corresponding to the salient object , and then the initial position of the salient object can be determined according to the position of 1.
  • the initial position may be a position determined by the leftmost 1, the rightmost 1, the uppermost 1, and the lowermost 1 in the single-channel binarized feature map.
  • the initial position determines the extended pixel width and the extended pixel height according to the extended scale, pixel width and pixel height; in the feature map of the highest dimension, along the Then the initial position is expanded to expand the pixel width and the expanded pixel height for cropping.
  • the cropped feature map is based on the initial position of the object and is expanded and cropped to a certain extent, so it contains salient objects, and also contains the feature information of salient objects.
  • the expansion scale is 10%
  • the expanded pixel width and pixel height of the salient object are 30*30
  • the expanded pixel width (ie 10% of 30) is 3 pixels
  • the expanded pixel height (ie 10 of 30) %) is 3 pixels, that is, in the feature map of the highest dimension
  • the initial position is expanded (that is, increased) by 3 background pixels in the left and right directions
  • the initial position is expanded by 3 backgrounds in the upper and lower directions.
  • pixel points and then crop the expanded image.
  • this embodiment of the present disclosure needs to perform such an expansion is that the accuracy of the feature map corresponding to the salient object obtained by direct binarization is poor, and it is not necessarily a salient object.
  • the whole of the sexual object so it needs to be expanded to include all the salient objects as much as possible.
  • Step S703 taking one or more of the multi-scale feature maps as the target feature map, using each target feature map as the current target feature map one by one, calculating the correlation between the multiple cropped feature maps and the current target feature map, and obtaining the current feature.
  • the above-mentioned target feature map may be one or more of the multi-scale feature maps, which are not specifically limited in this embodiment of the present disclosure.
  • the above process is described below with a specific example: if the cropped feature map of the preset scale is the B map of 32*32*64, and the current target feature map is 64*64*128 A picture.
  • the B1 picture of 32*32*1 and the A1 picture of 64*64*1 are used for illustration.
  • the sliding window of 32*32 is used to slide in sequence according to the preset sliding step, and each slide is once. , you can get a 32*32 small block, the small block is multiplied with the 32*32 B1 map, and a new 32*32 small block is obtained. After all the sliding is completed, the correlation between the A1 map and the B1 map can be obtained. degree feature map, the size of the correlation feature map is 64*64*1;
  • each dimension of 32*32*64 is calculated with 64*64*128 according to the above process, and a 64*64*128 correlation feature map, and then add these 64 correlation feature maps together to get a final 64*64*128 correlation feature map, which is the correlation feature of A and B pictures picture.
  • Step S704 obtaining an enhanced feature map corresponding to the current target feature map according to the plurality of correlation feature maps and the current target feature map.
  • steps S801 to S803 shown in FIG. 8 perform:
  • the part corresponding to the salient objects in the current target feature map is strengthened.
  • Step S802 connecting a plurality of first enhanced feature maps with the current target feature map in series to obtain a second enhanced feature map corresponding to the current target feature map;
  • multiple first enhanced feature maps are two feature maps of 64*64*128 (corresponding to the width W*height H*channel number C of the map respectively), which are concatenated with the target feature map of 64*64*128 to obtain
  • the second enhanced feature map of 64*64*384, the concatenation is the addition of the number of channels.
  • the target matrix determines the center line of the salient object in the X direction and the center line in the Y direction based on the initial position of the salient object.
  • the target matrix is a single-channel matrix with the same scale as the second enhanced feature map.
  • the value of the element can be 0; the X direction and the Y direction can be preset, such as consistent with the traditionally defined X direction and Y direction, the X direction is the horizontal direction, the Y direction is the vertical direction, and the X direction and the Y direction are perpendicular to each other.
  • the process of the above enhancement processing can refer to FIG. 10, and the positioning information of the corresponding part of the salient object (such as the initial position of the salient object, pixel width, pixel width, pixel height, the center line in the X direction and the center line in the Y direction), and then according to the positioning information, with at least two different expansion scales, crop the feature map of the highest dimension in the multi-scale feature map, and obtain multiple cropped feature maps, and at the same time, Determine the position enhancement feature map according to the positioning information, then calculate the correlation feature map of the multiple cropped feature maps and the current target feature map in the multi-scale feature map, and multiply the correlation feature map and the current target feature map to obtain The result is concatenated with the current target feature map and the position enhanced feature map corresponding to the current target feature map, and finally the enhanced feature map corresponding to the current target feature map is obtained, thereby obtaining the enhanced feature map corresponding to each target feature map.
  • the positioning information of the corresponding part of the salient object such as the initial position of the salient
  • the process of upsampling and fusion may be as follows: as shown in FIG. 4 , the enhanced feature map of the fifth layer (that is, the feature map obtained after downsampling of the fifth layer is processed by GRB, and then obtained after processing by LCB)
  • the feature map of must first undergo SRB processing (the SRB processing has been introduced above, and will not be repeated here), and then up-sampling is performed after SRB processing.
  • SRB processing the SRB processing has been introduced above, and will not be repeated here
  • up-sampling is performed after SRB processing.
  • the up-sampled feature map and the enhanced feature map of the fourth layer After the addition, it is processed by SRB, and then up-sampling is performed after processing.
  • the up-sampled feature map is added to the enhanced feature map of the third layer, it is processed by SRB, and finally 4 times enlarged to obtain salient objects. mask.
  • the inventors compare the image processing method of the present disclosure (represented by LCANet) and the existing saliency object segmentation methods in multiple public datasets (DUTS-TE dataset, ECSSD dataset, HKU-IS dataset, PASCAL-S dataset respectively). Data set and DUT-OM data set) were trained and tested, and the results are shown in Figure 11, indicating that when the image processing method of the present disclosure is used to process the image, the obtained salient object mask has higher accuracy, The accuracy is higher (in FIG. 11 , for the maxF parameter, the larger the value, the higher the accuracy, and the smaller the value of the MAE parameter, the higher the accuracy). In addition, referring to FIG. 12 , it can also be seen from the visualization results that the image processing method of the present disclosure has better accuracy and better precision.
  • the image restoration unit is configured to perform image restoration on the multi-scale enhanced feature map to obtain a salient object mask corresponding to the image to be processed.
  • the feature extraction unit is further configured to: use a first optimization module to perform optimization processing on the target original feature map to obtain a first initial optimized feature map, wherein the first optimization module includes: a preset number of first convolutions. layer; the first initial optimized feature map and its corresponding target original feature map are added to obtain the first optimized feature map.
  • the feature extraction unit is further configured to: use a second optimization module to optimize the highest-dimensional original feature map to obtain optimization weights, where the second optimization module includes: a second convolution layer, a global pooling layer, and a Sigmoid layer. Function processing layer; Multiply the optimization weight and the highest-dimensional original feature map to obtain the second initial optimized feature map; add the second initial optimized feature map and the highest-dimensional original feature map to obtain the second optimized feature map feature map.
  • the enhancement processing unit is further configured to: obtain the initial position of the salient object according to the multi-scale feature map; according to the initial position, crop the highest-dimensional feature map in the multi-scale feature map with at least two different expansion scales, Obtain multiple cropped feature maps, which contain feature information of salient objects; use one or more of the multi-scale feature maps as target feature maps, and use each target feature map as the current target feature map one by one, Calculate the correlation between the multiple cropped feature maps and the current target feature map, and obtain multiple correlation feature maps of the current target feature map that correspond one-to-one with the multiple cropped feature maps; according to the multiple correlation feature maps and the current target feature map , to obtain the enhanced feature map corresponding to the current target feature map.
  • the enhancement processing unit is further configured to: perform dimensionality reduction processing on the feature map with the highest dimension in the multi-scale feature map to obtain a single-channel feature map; perform binarization processing on the single-channel feature map to obtain a single-channel feature map.
  • the binarized feature map of determine the initial position of the salient object according to the single-channel binarized feature map.
  • the enhancement processing unit is further configured to: determine the pixel width and pixel height of the salient object according to the initial position; determine the expanded pixel width and the expanded pixel height according to the expanded scale, the pixel width and the pixel height; in the feature map of the highest dimension , and crop along the position where the original position is expanded by the expanded pixel width and expanded pixel height.
  • the enhancement processing unit is further configured to: zoom the multiple cropped feature maps to a preset scale to obtain multiple cropped feature maps of the preset size; use the preset size as a sliding window to slide on the current target feature map; Multiply the feature map included in the sliding window after each sliding with multiple cropped feature maps of the preset scale, respectively, and obtain multiple cropped feature maps of the current target feature map one-to-one corresponding to the multiple cropped feature maps according to the result of the multiplication operation. Correlation feature map.
  • the enhancement processing unit is further configured to: perform a product operation on each correlation feature map in the plurality of correlation feature maps and the current target feature map to obtain a plurality of first enhanced feature maps corresponding to the current target feature map; Connect a plurality of first enhanced feature maps and the current target feature map in series to obtain a second enhanced feature map corresponding to the current target feature map; obtain the position enhanced feature map corresponding to the current target feature map, and combine the second enhanced feature map and the location enhanced feature map
  • the feature maps are concatenated to obtain an enhanced feature map corresponding to the current target feature map, wherein the scale of the position enhanced feature map is the same as the scale of the second enhanced feature map.
  • the enhancement processing unit is further configured to: determine the center line in the X direction and the center line in the Y direction of the salient object based on the initial position of the salient object; set the center line in the Y direction as the first target value, along the X direction. The direction is linearly transformed into the second target value, and the position enhancement feature map in the X direction is obtained; the center line in the X direction is set as the first target value, and the second target value is linearly transformed along the Y direction to obtain the position enhancement feature in the Y direction.
  • Figure; the position enhancement feature map in the X direction and the position enhancement feature map in the Y direction are used as the position enhancement feature map.
  • the image restoration unit is further configured to: upsample the multi-scale enhanced feature map to obtain a salient object mask corresponding to the image to be processed.
  • the terms “installed”, “connected” and “connected” should be understood in a broad sense, for example, it may be a fixed connection or a detachable connection , or integrally connected; it can be a mechanical connection or an electrical connection; it can be a direct connection, or an indirect connection through an intermediate medium, or the internal communication between the two components.
  • installed should be understood in a broad sense, for example, it may be a fixed connection or a detachable connection , or integrally connected; it can be a mechanical connection or an electrical connection; it can be a direct connection, or an indirect connection through an intermediate medium, or the internal communication between the two components.
  • the disclosed system, apparatus and method may be implemented in other manners.
  • the apparatus embodiments described above are only illustrative.
  • the division of the units is only a logical function division.
  • multiple units or components may be combined or Can be integrated into another system, or some features can be ignored, or not implemented.
  • the shown or discussed mutual coupling or direct coupling or communication connection may be through some communication interfaces, indirect coupling or communication connection of devices or units, which may be in electrical, mechanical or other forms.
  • the units described as separate components may or may not be physically separated, and components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution in this embodiment.
  • each functional unit in each embodiment of the present disclosure may be integrated into one processing unit, or each unit may exist physically alone, or two or more units may be integrated into one unit.
  • the functions, if implemented in the form of software functional units and sold or used as stand-alone products, may be stored in a processor-executable non-volatile computer-readable storage medium.
  • the computer software products are stored in a storage medium, including Several instructions are used to cause a computer device (which may be a personal computer, a server, or a network device, etc.) to execute all or part of the steps of the methods described in the embodiments of the present disclosure.
  • the aforementioned storage medium includes: U disk, mobile hard disk, Read-Only Memory (ROM, Read-Only Memory), Random Access Memory (RAM, Random Access Memory), magnetic disk or optical disk and other media that can store program codes .
  • the obtained multi-scale enhanced feature map has more prominent feature maps corresponding to the salient objects.
  • the salient object mask obtained by segmentation is more accurate and more precise, which alleviates the poor segmentation effect of existing salient object segmentation methods when processing images. question.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像处理方法、装置、电子设备和计算机可读介质,包括:获取待处理图像,并对待处理图像进行特征提取,得到多尺度的特征图;对多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版。本公开的方法对多尺度的特征图中显著性物体所对应的部分进行强化处理后,得到的多尺度的强化特征图中,显著性物体所对应的特征图更加突出,最后对多尺度的强化特征图进行图像还原后,分割得到的显著性物体蒙版更加准确,精度更高,缓解了现有的显著性物体分割方法在对图像进行处理时存在的分割效果不佳的技术问题。

Description

图像处理方法、装置、电子设备和计算机可读介质
相关申请的交叉引用
本公开要求于2020年8月14日提交中国专利局的申请号为2020108225244、名称为“图像处理方法、装置、电子设备和计算机可读介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及图像处理的技术领域,尤其是涉及一种图像处理方法、装置、电子设备和计算机可读介质。
背景技术
显著性物体分割(Salient Object Segmentation)是计算机视觉(Computer Vision)的一个重要课题。在手机自动对焦、无人驾驶、场景理解、图像编辑等领域中都有着非常广泛的应用。显著性物体分割的目的是将一张图像中的显著物体的像素点与其它背景像素点区分出来。不同于传统的语义分割任务,显著性物体并不属于同一类物体,并没有语义相关的标签。但是显著性物体往往处于图像中间,且颜色丰富,包含显著性物体的待处理图像如图1(a)所示,采用显著性物体分割方法对图1(a)进行处理后的结果可参见图1(b),图1(b)为与图1(a)对应的显著性物体分割结果示意图。
现有的显著性物体分割方法主要分为两类。其中一类是通过对图像的纹理进行分析,确定出图像中纹理丰富的区域,继而通过聚类方法,将物体和其它纹理单一的区域区分出来。这种方法受限于聚类方法,很难获得较高的分割精度;另外一类是将显著性物体分割看作标准物体分割问题。但是标准物体分割是将图像中预设种类的物体分割出来,例如,将图像中的人、车、狗分割出来,但是这些物体对于某张特定的图像来讲,可能并不是显著性物体,或者并不是所有的可用于标准物体分割的预设种类的物体都是显著性物体,这就导致分割出的显著性物体出现错误。
综上,现有的显著性物体分割方法在对图像进行处理时,存在分割效果不佳的技术问题。
发明内容
有鉴于此,本公开的目的在于提供一种图像处理方法、装置、电子设备和计算机可读介质,以缓解现有的显著性物体分割方法在对图像进行处理时存在的分割效果不佳的技术问题。
第一方面,本公开实施例提供了一种图像处理方法,包括:获取待处理图像,并对所 述待处理图像进行特征提取,得到多尺度的特征图;对所述多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版。
进一步的,对所述待处理图像进行特征提取包括:对所述待处理图像进行多层下采样处理,得到多尺度的原始特征图;对所述多尺度的原始特征图进行优化处理,得到所述多尺度的特征图。
进一步的,对所述多尺度的原始特征图进行优化处理包括:对所述多尺度的原始特征图中的目标原始特征图进行第一优化处理,得到第一优化的特征图,其中,所述目标原始特征图为所述多尺度的原始特征图中,除最高维原始特征图以外的特征图;对所述多尺度的原始特征图中的最高维原始特征图进行第二优化处理,得到第二优化的特征图;将所述第一优化的特征图和所述第二优化的特征图作为所述多尺度的特征图。
进一步的,对所述多尺度的原始特征图中的目标原始特征图进行第一优化处理包括:利用第一优化模块对所述目标原始特征图进行优化处理,得到第一初始优化的特征图,其中,所述第一优化模块包括:预设数个第一卷积层;将所述第一初始优化的特征图和其对应的目标原始特征图进行加和运算,得到所述第一优化的特征图。
进一步的,对所述多尺度的原始特征图中的最高维原始特征图进行第二优化处理包括:利用第二优化模块对所述最高维原始特征图进行优化处理,得到优化权重,其中,所述第二优化模块包括:第二卷积层、全局池化层和Sigmoid函数处理层;将所述优化权重与所述最高维原始特征图进行乘积运算,得到第二初始优化的特征图;将所述第二初始优化的特征图和所述最高维原始特征图进行加和运算,得到所述第二优化的特征图。
进一步的,对所述多尺度的特征图中显著性物体所对应的部分进行强化处理包括:根据所述多尺度的特征图得到显著性物体的初始位置;根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图,得到多个裁剪特征图,所述多个裁剪特征图中包含所述显著性物体的特征信息;将所述多尺度的特征图中的一个或多个作为目标特征图,逐一将各所述目标特征图作为当前目标特征图,计算所述多个裁剪特征图与所述当前目标特征图的相关度,得到所述当前目标特征图的与所述多个裁剪特征图一一对应的多个相关度特征图;根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图。
进一步的,根据所述多尺度的特征图得到显著性物体的初始位置包括:对所述多尺度的特征图中最高维的特征图进行降维处理,得到单通道的特征图;对所述单通道的特征图进行二值化处理,得到单通道的二值化特征图;根据所述单通道的二值化特征图确定所述显著性物体的初始位置。
进一步的,根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图包括:根据所述初始位置确定所述显著性物体的像素宽度和像素高度;根据所述扩充尺度、所述像素宽度和所述像素高度确定扩充像素宽度和扩充像素高度;在所述最高维的特征图中,沿着将所述初始位置扩充所述扩充像素宽度和所述扩充像素高度后的位置进行裁剪。
进一步的,计算所述多个裁剪特征图与所述当前目标特征图的相关度包括:将所述多个裁剪特征图缩放至预设尺度,得到预设尺度的多个裁剪特征图;以所述预设尺度为滑动窗口在所述当前目标特征图上进行滑动;将每次滑动后所述滑动窗口所包含的特征图与所述预设尺度的多个裁剪特征图分别进行乘积运算,根据乘积运算的结果得到当前目标特征图的与多个裁剪特征图一一对应的多个所述相关度特征图。
进一步的,根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图包括:将所述多个相关度特征图中的每个相关度特征图与所述当前目标特征图进行乘积运算,得到所述当前目标特征图对应的多个第一强化特征图;将所述多个第一强化特征图与所述当前目标特征图串联,得到所述当前目标特征图对应的第二强化特征图;获取所述当前目标特征图对应的位置强化特征图,并将所述第二强化特征图和所述位置强化特征图串联,得到与所述当前目标特征图对应的强化特征图,其中,所述位置强化特征图的尺度与所述第二强化特征图的尺度相同。
进一步的,获取所述当前目标特征图对应的位置强化特征图包括:基于所述显著性物体的初始位置确定所述显著性物体X方向的中心线和Y方向的中心线;将所述Y方向的中心线设置为第一目标值,沿着X方向线性变换为第二目标值,得到X方向的位置强化特征图;将所述X方向的中心线设置为所述第一目标值,沿着Y方向线性变换为所述第二目标值,得到Y方向的位置强化特征图;将所述X方向的位置强化特征图和所述Y方向的位置强化特征图作为所述位置强化特征图。
进一步的,对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版包括:对所述多尺度的强化特征图进行上采样,得到与所述待处理图像对应的显著性物体蒙版。
第二方面,本公开实施例还提供了一种图像处理装置,包括:特征提取单元,用于获取待处理图像,并对所述待处理图像进行特征提取,得到多尺度的特征图;强化处理单元,用于对所述多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;图像还原单元,用于对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版。
进一步的,所述特征提取单元还配置成:对所述待处理图像进行多层下采样处理,得 到多尺度的原始特征图;对所述多尺度的原始特征图进行优化处理,得到所述多尺度的特征图。
进一步的,所述强化处理单元还配置成:根据所述多尺度的特征图得到显著性物体的初始位置;根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图,得到多个裁剪特征图,所述多个裁剪特征图中包含所述显著性物体的特征信息;将所述多尺度的特征图中的一个或多个作为目标特征图,逐一将各所述目标特征图作为当前目标特征图,计算所述多个裁剪特征图与所述当前目标特征图的相关度,得到所述当前目标特征图的与所述多个裁剪特征图一一对应的多个相关度特征图;根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图。
进一步的,所述图像还原单元还配置成:对所述多尺度的强化特征图进行上采样,得到与所述待处理图像对应的显著性物体蒙版。
第三方面,本公开实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本公开实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一项所述的方法的步骤。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对具体实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1(a)为本公开实施例提供的待处理图像的示意图;
图1(b)为本公开实施例提供的与图1(a)对应的显著性物体分割结果的示意图;
图2为本公开实施例提供的一种电子设备的示意图;
图3为本公开实施例提供的一种图像处理方法的流程图;
图4为本公开实施例提供的图像处理方法的整体示意图;
图5为本公开实施例提供的第一优化处理的示意图;
图6为本公开实施例提供的第二优化处理的示意图;
图7为本公开实施例提供的对多尺度的特征图中显著性物体所对应的部分进行强化处理的流程图;
图8为本公开实施例提供的确定当前目标特征图对应的强化特征图的流程图;
图9为本公开实施例提供的位置强化特征图的示意图;
图10为本公开实施例提供的对多尺度的特征图中显著性物体所对应的部分进行强化处理的示意图;
图11为本公开实施例提供的本公开的图像处理方法与现有的显著性物体分割方法在多个公开数据集上进行训练和测试的结果示意图;
图12为本公开实施例提供的本公开的图像处理方法与现有的显著性物体分割方法对待处理图像进行处理后的可视化结果示意图;
图13为本公开实施例提供的图像处理装置的示意图。
具体实施方式
下面将结合实施例对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
首先,参照图2来描述用于实现本公开实施例的电子设备100,该电子设备可以用于运行本公开实施例的图像处理方法。
如图2所示,电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及摄像机110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图2所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP,Digital Signal Processing)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、可编程逻辑阵列(PLA,Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU,Central Processing Unit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述摄像机110配置成进行待处理图像的采集,其中,摄像机所采集的待处理图像经过所述图像处理方法进行处理之后得到与待处理图像对应的显著性物体蒙版,例如,摄像机可以拍摄用户期望的图像(例如照片、视频等),然后,将该图像经过所述图像处理方法进行处理之后得到与待处理图像对应的显著性物体蒙版,摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。
示例性地,用于实现根据本公开实施例的图像处理方法的电子设备可以被实现为诸如智能手机、平板电脑、计算机、摄像装置等智能终端。
可选地,根据本公开实施例,提供了一种图像处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本公开实施例的一种图像处理方法的流程图,如图3所示,该方法包括如下步骤:
步骤S302,获取待处理图像,并对待处理图像进行特征提取,得到多尺度的特征图;
在本公开实施例中,上述多尺度的特征图表示尺寸不同(即高度和/或宽度不同)的特征图。可选地,特征提取可以为对待处理图像进行多层卷积的下采样处理,待处理图像每经过一层下采样,就能得到一种尺度的特征图,该种尺度的特征图包括多张子特征图,实际可表示为多通道矩阵(每个通道的矩阵为二维矩阵),每个通道的矩阵可以与一张子特征图对应,其中,矩阵每行的元素个数就表示了该通道对应的子特征图的宽度,矩阵每列的元素个数就表示了该通道对应的子特征图的高度。
步骤S304,对多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;
本公开实施例充分考虑到显著性物体只与其邻域的像素值相关,显著性物体在图像中越突出,对该图像进行显著性物体分割所得到的显著性物体蒙版的精度就越高。因此,本公开实施例在得到多尺度的特征图后,会进一步对多尺度的特征图中显著性物体所对应的部分进行强化处理,显著性物体对应的部分在经过强化处理后,得到的强化特征图的特征会更突显,这样在对多尺度的强化特征图进行图像还原后,得到的显著性物体蒙版会更加准确,精度更高。
下文中再对强化处理的过程进行详细介绍,在此不再赘述。
步骤S306,对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版。
可选地,可以对多种尺度的强化特征图执行上采样操作,在上采样操作的执行过程中,对不同尺度的强化特征图进行融合,进而得到与待处理图像对应的显著性物体蒙版。
在本公开实施例中,首先,获取待处理图像,并对待处理图像进行特征提取,得到多尺度的特征图;然后,对多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;最后,对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版。通过上述描述可知,对多尺度的特征图中显著性物体所对应的部分进行强化处理后,在得到的多尺度的强化特征图中,显著性物体所对应的特征图更加突出,最后对多尺度的强化特征图进行图像还原后,分割得到的显著性物体蒙版更加准确,精度更高,缓解了现有的显著性物体分割方法在对图像进行处理时分割效果不佳的技术问题。
上述内容对本公开实施例提供的图像处理方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
可选地,步骤S302,对待处理图像进行特征提取的步骤包括如下(1)-(2)的过程:
(1)对待处理图像进行多层下采样处理,得到多尺度的原始特征图;
可选地,可参考图4,对待处理图像进行多层下采样处理可以为采用多层卷积对待处理图像进行逐层下采样,每经过一层下采样,就能得到一种尺度的原始特征图,通过逐层下采样操作可以得到多尺度的原始特征图。
需要说明的是,通过实验发现,多尺度的原始特征图中的高维原始特征图(例如第三层以上的下采样得到的原始特征图)对于图像处理的精度影响较大,低维原始特征图(例如第一层下采样和第二层下采样得到的原始特征图)对于图像处理的精度影响不大,为了提高图像处理的效率,可以不用考虑第一层下采样和第二层下采样的结果,即后续过程不对第一层下采样和第二层下采样得到的原始特征图进行处理,如图4所示,以通过五层卷积进行逐层下采样为例进行示意,可直接基于第三层下采样、第四层下采样和第五层下采样的结果进行后续处理,不再考虑第一层下采样和第二层下采样的结果。
(2)对多尺度的原始特征图中的高维原始特征图进行优化处理,得到多尺度的特征图。
可选地,可以参照如下步骤21~步骤23执行:
步骤21,对多尺度的原始特征图中的目标原始特征图进行第一优化处理,得到第一优化的特征图,其中,目标原始特征图为多尺度的原始特征图中,除最高维原始特征图以外的高维原始特征图;以图4为例,最高维原始特征图是第五层下采样对应的特征图,除最高维原始特征图以外的高维原始特征图为第三层下采样对应的特征图以及第四层下采样对 应的特征图。
参考图4,对多尺度的原始特征图中的除最高维原始特征图以外的高维原始特征图都进行第一优化处理,即图4中的SRB处理。第一优化处理(SRB处理)的具体过程为:利用第一优化模块对目标原始特征图进行优化处理,得到第一初始优化的特征图,然后将第一初始优化的特征图和其对应的目标原始特征图进行加和运算,得到第一优化的特征图。其中,对目标原始特征图进行优化处理的第一优化模块可以包括:预设数个第一卷积层。
在本公开实施例中不限定第一优化模块中所包含的第一卷积层中的数量,具体可以根据实际情况灵活设置。诸如,预设数个第一卷积层可以为两个3x3的卷积层。为便于理解,以第一优化模块包含两个3x3的卷积层为例进行说明,第一优化处理的过程可参考图5,目标原始特征图通过串联的两个3x3的卷积层后,得到第一初始优化的特征图,进而将该第一初始优化的特征图与其对应的目标原始特征图进行加和运算,就能得到第一优化的特征图。
上文中已经对特征图实际为多维矩阵的本质进行了说明,所以第一初始优化的特征图与其对应的目标原始特征图进行加和运算的过程实际上是多维矩阵中相应元素加和运算的过程。
步骤22,对多尺度的原始特征图中的最高维原始特征图进行第二优化处理,得到第二优化的特征图。
参考图4,对多尺度的原始特征图中的最高维原始特征图进行第二优化处理,即图4中的GRB处理。第二优化处理(GRB处理)的具体过程为:利用第二优化模块对最高维原始特征图进行优化处理,得到优化权重,然后将优化权重与最高维原始特征图进行乘积运算,得到第二初始优化的特征图;将第二初始优化的特征图和最高维原始特征图进行加和运算,得到第二优化的特征图。其中,对最高维原始特征图进行优化处理的第二优化模块可以包括:第二卷积层、全局池化层和Sigmoid函数处理层。其中,第二卷积层、全局池化层和Sigmoid函数处理层的数量以及连接方式在此不进行限定,可以根据实际情况而灵活设置。
可选地,第二卷积层可以为1x1的卷积层,为便于理解,以第二优化模块的结构为:一个1x1的卷积层、一个全局池化层、一个1x1的卷积层以及一个Sigmoid函数处理层依次连接为例进行说明,参考图6,最高维原始特征图依次通过1x1的卷积层,全局池化层,1x1的卷积层和Sigmoid函数后,得到优化权重,该优化权重再与最高维原始特征图进行乘积运算,运算得到的结果再与最高维原始特征图进行加和运算,得到第二优化的特征图。
同理,乘积运算为优化权重与二维矩阵中的元素进行乘积运算的过程,加和运算为二维矩阵中相应元素加和运算的过程。
步骤23,将第一优化的特征图和第二优化的特征图作为多尺度的特征图。
下面再对对多尺度的特征图中显著性物体所对应的部分进行强化处理的过程进行详细描述。
可选地,参考图7,步骤S304,对多尺度的特征图中显著性物体所对应的部分进行强化处理的步骤主要包括如下步骤S701~步骤S704。
步骤S701,根据多尺度的特征图得到显著性物体的初始位置;
可选地,可参照如下过程:对多尺度的特征图中最高维的特征图进行降维处理,得到单通道的特征图;对单通道的特征图进行二值化处理,得到单通道的二值化特征图;根据单通道的二值化特征图确定显著性物体的初始位置。
参考图4,通过卷积层对经GRB处理(第二优化处理)后的第二优化的特征图(即多尺度的特征图中最高维的特征图)进行降维处理,得到单通道的特征图(是指大小为N*M且通道数为1的特征图),然后再对单通道的特征图进行二值化处理,得到单通道的二值化特征图(如图4中GRB下方所指的图像),可选地,诸如可以采用数值1在单通道的二值化特征图中的位置来标注显著性物体的位置,例如,1所代表的部分即为显著性物体所对应的部分,进而根据其中1所在的位置便能确定显著性物体的初始位置。该初始位置可以为单通道的二值化特征图中,位于最左边的1、最右边的1、最上边的1和最下面的1所确定的位置。
步骤S702,根据初始位置,以至少两种不同扩充尺度,裁剪多尺度的特征图中最高维的特征图,得到多个裁剪特征图,多个裁剪特征图中包含显著性物体的特征信息。
可选地,可参照如下过程:根据初始位置确定显著性物体的像素宽度和像素高度;根据扩充尺度、像素宽度和像素高度确定扩充像素宽度和扩充像素高度;在最高维的特征图中,沿着将初始位置扩充扩充像素宽度和扩充像素高度后的位置进行裁剪。裁剪特征图是以物体的初始位置为中心进行一定扩充裁剪出的,因此包含显著性物体,也就包含显著性物体的特征信息。
例如,当扩充尺度为10%时,若显著性物体的像素宽度和像素高度为30*30,那么扩充像素宽度(即30的10%)为3个像素点,扩充像素高度(即30的10%)为3个像素点,也就是在最高维的特征图中,将初始位置向其左右方向分别扩充(即增加)3个背景像素点,同时将初始位置向其上下方向分别扩充3个背景像素点,然后对扩充后的图像进行裁剪,本公开实施例之所以要进行这样的扩充是由于直接二值化得到的显著性物体所对应的特征图的准确性较差,其不一定是显著性物体的全部,所以需要往外扩充一些,以尽可能包含显著性物体的全部。
上述扩充尺度还可以为30%,50%等,本公开实施例对上述扩充尺度不进行具体限制。 可以理解的是,按照不同的扩充尺度将裁剪出不同的裁剪特征图,因此扩充尺度的个数等于裁剪特征图的张数。
步骤S703,将多尺度的特征图中的一个或多个作为目标特征图,逐一将各目标特征图作为当前目标特征图,计算多个裁剪特征图与当前目标特征图的相关度,得到当前特征图的与多个裁剪特征图一一对应的多个相关度特征图;上述目标特征图可以为多尺度的特征图中的一个或多个,本公开实施例对其不进行具体限制。
可选地,可参照如下过程:将多个裁剪特征图缩放至预设尺度,得到预设尺度的多个裁剪特征图;逐一将各目标特征图作为当前目标特征图,以预设尺度为滑动窗口在当前目标特征图上进行滑动;将每次滑动后滑动窗口所包含的特征图与预设尺度的多个裁剪特征图中的每个裁剪特征图进行乘积运算,根据乘积运算的结果得到当前目标特征图的与多个裁剪特征图一一对应的多个相关度特征图。
为了能够对该过程更好的理解,下面以一具体实例对上述过程进行描述:若预设尺度的裁剪特征图为32*32*64的B图,当前目标特征图为64*64*128的A图。
为了简化描述,先以32*32*1的B1图和64*64*1的A1图进行说明,在A1图上以32*32为滑动窗口按照预设滑动步长进行依次滑动,每滑动一次,就能得到一个32*32的小块,该小块与32*32的B1图进行乘积运算,得到新的32*32的小块,全部滑动完成,就能得到A1图和B1图的相关度特征图,该相关度特征图的大小为64*64*1;
当计算32*32*1的B2图和64*64*128的A2图的相关度特征图时,在A2图的每一个通道上都以32*32为滑动窗口按照预设滑动步长进行依次滑动,每滑动一次,就能得到一个32*32的小块,该小块与32*32的B2图进行乘积运算,得到新的32*32的小块,所有的通道全部滑动完成后,就能得到A2图和B2图的相关度特征图,该相关度特征图的大小为64*64*128;
当计算32*32*64的B图和64*64*128的A图的相关度特征图时,32*32*64的每一维都按照上述过程分别与64*64*128计算,得到一个64*64*128的相关度特征图,然后把这64个相关度特征图加到一起,得到一个最终的64*64*128的相关度特征图,即为A图和B图的相关度特征图。
步骤S704,根据多个相关度特征图和当前目标特征图,得到当前目标特征图对应的强化特征图。
可选地,可参考图8所示的步骤S801~步骤S803执行:
步骤S801,将多个相关度特征图中的每个相关度特征图与当前目标特征图进行乘积运算,得到当前目标特征图对应的多个第一强化特征图;
进行上述乘积运算后,强化了当前目标特征图中显著性物体所对应的部分。
步骤S802,将多个第一强化特征图与当前目标特征图串联,得到当前目标特征图对应的第二强化特征图;
例如:多个第一强化特征图为两个64*64*128(分别对应图的宽W*高H*通道数C)的特征图,与64*64*128的目标特征图串联后,得到64*64*384的第二强化特征图,串联即为通道数相加。
步骤S803,获取当前目标特征图对应的位置强化特征图,并将第二强化特征图和位置强化特征图串联,得到与该目标特征图对应的强化特征图,其中,位置强化特征图的尺度与第二强化特征图的尺度相同。
可选地,可参考如下过程a)~d):
a)在目标矩阵上,基于显著性物体的初始位置确定显著性物体X方向的中心线和Y方向的中心线,目标矩阵为与第二强化特征图的尺度相同的单通道矩阵,目标矩阵各元素的值可以为0;X方向和Y方向可以预先设定,诸如与传统定义的X方向与Y方向一致,X方向为水平方向,Y方向为竖直方向,X方向与Y方向相互垂直。
b)将目标矩阵的Y方向的中心线设置为第一目标值,沿着X方向线性变换为第二目标值,得到X方向的位置强化特征图;
c)将目标矩阵的X方向的中心线设置为第一目标值,沿着Y方向线性变换为第二目标值,得到Y方向的位置强化特征图;
d)将X方向的位置强化特征图和Y方向的位置强化特征图作为位置强化特征图。
上述第一目标值可以为1,第二目标值可以为0。基于显著性物体的初始位置得到位置强化特征图的示意图如图9所示。
上述强化处理的过程(用LCB表示)可以参考图10,根据单通道的二值化特征图确定显著性物体所对应部分的定位信息(诸如,可以包括显著性物体的初始位置、像素宽度、像素高度、X方向的中心线和Y方向的中心线),进而根据定位信息,以至少两种不同扩充尺度,裁剪多尺度的特征图中最高维的特征图,得到多个裁剪特征图,同时,根据定位信息确定位置强化特征图,然后再计算多个裁剪特征图与多尺度的特征图中的当前目标特征图的相关度特征图,将相关度特征图与当前目标特征图进行乘积运算,得到的结果与当前目标特征图、当前目标特征图对应的位置强化特征图串联,最终得到当前目标特征图对应的强化特征图,从而得到各个目标特征图对应的强化特征图。
该强化特征图大大强化了其中显著性物体的特征部分,使得分割得到的显著性物体蒙版的准确度更高,精度更高。
可选地,对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版的步骤(也即前述步骤S306)可以参照如下实现:对多尺度的强化特征图进行上采样, 得到与待处理图像对应的显著性物体蒙版。另外,对多尺度的强化特征图进行上采样,得到与待处理图像对应的显著性物体蒙版包括:对不同尺度的强化特征图进行融合,进而得到与待处理图像对应的显著性物体蒙版。
在本公开实施例中,上采样融合的过程可以为:如图4所示,第五层的强化特征图(即第五层下采样后得到的特征图经过GRB处理,再经过LCB处理后得到的特征图)先要经过SRB处理(上文中已对SRB处理进行了介绍,这里不再赘述),在经过SRB处理后再进行上采样,上采样后的特征图与第四层的强化特征图相加后,再经过SRB处理,处理后再进行上采样,再上采样后的特征图与第三层的强化特征图相加后,又经过SRB处理后,最后再4倍放大得到显著性物体蒙版。
发明人对本公开的图像处理方法(用LCANet表示)与现有的显著性物体分割方法在多个公开数据集(分别有DUTS-TE数据集、ECSSD数据集、HKU-IS数据集、PASCAL-S数据集和DUT-OM数据集)上进行了训练和测试,结果如图11所示,表明采用本公开的图像处理方法对图像进行处理时,得到的显著性物体蒙版的准确度更高,精度更高(图11中,对于maxF参量来讲,其值越大说明精度越高,对于MAE参量来讲,其值越小说明精度越高)。另外,参考图12,从可视化的结果也能看出本公开的图像处理方法的准确性更好,精度更佳。图12中,GT列表示人工标注的显著性物体分割结果,LCANet列表示本公开的显著性物体分割结果,其它列表示其它方法(在每列的下方标记了对应的方法)得到的显著性物体分割结果,通过对比可知,本公开方法得到的显著性物体分割结果与人工标注的显著性物体分割结果更接近,也就说明相较于现有的其它方法本公开的方法准确性更好,具有更佳的分割效果。
进一步可选地,本公开实施例还提供了一种图像处理装置,该图像处理装置主要用于执行本公开实施例上述内容所提供的图像处理方法,以下对本公开实施例提供的图像处理装置做具体介绍。
图13是根据本公开实施例的一种图像处理装置的示意图,如图13所示,该图像处理装置主要包括:特征提取单元10,强化处理单元20和图像还原单元30,其中:
特征提取单元,配置成获取待处理图像,并对待处理图像进行特征提取,得到多尺度的特征图;
强化处理单元,配置成对多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;
图像还原单元,配置成对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版。
在本公开实施例中,首先,获取待处理图像,并对待处理图像进行特征提取,得到多 尺度的特征图;然后,对多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;最后,对多尺度的强化特征图进行图像还原,得到与待处理图像对应的显著性物体蒙版。通过上述描述可知,对多尺度的特征图中显著性物体所对应的部分进行强化处理后,得到的多尺度的强化特征图中,显著性物体所对应的特征图更加突出,最后对多尺度的强化特征图进行图像还原后,分割得到的显著性物体蒙版更加准确,精度更高,缓解了现有的显著性物体分割方法在对图像进行处理时存在的分割效果不佳的技术问题。
可选地,特征提取单元还配置成:对待处理图像进行多层下采样处理,得到多尺度的原始特征图;对多尺度的原始特征图进行优化处理,得到多尺度的特征图。
可选地,特征提取单元还配置成:对多尺度的原始特征图中的目标原始特征图进行第一优化处理,得到第一优化的特征图,其中,目标原始特征图为多尺度的原始特征图中,除最高维原始特征图以外的特征图;对多尺度的原始特征图中的最高维原始特征图进行第二优化处理,得到第二优化的特征图;将第一优化的特征图和第二优化的特征图作为多尺度的特征图。
可选地,特征提取单元还配置成:利用第一优化模块对目标原始特征图进行优化处理,得到第一初始优化的特征图,其中,第一优化模块包括:预设数个第一卷积层;将第一初始优化的特征图和其对应的目标原始特征图进行加和运算,得到第一优化的特征图。
可选地,特征提取单元还配置成:利用第二优化模块对最高维原始特征图进行优化处理,得到优化权重,其中,第二优化模块包括:第二卷积层、全局池化层和Sigmoid函数处理层;将优化权重与最高维原始特征图进行乘积运算,得到第二初始优化的特征图;将第二初始优化的特征图和最高维原始特征图进行加和运算,得到第二优化的特征图。
可选地,强化处理单元还配置成:根据多尺度的特征图得到显著性物体的初始位置;根据初始位置,以至少两种不同扩充尺度,裁剪多尺度的特征图中最高维的特征图,得到多个裁剪特征图,多个裁剪特征图中包含显著性物体的特征信息;将多尺度的特征图中的一个或多个作为目标特征图,逐一将各目标特征图作为当前目标特征图,计算多个裁剪特征图与当前目标特征图的相关度,得到当前目标特征图的与多个裁剪特征图一一对应的多个相关度特征图;根据多个相关度特征图和当前目标特征图,得到当前目标特征图对应的强化特征图。
可选地,强化处理单元还配置成:对多尺度的特征图中最高维的特征图进行降维处理,得到单通道的特征图;对单通道的特征图进行二值化处理,得到单通道的二值化特征图;根据单通道的二值化特征图确定显著性物体的初始位置。
可选地,强化处理单元还配置成:根据初始位置确定显著性物体的像素宽度和像素高 度;根据扩充尺度、像素宽度和像素高度确定扩充像素宽度和扩充像素高度;在最高维的特征图中,沿着将初始位置扩充扩充像素宽度和扩充像素高度后的位置进行裁剪。
可选地,强化处理单元还配置成:将多个裁剪特征图缩放至预设尺度,得到预设尺度的多个裁剪特征图;以预设尺度为滑动窗口在当前目标特征图上进行滑动;将每次滑动后滑动窗口所包含的特征图与预设尺度的多个裁剪特征图分别进行乘积运算,根据乘积运算的结果得到当前目标特征图的与多个裁剪特征图一一对应的多个相关度特征图。
可选地,强化处理单元还配置成:将多个相关度特征图中的每个相关度特征图与当前目标特征图进行乘积运算,得到当前目标特征图对应的多个第一强化特征图;将多个第一强化特征图与当前目标特征图串联,得到当前目标特征图对应的第二强化特征图;获取当前目标特征图对应的位置强化特征图,并将第二强化特征图和位置强化特征图串联,得到与当前目标特征图对应的强化特征图,其中,位置强化特征图的尺度与第二强化特征图的尺度相同。
可选地,强化处理单元还配置成:基于显著性物体的初始位置确定显著性物体X方向的中心线和Y方向的中心线;将Y方向的中心线设置为第一目标值,沿着X方向线性变换为第二目标值,得到X方向的位置强化特征图;将X方向的中心线设置为第一目标值,沿着Y方向线性变换为第二目标值,得到Y方向的位置强化特征图;将X方向的位置强化特征图和Y方向的位置强化特征图作为位置强化特征图。
可选地,图像还原单元还配置成:对多尺度的强化特征图进行上采样,得到与待处理图像对应的显著性物体蒙版。
本公开实施例所提供的图像处理装置,其实现原理及产生的技术效果和前述可选实施例中的方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本公开,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述可选实施例中任意实施例所述的方法的步骤。
另外,在本公开实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。
在本公开的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、 以特定的方位构造和操作,因此不能理解为对本公开的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例各个所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施例,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
工业实用性
本公开提出的技术方案中,对多尺度的特征图中显著性物体所对应的部分进行强化处 理后,得到的多尺度的强化特征图中,显著性物体所对应的特征图更加突出,最后对多尺度的强化特征图进行图像还原后,分割得到的显著性物体蒙版更加准确,精度更高,缓解了现有的显著性物体分割方法在对图像进行处理时存在的分割效果不佳的技术问题。

Claims (18)

  1. 一种图像处理方法,其特征在于,包括:
    获取待处理图像,并对所述待处理图像进行特征提取,得到多尺度的特征图;
    对所述多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;
    对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版。
  2. 根据权利要求1所述的方法,其特征在于,对所述待处理图像进行特征提取包括:
    对所述待处理图像进行多层下采样处理,得到多尺度的原始特征图;
    对所述多尺度的原始特征图进行优化处理,得到所述多尺度的特征图。
  3. 根据权利要求2所述的方法,其特征在于,对所述多尺度的原始特征图进行优化处理包括:
    对所述多尺度的原始特征图中的目标原始特征图进行第一优化处理,得到第一优化的特征图,其中,所述目标原始特征图为所述多尺度的原始特征图中,除最高维原始特征图以外的特征图;
    对所述多尺度的原始特征图中的最高维原始特征图进行第二优化处理,得到第二优化的特征图;
    将所述第一优化的特征图和所述第二优化的特征图作为所述多尺度的特征图。
  4. 根据权利要求3所述的方法,其特征在于,对所述多尺度的原始特征图中的目标原始特征图进行第一优化处理包括:
    利用第一优化模块对所述目标原始特征图进行优化处理,得到第一初始优化的特征图,其中,所述第一优化模块包括:预设数个第一卷积层;
    将所述第一初始优化的特征图和其对应的目标原始特征图进行加和运算,得到所述第一优化的特征图。
  5. 根据权利要求3或4所述的方法,其特征在于,对所述多尺度的原始特征图中的最高维原始特征图进行第二优化处理包括:
    利用第二优化模块对所述最高维原始特征图进行优化处理,得到优化权重,其中,所述第二优化模块包括:第二卷积层、全局池化层和Sigmoid函数处理层;
    将所述优化权重与所述最高维原始特征图进行乘积运算,得到第二初始优化的特征图;
    将所述第二初始优化的特征图和所述最高维原始特征图进行加和运算,得到所述第二优化的特征图。
  6. 根据权利要求1-5任一项所述的方法,其特征在于,对所述多尺度的特征图中显著 性物体所对应的部分进行强化处理包括:
    根据所述多尺度的特征图得到显著性物体的初始位置;
    根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图,得到多个裁剪特征图,所述多个裁剪特征图中包含所述显著性物体的特征信息;
    将所述多尺度的特征图中的一个或多个作为目标特征图,逐一将各所述目标特征图作为当前目标特征图,计算所述多个裁剪特征图与所述当前目标特征图的相关度,得到所述当前目标特征图的与所述多个裁剪特征图一一对应的多个相关度特征图;
    根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图。
  7. 根据权利要求6所述的方法,其特征在于,根据所述多尺度的特征图得到显著性物体的初始位置包括:
    对所述多尺度的特征图中最高维的特征图进行降维处理,得到单通道的特征图;
    对所述单通道的特征图进行二值化处理,得到单通道的二值化特征图;
    根据所述单通道的二值化特征图确定所述显著性物体的初始位置。
  8. 根据权利要求6或7所述的方法,其特征在于,根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图包括:
    根据所述初始位置确定所述显著性物体的像素宽度和像素高度;
    根据所述扩充尺度、所述像素宽度和所述像素高度确定扩充像素宽度和扩充像素高度;
    在所述最高维的特征图中,沿着将所述初始位置扩充所述扩充像素宽度和所述扩充像素高度后的位置进行裁剪。
  9. 根据权利要求6-8任一项所述的方法,其特征在于,计算所述多个裁剪特征图与所述当前目标特征图的相关度包括:
    将所述多个裁剪特征图缩放至预设尺度,得到预设尺度的多个裁剪特征图;
    以所述预设尺度为滑动窗口在所述当前目标特征图上进行滑动;
    将每次滑动后所述滑动窗口所包含的特征图与所述预设尺度的多个裁剪特征图分别进行乘积运算,根据乘积运算的结果得到当前目标特征图的与多个裁剪特征图一一对应的多个所述相关度特征图。
  10. 根据权利要求6-9任一项所述的方法,其特征在于,根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图包括:
    将所述多个相关度特征图中的每个相关度特征图与所述当前目标特征图进行乘积运算,得到所述当前目标特征图对应的多个第一强化特征图;
    将所述多个第一强化特征图与所述当前目标特征图串联,得到所述当前目标特征图对 应的第二强化特征图;
    获取所述当前目标特征图对应的位置强化特征图,并将所述第二强化特征图和所述位置强化特征图串联,得到与所述当前目标特征图对应的强化特征图,其中,所述位置强化特征图的尺度与所述第二强化特征图的尺度相同。
  11. 根据权利要求10所述的方法,其特征在于,获取所述当前目标特征图对应的位置强化特征图包括:
    基于所述显著性物体的初始位置确定所述显著性物体X方向的中心线和Y方向的中心线;
    将所述Y方向的中心线设置为第一目标值,沿着X方向线性变换为第二目标值,得到X方向的位置强化特征图;
    将所述X方向的中心线设置为所述第一目标值,沿着Y方向线性变换为所述第二目标值,得到Y方向的位置强化特征图;
    将所述X方向的位置强化特征图和所述Y方向的位置强化特征图作为所述位置强化特征图。
  12. 根据权利要求1-11任一项所述的方法,其特征在于,对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版包括:
    对所述多尺度的强化特征图进行上采样,得到与所述待处理图像对应的显著性物体蒙版。
  13. 一种图像处理装置,其特征在于,包括:
    特征提取单元,配置成获取待处理图像,并对所述待处理图像进行特征提取,得到多尺度的特征图;
    强化处理单元,配置成对所述多尺度的特征图中显著性物体所对应的部分进行强化处理,得到多尺度的强化特征图;
    图像还原单元,配置成对所述多尺度的强化特征图进行图像还原,得到与所述待处理图像对应的显著性物体蒙版。
  14. 根据权利要求13所述的装置,其特征在于,所述特征提取单元还配置成:
    对所述待处理图像进行多层下采样处理,得到多尺度的原始特征图;
    对所述多尺度的原始特征图进行优化处理,得到所述多尺度的特征图。
  15. 根据权利要求13或14所述的装置,其特征在于,所述强化处理单元还配置成:
    根据所述多尺度的特征图得到显著性物体的初始位置;
    根据所述初始位置,以至少两种不同扩充尺度,裁剪所述多尺度的特征图中最高维的特征图,得到多个裁剪特征图,所述多个裁剪特征图中包含所述显著性物体的特征信息;
    将所述多尺度的特征图中的一个或多个作为目标特征图,逐一将各所述目标特征图作为当前目标特征图,计算所述多个裁剪特征图与所述当前目标特征图的相关度,得到所述当前目标特征图的与所述多个裁剪特征图一一对应的多个相关度特征图;
    根据所述多个相关度特征图和所述当前目标特征图,得到所述当前目标特征图对应的强化特征图。
  16. 根据权利要求13至15任一项所述的装置,其特征在于,所述图像还原单元还配置成:
    对所述多尺度的强化特征图进行上采样,得到与所述待处理图像对应的显著性物体蒙版。
  17. 一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至12中任一项所述的方法的步骤。
  18. 一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至12中任一项所述的方法的步骤。
PCT/CN2021/092743 2020-08-14 2021-05-10 图像处理方法、装置、电子设备和计算机可读介质 WO2022033088A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010822524.4A CN112101376A (zh) 2020-08-14 2020-08-14 图像处理方法、装置、电子设备和计算机可读介质
CN202010822524.4 2020-08-14

Publications (1)

Publication Number Publication Date
WO2022033088A1 true WO2022033088A1 (zh) 2022-02-17

Family

ID=73753882

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/092743 WO2022033088A1 (zh) 2020-08-14 2021-05-10 图像处理方法、装置、电子设备和计算机可读介质

Country Status (2)

Country Link
CN (1) CN112101376A (zh)
WO (1) WO2022033088A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101376A (zh) * 2020-08-14 2020-12-18 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042648B2 (en) * 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
CN109359654A (zh) * 2018-09-18 2019-02-19 北京工商大学 基于频率调谐全局显著度和深度学习的图像分割方法及系统
CN109543701A (zh) * 2018-11-30 2019-03-29 长沙理工大学 视觉显著性区域检测方法及装置
CN110021031A (zh) * 2019-03-29 2019-07-16 中广核贝谷科技有限公司 一种基于图像金字塔的x射线图像增强方法
CN112101376A (zh) * 2020-08-14 2020-12-18 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8811745B2 (en) * 2010-01-20 2014-08-19 Duke University Segmentation and identification of layered structures in images
US8531542B2 (en) * 2010-09-01 2013-09-10 Apple Inc. Techniques for acquiring and processing statistics data in an image signal processor
US8922704B2 (en) * 2010-09-01 2014-12-30 Apple Inc. Techniques for collection of auto-focus statistics
US8629913B2 (en) * 2010-09-30 2014-01-14 Apple Inc. Overflow control techniques for image signal processing
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
CN109690554B (zh) * 2016-07-21 2023-12-05 西门子保健有限责任公司 用于基于人工智能的医学图像分割的方法和系统
CN109741293A (zh) * 2018-11-20 2019-05-10 武汉科技大学 显著性检测方法及装置
CN110097564B (zh) * 2019-04-04 2023-06-16 平安科技(深圳)有限公司 基于多模型融合的图像标注方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042648B2 (en) * 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
CN109359654A (zh) * 2018-09-18 2019-02-19 北京工商大学 基于频率调谐全局显著度和深度学习的图像分割方法及系统
CN109543701A (zh) * 2018-11-30 2019-03-29 长沙理工大学 视觉显著性区域检测方法及装置
CN110021031A (zh) * 2019-03-29 2019-07-16 中广核贝谷科技有限公司 一种基于图像金字塔的x射线图像增强方法
CN112101376A (zh) * 2020-08-14 2020-12-18 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN112101376A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
WO2019201035A1 (zh) 对图像中的对象节点的识别方法、装置、终端及计算机可读存储介质
CN109493350B (zh) 人像分割方法及装置
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
WO2020177651A1 (zh) 图像分割方法和图像处理装置
CN108446698B (zh) 在图像中检测文本的方法、装置、介质及电子设备
CN111104962A (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US20220230282A1 (en) Image processing method, image processing apparatus, electronic device and computer-readable storage medium
JP6044134B2 (ja) 最適画像サイズによる画像領域分割装置、方法、およびプログラム
US10277806B2 (en) Automatic image composition
WO2022217876A1 (zh) 实例分割方法及装置、电子设备及存储介质
CN109816659B (zh) 图像分割方法、装置及系统
CN109977963B (zh) 图像处理方法、设备、装置以及计算机可读介质
CN112990219B (zh) 用于图像语义分割的方法和装置
US20210209782A1 (en) Disparity estimation
US20210183014A1 (en) Determination of disparity
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN110991310A (zh) 人像检测方法、装置、电子设备及计算机可读介质
WO2022033088A1 (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN113326766B (zh) 文本检测模型的训练方法及装置、文本检测方法及装置
WO2017117743A1 (zh) 处理图像的方法和设备
CN113628181A (zh) 图像处理方法、装置、电子设备及存储介质
CN115272906A (zh) 一种基于点渲染的视频背景人像分割模型及算法
US20230325985A1 (en) Systems and methods for inpainting images at increased resolution
JP7107544B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2020077535A1 (zh) 图像语义分割方法、计算机设备和存储介质

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07.07.2023).

122 Ep: pct application non-entry in european phase

Ref document number: 21855144

Country of ref document: EP

Kind code of ref document: A1