WO2023113437A1 - 메모리를 이용하는 의미론적 영상 분할 장치 및 방법 - Google Patents

메모리를 이용하는 의미론적 영상 분할 장치 및 방법 Download PDF

Info

Publication number
WO2023113437A1
WO2023113437A1 PCT/KR2022/020264 KR2022020264W WO2023113437A1 WO 2023113437 A1 WO2023113437 A1 WO 2023113437A1 KR 2022020264 W KR2022020264 W KR 2022020264W WO 2023113437 A1 WO2023113437 A1 WO 2023113437A1
Authority
WO
WIPO (PCT)
Prior art keywords
presenter
vectors
representative
map
image
Prior art date
Application number
PCT/KR2022/020264
Other languages
English (en)
French (fr)
Inventor
손광훈
김진
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2023113437A1 publication Critical patent/WO2023113437A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a semantic image segmentation apparatus and method, and more particularly to a semantic image segmentation apparatus and method using a memory.
  • Semantic segmentation refers to a technique of segmenting an image according to the class of an object included in an input image.
  • CNNs convolutional neural networks
  • most of the existing learning algorithms were learned under the assumption that the domains of training data and test data were the same. That is, it was learned on the assumption that the images of the training data and the images of the test data were obtained under similar shooting conditions and environments.
  • images actually input to the test are obtained from a domain different from the training data. Therefore, when a domain change occurs in the test environment, it causes serious performance degradation.
  • Domain generalization technology is a technology that enables a neural network to robustly perform required operations in any domain it has never seen before.
  • a technique of erasing the style (texture, illumination) of an input image and a technique of making the style of the input image diverse have been proposed.
  • information that changes depending on the domain consists of more structural and context-dependent information, such as relationships between observers and semantic entities, in addition to the above styles. Therefore, in spite of the above method, it is difficult to learn the intrinsic representation of the semantic entity that is not dependent on the domain when the learning domain is overfitted or when different domain data is used for learning.
  • An object of the present invention is to provide a semantic image segmentation apparatus and method capable of semantically and accurately segmenting an object included in an input image regardless of a domain.
  • Another object of the present invention is to pre-store representative presenter vectors extracted from images of various domains and generalized for each class regardless of the domain in a memory, and object regions included in an input image based on the representative presenter vectors stored in the memory. It is an object of the present invention to provide a semantic image segmentation apparatus and method capable of semantically accurately classifying .
  • a semantic image segmentation apparatus is implemented as a pre-learned artificial neural network and extracts features of an applied input image through neural network operation to obtain a presenter map.
  • a memory storing representative presenters consisting of a plurality of representative presenter vectors representing generalized characteristics of each of a plurality of classes to be identified regardless of domains;
  • a weight map indicating a probability that each of the plurality of pixel vectors corresponds to each class according to the degree of similarity between each of the plurality of pixel vectors in the channel direction of the presenter map and the plurality of representative presenter vectors is combined with the presenter map to combine the presenter map.
  • a presenter combiner that obtains and performs a neural network operation on each of a plurality of pixel vectors in the channel direction of the combined presenter map to obtain a plurality of combined class vectors; and implementing a pre-learned artificial neural network to perform a neural network operation on each of the plurality of combined class vectors to identify a class of each pixel of the input image, and classify the input image for each identified class to obtain a semantic segmented image.
  • the presenter combiner reads the plurality of representative presenter vectors stored in the memory, calculates a cosine similarity between each of the plurality of pixel vectors of the presenter map and each of the plurality of representative presenter vectors, and normalizes the plurality of pixels.
  • a similarity calculating unit that calculates a weight representing a probability that each vector corresponds to each of a plurality of classes; a weight vector obtaining unit for obtaining a plurality of weight vectors for corresponding pixel vectors by weighting summing the weights calculated for each representative presenter vector; a presenter combiner combining the weight vector map composed of the plurality of weight vectors with the presenter map to obtain the combined presenter map; and a joint class vector extraction unit implemented as an artificial neural network and extracting the plurality of joint class vectors by performing a neural network operation on each pixel vector in the channel direction of the joint expressor map.
  • the semantic image segmentation device provides the learning data together with the learning image for a presenter feature map obtained by neural network operation on a presenter map extracted from a learning image of the learning data input during learning of the semantic image segmentation device.
  • a plurality of class features obtained by masking with a plurality of class masks extracted from a pre-obtained truth segmentation image, distinguishing a plurality of pixel vectors corresponding to each class in the presenter feature map, and performing average value pooling of the distinguished pixels
  • the method may further include a memory update unit configured to update the plurality of representative presenter vectors stored in the memory by performing a weighted sum of each vector and a corresponding representative presenter vector among the plurality of representative presenter vectors at a predetermined ratio.
  • the memory update unit performs a neural network operation on each pixel vector of the presenter map using an artificial neural network to extract a plurality of presenter feature vectors, and adds each of the extracted presenter feature vectors to a corresponding pixel vector of the presenter map.
  • a presenter feature map acquisition unit to obtain the presenter feature map by performing a presenter feature map;
  • a class mask acquisition unit acquiring a plurality of class masks configured in a binary mask form to detect only regions corresponding to a specific class according to the classes classified in the truth segmentation image; and masking the presenter feature map with each of the plurality of class masks to classify pixel vectors according to each class in the presenter feature map, and obtaining a plurality of class vectors by performing average value pooling on the pixel vectors classified for each class.
  • an update unit configured to store, as updated representative presenters, a plurality of representative presenter vectors obtained by a weighted sum of class vectors corresponding to each of the plurality of representative presenter vectors according to a predetermined momentum value.
  • the semantic image segmentation apparatus calculates and sums read loss representing loss for the plurality of representative expressor vectors read from the memory during learning and segmentation loss representing loss of the semantic segmented image, and back-propagates;
  • the method may further include a loss calculation unit that calculates an update loss by the updated representative presenter and back-propagates it to the memory update unit.
  • the loss calculation unit calculates the update loss so that the plurality of representative presenter vectors of the representative presenter stored in the memory are updated, so that the plurality of representative presenter vectors are spaced apart from each other in an embedding vector space, and each A truth value for identifying a class of a pixel is obtained from the truth segmentation image, and a plurality of representative presenter vectors are weighted to a plurality of pixel vectors of an upsampling presenter map obtained by upsampling a presenter map extracted from the training image.
  • the read loss may be calculated according to a weighted ratio of a truth value to a result, and a cross entropy loss between the semantic segmentation image and the truth segmentation image may be calculated as the segmentation loss.
  • the memory update unit receives the first training image of the first learning data during meta training during learning performed by being divided into meta training, meta test, and memory update, and updates a previously stored representative presenter into a simple representative presenter, and performs the meta test.
  • the first training image is re-applied, and a simplified representative descriptor is re-updated using an artificial neural network whose weight is updated according to the updated loss back-propagated by the loss calculator according to meta-training, and the first training data and A learning image of the second training data acquired in a different domain is applied, and a simple representative descriptor is re-updated using an artificial neural network whose weight is updated according to the update loss back-propagated by the loss calculation unit according to meta-training.
  • a neural network operation is performed on the first learning data using an artificial neural network whose weights are re-updated according to the update loss back-propagated by the loss calculator according to the meta-test, and the re-updated representative expressor is finally updated. can do.
  • the loss calculation unit calculates the update loss according to the update to the simple representative descriptor during the meta-training, back-propagates it to the memory update unit, calculates the read loss and the division loss separately from the update loss, and obtains a sum of the update loss. is back-propagated to the presenter combiner, and in the meta test, a secondary loss obtained by calculating and summing the lead loss and split loss according to the artificial neural network whose weight is updated by the meta training and the re-updated representative presenter. Backpropagation may be performed to the presenter combiner.
  • obtaining and performing a neural network operation on each of a plurality of pixel vectors in a channel direction of the combined expressor map with a previously learned artificial neural network to obtain a plurality of combined class vectors; And a neural network operation is performed on each of the plurality of combined class vectors using a pre-learned artificial neural network to identify a class of each pixel of the input image, and to obtain a semantic segmented image by dividing the input image according to the identified class.
  • a semantic image segmentation apparatus and method generalizes class features of objects extracted from images acquired in various domains regardless of domains during learning, stores them in a memory as a representative presenter vector, and then stores them in a memory.
  • An input image can be semantically and accurately segmented regardless of the domain based on the representative expressor vector stored in . That is, even if an input image obtained from an unknown domain that has not been learned or previously input is applied, the image can be semantically segmented.
  • FIG. 1 shows a schematic structure of a semantic image segmentation apparatus according to an embodiment of the present invention.
  • FIG. 2 shows an example of a detailed configuration of the memory update unit of FIG. 1 .
  • FIG. 3 is a diagram for explaining the operation of the memory update unit of FIG. 2 .
  • FIG. 4 shows an example of a detailed configuration of the presenter combiner of FIG. 1 .
  • FIG. 5 is a diagram for explaining the operation of the memory update unit of FIG. 4 .
  • FIG. 6 illustrates a semantic image segmentation method according to an embodiment of the present invention.
  • FIG. 7 is a diagram for explaining an operation of the image segmentation method of FIG. 6 .
  • FIG. 1 shows a schematic structure of a semantic image segmentation apparatus according to an embodiment of the present invention.
  • the semantic image segmentation apparatus includes an image acquisition unit 100, a presenter extraction unit 200, a memory update unit 300, a memory 400, and a presenter combining unit 500. ), an image segmentation unit 600 and a loss calculator 700.
  • the image acquiring unit 100 acquires an input image (x) to be divided into regions according to the class of each included object. That is, an image to be segmented semantically is obtained as an input image (x). At this time, the image acquisition unit 100 may acquire input images (x) of various domains.
  • the image acquisition unit 100 may acquire images of domains having different characteristics depending on the location where the image was captured, such as an image captured in the sea, a mountain, or a downtown area, sunny weather, cloudy weather, rainy weather, or snowy weather. It is possible to acquire images of domains having different climatic characteristics, such as the like. In addition, images of domains with different characteristics according to shooting equipment or setting conditions may be obtained. In some cases, an image synthesized using a game or simulation may be obtained as an input image (x) rather than an actual captured image. there is. Images of various domains obtained from different domains and having different styles may be obtained as input images (x).
  • the presenter extractor 200 is implemented as a pre-learned artificial neural network, receives the input image acquired by the image acquisition unit 100, and acquires a presenter map R by performing a neural network operation according to the learned method.
  • the presenter extractor 200 obtains a presenter map R by extracting features of an input image through neural network operation.
  • the neural network operation function of the presenter extractor 200 implemented as an artificial neural network having a weight ( ⁇ t ) for the image (x t ) input during the tth learning can be referred to as F(x t ; ⁇ t )
  • the presenter map (R t ) can be expressed by Equation 1.
  • the memory update unit 300 constructs a presenter feature map by performing a neural network operation on the presenter map R using the provided artificial new public network, extracting feature vectors for each of a plurality of pixel vectors of the presenter map R, and , Class vectors representing each class are extracted from the presenter feature map using a plurality of class masks obtained from the previously obtained truth segmentation image for learning, and a plurality of previously stored in the memory 400 are extracted as class vectors.
  • each representative presenter vector corresponding to the corresponding class is updated.
  • the memory update unit 300 extracts, as a class vector, features that can be stored for each class from a presenter map (R) extracted from a learning image of learning data acquired in various domains when learning an image segmentation device.
  • Representative presenter vectors (c 1 to c k ) previously stored in the memory 400 are repeatedly updated. Therefore, the memory update unit 300, after completion of training, displays a plurality of representative expressor vectors (c 1 to c k ) that are finally updated and stored in the memory 400, and do not overfit to a specific domain and represent only generalized class characteristics. It is saved as a representative presenter.
  • the memory 400 includes a representative presenter (M ⁇ ⁇ c 1 to c k ⁇ ) composed of a plurality of representative presenter vectors (c 1 to c k ) corresponding to each of a plurality of classes to be distinguished by the semantic image segmentation apparatus. ) is stored.
  • each of the plurality of representative presenter vectors (c 1 to c k ) included in the representative presenter (M) is repeatedly updated by the memory update unit 300 during learning, regardless of the domain of the input image (x). Generalized characteristics can be displayed for the corresponding class.
  • Representative presenters may include representative presenter vectors (c 1 to c k ) according to the number of classes (here, k ) that can be distinguished by the semantic image segmentation device, and a plurality of representative presenter vectors (c Initial values of 1 to c k ) may be specified and stored in advance.
  • FIG. 2 shows an example of a detailed configuration of the memory update unit of FIG. 1
  • FIG. 3 is a diagram for explaining an operation of the memory update unit of FIG. 3 .
  • the memory update unit 300 may include a presenter feature map acquisition unit 310, a class mask acquisition unit 320, and an update unit 330.
  • the presenter feature map acquisition unit 310 receives a pixel vector that is a channel direction vector for each of a plurality of pixels in the presenter map R, performs a neural network operation, extracts the presenter feature of the corresponding pixel, and extracts the presenter feature vector. is added to the corresponding pixel vector of the presenter map R to obtain a presenter feature map.
  • the presenter feature map acquisition unit 310 may include a presenter feature extractor 311 and a presenter feature adder 312 .
  • the presenter feature extraction unit 311 is implemented as an artificial neural network, performs a neural network operation on each of a plurality of pixel vectors of the presenter map R, extracts features of the corresponding pixel vector, and obtains a presenter feature vector.
  • the presenter feature adding unit 312 adds each of the plurality of presenter features obtained corresponding to each of the plurality of pixel vectors of the presenter map R in the presenter feature extraction unit 311 to the corresponding pixel vector, and expresses the result. Get the feature map.
  • the presenter feature adder 312 may construct a plurality of obtained presenter feature vectors in the form of a residual map, and then combine them with the presenter map R.
  • the class mask acquisition unit 320 receives a truth segmentation image acquired together with a training image during learning, and generates a plurality of class masks according to each class using the applied truth segmentation image.
  • the plurality of class masks are binary masks for leaving only pixel areas of a corresponding class in the presenter feature map and removing the remaining areas.
  • the update unit 330 divides the presenter feature map into regions according to classes using the plurality of class masks acquired by the class mask acquisition unit 320, extracts a class feature vector for each divided region, A representative presenter vector corresponding to a corresponding class among a plurality of representative presenter vectors (c 1 to c k ) previously stored in 400 is updated.
  • the update unit 330 may include a presenter vector acquisition unit 331 and a presenter vector update unit 332 .
  • the presenter vector acquisition unit 331 receives the presenter feature map, classifies the presenter feature map according to each class using a plurality of class masks, and masks the presenter feature map. Since each class mask is configured to leave only the corresponding class area and remove the remaining areas, the presenter feature map can be divided into a plurality of class areas according to each class by a plurality of class masks, as shown in FIG. . Accordingly, the presenter vector obtaining unit 331 averages pixel vectors corresponding to the class regions masked by each class mask in the presenter feature map, and obtains a class vector extracted as memorable information in the corresponding class. That is, the presenter vector acquisition unit 331 acquires a plurality of class vectors by performing Masked Average Pooling (MAP) on the presenter feature map using a plurality of class masks.
  • MAP Masked Average Pooling
  • the presenter vector update unit 332 weights the class vectors corresponding to each of the plurality of representative presenter vectors c 1 to c k previously stored in the memory 400 according to the predetermined momentum value m.
  • the class vector of is updated to be reflected in the stored plurality of representative expressor vectors (c 1 to c k ).
  • the momentum value (m) is a reflectance of the class vector for the representative expressor vectors (c 1 to c k ) and has a value between 0 and 1. The smaller the momentum value (m), the greater the influence of the class vector in the updated representative expressor vectors (c 1 to c k ).
  • the neural network operation function of the presenter feature extraction unit 311 can be referred to as U(R t ; ⁇ t ) , and a representative descriptor (M t ⁇ ⁇ c 1 to c k ⁇ ) including a plurality of representative descriptor vectors (c 1 to c k ) as elements can be updated as shown in Equation 2.
  • the memory updater 300 extracts a feature vector for each class area according to the pre-obtained truth segmentation image from the currently applied image (x t ), and obtains a representative descriptor (M t ) previously stored in the memory 400. Update to the updated representative presenter (M t+1 ).
  • the memory update unit 300 is provided during learning of the image segmentation device, and may be removed after the learning is completed.
  • the presenter combiner 500 uses each pixel vector of the presenter map R extracted by the presenter extractor 200 and a plurality of representative presenter vectors (c 1 ) stored in the memory 400 .
  • ⁇ c k to each of the representative presenter vectors (c 1 to c k ) and combine the memory lead map obtained by weighting the class weight (w) according to the similarity between the presenter map (R) to obtain a combined presenter map
  • Neural network operation is performed on each pixel vector in the combined presenter map to reinforce the class characteristic of each pixel vector.
  • the presenter combiner 500 extracts features from the currently input image and assigns each pixel of the presenter map R obtained to each of the representative presenter vectors c 1 to c k stored in the memory 400. By weighting the corresponding probabilities and combining them with the presenter map R, a combined presenter map expressing the relationship between each pixel of the presenter map R and a plurality of classes is obtained. Also, since the presenter combination unit 500 includes a pre-learned artificial neural network, a neural network operation is performed on each of a plurality of pixel vectors of the combined presenter map to obtain a combined class vector in which a corresponding class is emphasized.
  • FIG. 4 shows an example of a detailed configuration of the presenter combiner of FIG. 1
  • FIG. 5 is a diagram for explaining an operation of the memory update unit of FIG. 4 .
  • the presenter combiner 500 may include a similarity calculator 510, a weight vector obtainer 520, a presenter combiner 530, and a combined class vector extractor 540. .
  • the similarity calculation unit 510 receives the presenter map R from the presenter extractor 200, receives the representative presenter M t stored in the memory 400, and calculates each pixel vector of the presenter map R
  • the cosine similarity between R j ) and each of the plurality of representative presenter vectors (c 1 to c k ) of the representative presenter (M t ) is calculated, and the softmax function is used to calculate the A weight (w i,j ) indicating a probability that each pixel vector (R j ) corresponds to a representative presenter vector (c i ) can be obtained as shown in Equation 3.
  • the weight vector acquisition unit 520 calculates each representative presenter vector ( A weight vector (MR(R j )) for a corresponding pixel vector (R j ) is obtained by adding weights (w i,j ) to c i ).
  • the presenter combiner 530 constructs a weight vector map with a plurality of weight vectors (MR(R j )) acquired by the weight vector obtainer 520, and converts the constructed weight vector map into a presenter map ( R) and concatenate to obtain a concatenated presenter map.
  • MR(R j ) weight vectors
  • the joint class vector extractor 540 When the joint class vector extractor 540 is implemented as an artificial neural network and obtains a joint descriptor map, a channel direction vector according to each pixel position is applied from the acquired joint expressor map and performs neural network operation to obtain a plurality of joint class vectors; The obtained multiple combined class vectors are transferred to the image segmentation unit 600 .
  • the image segmentation unit 600 is implemented with a pre-learned artificial neural network, receives a plurality of combined class vectors from the presenter combiner 500, performs neural network operation, determines the class of each of the plurality of combined class vectors, and determines the class according to the determination result. Designate the class of the pixel position corresponding to the joint class vector as the determined class. That is, a class is assigned to each of a plurality of pixels of the input image (x), and the image is semantically segmented by dividing regions of pixels of different classes.
  • the image segmentation unit 600 receives a plurality of combined class vectors in which the generalized class characteristics are reflected at each pixel position of the presenter map R by the presenter combiner 500 and identifies the corresponding pixel class. Therefore, the input image (x) can be accurately and semantically segmented.
  • the loss calculation unit 700 may determine whether or not the semantic segmentation image segmented and output from the image segmentation unit 600 is normally segmented according to the class of the object to calculate the segmentation loss (L seg ).
  • Segmentation loss (L seg ) is a loss that is also used in the learning method of an existing semantic segmentation device, and may be calculated as a cross entropy loss. Since a method for calculating the split loss (L seg ) is known, it will not be described in detail here.
  • a plurality of representative presenter vectors (c 1 to c k ) are repeatedly updated and stored in the memory 400, and a plurality of representative presenter vectors (c 1 ) stored in the memory 400 Since semantic image segmentation is performed using ⁇ c k ), the loss calculation unit 700 updates and stores representative presenter vectors (c 1 to c k ) to represent each class. update ).
  • a plurality of representative expressor vectors should be able to represent the characteristics of each class regardless of the domain. That is, the plurality of representative presenter vectors (c 1 to c k ) must not be similar to each other, and therefore, when updating, the plurality of representative presenter vectors (c 1 to c k ) must be spaced apart from each other as much as possible in the vector space.
  • the loss calculation unit 700 calculates a plurality of representative presenter vectors (c 1 to c
  • the update loss (L update ) can be calculated according to Equation 5 so that k ) are far apart from each other.
  • the loss calculation unit 700 performs a read operation in which representative presenter vectors corresponding to the classes of each pixel of the presenter map R are accurately weighted and read from a plurality of representative presenter vectors c 1 to c k stored in the memory.
  • the loss (L read ) can be further calculated.
  • the loss calculation unit 700 acquires the truth value (y t,j ) of the j-th pixel of the training image (x t ) input at the time of the t-th learning from the truth segmentation image, and learns the presenter map (R t ) After upsampling (upsample) to the size of the image (x t ), a weighted descriptor for the result of weighting multiple representative presenter vectors (Upsample(R t ) j ) for the j th pixel
  • the read loss (L read ) can be calculated as shown in Equation 6 according to the ratio obtained by weighting the vector (Upsample(R t ) j ) with the truth value (y t,j ).
  • the loss calculation unit 700 weights the segmentation loss (L seg ) and the read loss (L read ) to obtain the image segmentation unit 600, the presenter combining unit 500, and the presenter extraction unit 200. While backpropagating to , the update loss (L update ) is calculated separately from the division loss (L seg ) and the read loss (L read ), and is independently back-propagated to the memory update unit 300 and the presenter extraction unit 200 .
  • the loss calculation unit 700 is provided together with the memory update unit 300 only during learning of the semantic image segmentation device, and may be removed after the learning is completed.
  • the memory updater 300 repeatedly cumulatively updates the representative expressor vectors (c 1 to c k ) stored in the memory 400 using features acquired for each class in training images acquired in various domains. By doing this, it is possible to store in the memory 400 representative expressor vectors (c 1 to c k ) representing generalized class characteristics according to classes without reflecting style characteristics according to domains. Then, the presenter combining unit 500 reads representative presenter vectors (c 1 to c k ) generalized and stored in the memory 400, and each pixel of the presenter map (R) extracted from the currently acquired input image (x). After weighting the vector, by identifying and classifying the class of each pixel, the input image (x) can be accurately semantically segmented regardless of the domain.
  • FIG. 6 shows a semantic image segmentation method according to an embodiment of the present invention
  • FIG. 7 is a diagram for explaining the operation of the image segmentation method of FIG. 6 .
  • the image segmentation method of this embodiment can be largely divided into a learning step and a test step.
  • the image segmentation apparatus not only includes an artificial neural network, but also requires that a representative descriptor (M) for each generalized class be pre-stored in the memory 400 regardless of the domain. do. Therefore, the image segmentation apparatus of the present embodiment determines the weight of the artificial neural network through a learning step before a test step in which an input image (x) is actually input and the image is segmented, and learning to update a representative descriptor stored in the memory 400. this should be done And, in this embodiment, the video segmentation device performs learning according to a meta-learning technique.
  • the meta-test step may include a memory update step of updating the representative presenter of the memory 400 .
  • a meta-training step is first performed during the learning step.
  • a training domain (D tr ) for meta-training is arbitrarily selected from among a plurality of training data obtained with training images and truth segmentation images in various domains, and first training data is obtained from the selected training domain (D tr ).
  • a training image (x tr ) of is selected (S11).
  • the presenter extractor 200 implemented as an artificial neural network extracts a first presenter map (R t ) by performing a neural network operation (F(x t ; ⁇ t )) on the selected first training image (x tr ). Do (S12).
  • the representative presenter (M t ) stored in the memory 400 is read, and between each pixel vector of the presenter map (R) and a plurality of representative presenter vectors (c 1 to c k ) of the representative presenter (M t ) A combined presenter map is obtained by combining the weighted vector map calculated according to the similarity with the presenter map (R) (S13).
  • step S13 of obtaining the combined presenter map in detail, each pixel vector of the presenter map (R) and a plurality of representative presenter vectors (c 1 to c k of the representative presenter M t ) read from the memory 400 are obtained. ) A plurality of weight vectors (MR ( R j )) is obtained, and a weight vector map composed of a plurality of weight vectors (MR(R j )) is combined with a presenter map (R) to obtain a combined presenter map.
  • the loss calculation unit 700 may calculate a read loss (L read ) for a plurality of weight vectors (MR(R j )) obtained based on a representative descriptor (M t ) read from the memory 400. .
  • a presenter feature map is obtained by extracting features of each pixel vector of the first presenter map (R t ) by neural network operation using an artificial neural network, and a presenter feature is obtained using a plurality of class masks obtained from a truth segmentation image.
  • a class vector representing each class in the map is obtained, and a representative presenter (M t ) previously stored in the memory 400 is converted into a simple representative presenter ( ), simple update is performed (S14).
  • the simple updating step (S14) is performed after the step of acquiring the combined presenter map (S13), but the step of acquiring the combined presenter map (S13) and the simple updating step (S14) are It can be done in parallel at the same time.
  • a presenter feature vector is extracted by performing a neural network operation with an artificial neural network on each of a plurality of pixel vectors of the first presenter map (R t ), and the extracted presenter feature vector is expressed.
  • the presenter feature map is obtained by weighting the corresponding pixel vector of the child map, and a plurality of class masks for extracting each class region from the truth segmentation image corresponding to the first training image (x tr ) are obtained.
  • Expression obtained In the feature map, a plurality of class feature vectors are obtained by average value pooling of pixel vectors of regions masked by each class mask.
  • the loss calculation unit 700 calculates that the representative presenter M t of the memory 400 is a simple representative presenter ( ), the update loss (L update ) according to the simple update can be calculated according to Equation 5.
  • a plurality of combined class vectors are obtained by neural network operation with an artificial neural network for a channel direction vector according to each pixel position in the obtained combined presenter map;
  • a first semantic segmentation image is obtained by identifying and classifying each class of the obtained plurality of combined class vectors (S15).
  • the loss calculation unit 700 may calculate a cross entropy loss between the first semantic segmentation image and the truth segmentation image as a segmentation loss (L seg ).
  • the loss calculation unit 700 backpropagates the calculated update loss (L update ) to the artificial neural network used in the process of updating the representative presenter to learn (S15).
  • the loss calculation unit 700 backpropagates the first loss, which is a combination of the calculated segmentation loss (L seg ) and the read loss (L read ), to the artificial neural network used for image segmentation separately from the artificial neural network for memory updating, thereby obtaining meta data. Training learning is performed (S17).
  • the weight ( ⁇ t ) of the artificial neural network implementing the presenter extractor 200 and the weight ( ⁇ t ) of the artificial neural network implementing the presenter feature extractor 311 by meta-training learning are ⁇ as shown in Equation 7 ' t and ⁇ ' are updated to t .
  • the weight ( ⁇ t ) of the artificial neural network implementing the image segmentation unit 600 is also updated to ⁇ ' t , but is omitted from Equation 7 for convenience of description.
  • the meta-test step is performed.
  • the meta-test step is a step of performing additional learning based on the learning results performed in the meta-training step, and first, the first learning data selected in the meta-training step is reselected (S21).
  • the first presenter map (R' t ) is re-extracted (R' t ⁇ F (x tr
  • update loss (L update ) is not applied in the meta-test stage. This is because the meta-test phase should behave the same as the actual test phase.
  • the memory update step is performed.
  • the first training image (x tr ) is additionally reselected (S31).
  • a neural network operation is performed with an artificial neural network with updated weights in the meta-test step, and a representative descriptor (M t ) stored in the memory 400 is finally updated as shown in Equation 9 (S32).
  • learning may be terminated when the calculated second loss is less than or equal to a predetermined reference loss, or when the number of repetitions of learning is greater than or equal to a predetermined reference number.
  • the first learning data is selected to be performed again from the meta-training step (S11).
  • an input image (x) to be semantically segmented is acquired (S41).
  • a presenter map (R) is extracted by performing a neural network operation (F(x; ⁇ )) with the artificial neural network trained on the obtained input image (x) (S42).
  • F(x; ⁇ ) the neural network operation
  • the representative presenter (M) last updated and stored in the memory 400 is read (S43).
  • a plurality of combined class vectors are obtained by neural network operation with an artificial neural network trained on a channel direction vector according to each pixel position in the obtained combined expressor map, and a class of each of the plurality of combined class vectors obtained.
  • Semantic segmented images for the input image (x) are obtained by identifying and classifying them by class (S45).
  • the image segmentation method of the semantic image segmentation apparatus separates a meta-training step and a meta-test step during learning, performs learning with training images of different domains, and represents representative expressions stored in the memory 400.
  • M By allowing M to store generalized class features without overfitting to a specific domain, it is possible to semantically segment an image robustly to domain changes. In particular, even if an input image obtained from a domain not used for learning or an unknown domain that has not been previously input is applied, the image can be semantically segmented.
  • the method according to the present invention may be implemented as a computer program stored in a medium for execution on a computer.
  • computer readable media may be any available media that can be accessed by a computer, and may also include all computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, including read-only memory (ROM) dedicated memory), random access memory (RAM), compact disk (CD)-ROM, digital video disk (DVD)-ROM, magnetic tape, floppy disk, optical data storage device, and the like.

Abstract

본 발명은 미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부, 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리, 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 표현자맵과 결합하여 결합 표현자맵을 획득하고, 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부 및 미리 학습된 인공 신경망으로 구현되어 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함하여, 메모리에 저장된 대표 표현자 벡터를 기반으로 도메인에 무관하게 입력되는 영상을 의미론적으로 정확하게 분할할 수 있으므로, 학습되지 않았거나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있는 의미론적 영상 분할 장치 및 방법을 제공한다.

Description

메모리를 이용하는 의미론적 영상 분할 장치 및 방법
본 발명은 의미론적 영상 분할 장치 및 방법에 관한 것으로, 메모리를 이용하는 의미론적 영상 분할 장치 및 방법에 관한 것이다.
의미론적 영상 분할(semantic segmentation)은 입력되는 영상에 포함된 객체의 클래스 별에 따라 영상을 분할하는 것을 기법을 의미한다. 최근의 지도학습을 통한 합성곱 신경망(CNN)의 발전과 함께 의미론적 영상 분할에서 우수한 성능 향상을 이룰 수 있었다. 그러나 대부분의 기존 학습 알고리즘들은 학습 데이터와 테스트 데이터의 도메인이 같다고 가정하고 학습되었다. 즉 학습 데이터의 영상과 테스트 데이터의 영상이 유사한 촬영 조건 및 환경에서 획득된 영상인 것으로 가정하여 학습되었다. 그러나 실제로 테스트에 입력되는 영상은 학습 데이터와 상이한 도메인에서 획득되는 경우가 많다. 따라서 테스트 환경에서 도메인 변화가 나타나는 경우 심각한 성능 저하를 유발하였다.
이와 같은 도메인 변화 이슈는 실제 세상(real world)에서 자율주행(autonomous driving) 그리고 의료영상 등 사람의 역할을 대신하는 작업의 경우 치명적으로 작용한다. 실제 세상의 데이터는 다양한 조도, 날씨, 그리고 위치의 변화에 따른 예상하지 못한 이미지들로 구성되어 있기 때문이다. 실제 세상에서 의미론적 영상 분할의 영상과 정답을 만들기 위해 많은 시간과 돈이 필요하다. 따라서 모든 종류의 다양한 환경에서의 데이터를 수집하기란 불가능에 가깝다. 이를 위해 최근에는 가상환경(i.e. 게임 시뮬레이션 등)을 통해 다양한 환경에서의 의미론적 영상 분할 입력 영상과 정답을 쉽게 취득하는 방법이 제안되었다. 그럼에도 가상환경과 실제 영상의 데이터 분포가 애초에 많이 다르다는 문제와 제한된 학습 데이터로 실제 세상의 전체 데이터 분포를 모델링 해야 한다는 문제가 남는다.
이를 해결하기 위하여 최근에 도메인 일반화 기술이 개발되었다. 도메인 일반화 기술은 신경망이 이전에 본적 없는 임의의 도메인에서도 강인하게 요구되는 동작을 수행할 수 있도록 만드는 기술이다. 의미론적 영상 분할에서의 도메인 일반화를 위해 입력 영상의 스타일(texture, illumination)을 지우는 기술과 입력 영상의 스타일을 다양하게 만드는 기술이 제안되었다. 하지만 도메인에 따라 바뀌는 정보는 위와 같은 스타일 외에도 관찰자나 의미론적 개체 간의 관계처럼 더 구조적이고 문맥 의존적인 정보로 구성되어 있다. 따라서 위와 같은 방법에도 불구하고 학습 도메인에 과적합 되거나 서로 다른 도메인 데이터를 학습에 사용했을 때 도메인에 의존적이지 않은 의미론적 개체의 본질적인(intrinsic) 표현자를 학습하는데 어려움을 보이고 있다.
본 발명의 목적은 도메인에 무관하게 입력되는 영상에 포함된 객체를 의미론적으로 정확하게 분할할 수 있는 의미론적 영상 분할 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 다양한 도메인의 영상에서 추출되어 도메인에 무관하게 클래스별로 일반화된 대표 표현자 벡터가 메모리에 미리 저장되고, 메모리에 저장된 대표 표현자 벡터에 기반하여 입력된 영상에 포함된 객체 영역을 의미론적으로 정확하게 분류할 수 있는 의미론적 영상 분할 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 의미론적 영상 분할 장치는 미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부; 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리; 상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부; 및 미리 학습된 인공 신경망으로 구현되어 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함한다.
상기 표현자 결합부는 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 리드하고, 상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 유사도 계산부; 각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 가중 벡터 획득부; 상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 표현자 결합부; 및 인공 신경망으로 구현되어 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 결합 클래스 벡터 추출부를 포함할 수 있다.
상기 의미론적 영상 분할 장치는 상기 의미론적 영상 분할 장치의 학습 시에 입력되는 학습 데이터의 학습 영상에서 추출된 표현자맵에 대해 신경망 연산으로 획득되는 표현자 특징맵에 대해 상기 학습 영상과 함께 상기 학습 데이터로 미리 획득된 진리 분할 영상에서 추출되는 다수의 클래스 마스크로 마스킹하여, 상기 표현자 특징맵에서 각 클래스에 대응하는 다수의 픽셀 벡터들을 구분하고, 구분된 픽셀들을 평균값 풀링하여 획득되는 다수의 클래스 특징 벡터 각각과 상기 다수의 대표 표현자 벡터 중 대응하는 대표 표현자 벡터를 기지정된 비율로 가중합하여 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 업데이트하는 메모리 업데이트부를 더 포함할 수 있다.
상기 메모리 업데이트부는 인공 신경망을 이용하여 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 상기 표현자 특징맵을 획득하는 표현자 특징맵 획득부; 상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 클래스 마스크 획득부; 및 상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하며, 상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트된 대표 표현자로서 저장하는 업데이트부를 포함할 수 있다.
상기 의미론적 영상 분할 장치는 학습 시에 결합되어 상기 메모리에서 리드된 상기 다수의 대표 표현자 벡터에 대한 손실을 나타내는 리드 손실과 상기 의미론적 분할 영상의 손실을 나타내는 분할 손실을 계산하고 합하여 역전파하고, 업데이트된 대표 표현자 의한 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하는 손실 계산부를 더 포함할 수 있다.
상기 손실 계산부는 상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 업데이트될 때, 임베딩 벡터 공간에서 상기 다수의 대표 표현자 벡터가 서로 이격되도록 상기 업데이트 손실을 계산하고, 입력되는 학습 영상에서 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 상기 리드 손실을 계산하며, 상기 의미론적 분할 영상과 상기 진리 분할 영상 사이의 크로스 엔트로피 손실을 상기 분할 손실로 계산할 수 있다.
상기 메모리 업데이트부는 메타 트레이닝, 메타 테스트 및 메모리 업데이트로 구분되어 수행되는 학습 중 상기 메타 트레이닝 시에 제1 학습 데이터의 제1 학습 영상를 인가받아 이전 저장된 대표 표현자를 간이 대표 표현자로 업데이트하고, 상기 메타 테스트 시에 상기 제1 학습 영상을 다시 인가받아 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고, 상기 제1 학습 데이터와 상이한 도메인에서 획득된 제2 학습 데이터의 학습 영상을 인가받고, 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하며, 상기 메모리 업데이트 시에 상기 메타 테스트에 따라 상기 손실 계산부에서 다시 역전파된 업데이트 손실에 따라 가중치가 재업데이트된 인공 신경망을 이용하여 상기 제1 학습 데이터에 대해 신경망 연산하여 재업데이트된 대표 표현자를 최종 업데이트할 수 있다.
상기 손실 계산부는 상기 메타 트레이닝 시에 간이 대표 표현자로 업데이트됨에 따른 상기 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하고, 상기 업데이트 손실과 별도로 상기 리드 손실 및 상기 분할 손실을 계산하고 합하여 획득되는 1차 손실을 상기 표현자 결합부로 역전파하며, 상기 메타 테스트 시에 상기 메타 트레이닝에 의해 가중치가 업데이트된 인공 신경망과 재업데이트된 대표 표현자에 따른 리드 손실 및 분할 손실을 계산하고 합하여 획득되는 2차 손실을 상기 표현자 결합부로 역전파할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 의미론적 영상 분할 방법은 미리 학습된 인공 신경망을 이용하여 입력되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 단계; 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리에서 상기 다수의 대표 표현자 벡터를 리드하는 단계; 상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 미리 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 단계; 및 미리 학습된 인공 신경망을 이용하여 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 단계를 포함한다.
본 발명의 실시예에 따른 의미론적 영상 분할 장치 및 방법은 학습 시에 다양한 도메인에서 획득된 영상에서 추출된 객체의 클래스 특징을 도메인에 무관하게 일반화하여 대표 표현자 벡터로서 메모리에 저장하고, 이후 메모리에 저장된 대표 표현자 벡터를 기반으로 도메인에 무관하게 입력되는 영상을 의미론적으로 정확하게 분할할 수 있다. 즉 학습되지 않았거나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있다.
도 1은 본 발명의 일 실시예에 따른 의미론적 영상 분할 장치의 개략적 구조를 나타낸다.
도 2는 도 1의 메모리 업데이트부의 상세 구성의 일 예를 나타낸다.
도 3은 도 2의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.
도 4는 도 1의 표현자 결합부의 상세 구성의 일 예를 나타낸다.
도 5는 도 4의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법을 나타낸다.
도 7은 도 6의 영상 분할 방법의 동작을 설명하기 위한 도면이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 의미론적 영상 분할 장치의 개략적 구조를 나타낸다.
도 1을 참조하면, 본 실시예에 따른 의미론적 영상 분할 장치는 영상 획득부(100), 표현자 추출부(200), 메모리 업데이트부(300), 메모리(400), 표현자 결합부(500), 영상 분할부(600) 및 손실 계산부(700)를 포함할 수 있다.
영상 획득부(100)는 포함된 각 객체의 클래스에 따라 영역이 구분될 입력 영상(x)을 획득한다. 즉 의미론적으로 분할되어야 하는 영상을 입력 영상(x)으로 획득한다. 이때 영상 획득부(100)는 다양한 도메인의 입력 영상(x)을 획득할 수 있다.
예로서 영상 획득부(100)는 바다나, 산 또는 도심에서 촬영된 영상과 같이 촬영된 장소에 따른 특성이 서로 상이한 도메인의 영상을 획득할 수 있으며, 맑은 날씨나 흐린 날씨, 비오는 날씨 또는 눈오는 날씨 등과 같이 기후적이 특성이 상이한 도메인의 영상을 획득할 수 있다. 또한 촬영 장비나 설정 조건에 따른 특성이 상이한 도메인의 영상을 획득할 수도 있으며, 경우에 따라서는 실제 촬영된 영상이 아니라 게임이나 시뮬레이션 등을 이용하여 합성된 영상을 입력 영상(x)으로 획득할 수도 있다. 죽 서로 상이한 도메인에서 획득되어 서로 다른 스타일을 갖는 다양한 도메인의 영상을 입력 영상(x)으로 획득할 수 있다.
표현자 추출부(200)는 미리 학습된 인공 신경망으로 구현되어, 영상 획득부(100)가 획득한 입력 영상을 인가받아 학습된 방식에 따라 신경망 연산을 수행하여 표현자맵(R)을 획득한다. 표현자 추출부(200)는 신경망 연산으로 입력 영상의 특징을 추출하여 표현자맵(R)을 획득한다.
여기서 t번째 학습 시에 입력되는 영상(xt)에 대해 가중치(Ψt)를 갖는 인공 신경망으로 구현되는 표현자 추출부(200)의 신경망 연산 함수를 F(xt; Ψt)라 할 수 있으며, 표현자맵(Rt)은 수학식 1로 표현될 수 있다.
Figure PCTKR2022020264-appb-img-000001
메모리 업데이트부(300)는 구비된 인공 신공망을 이용하여 표현자맵(R)에 대해 신경망 연산하여 표현자맵(R)의 다수의 픽셀 벡터 각각에 대한 특징 벡터를 추출하여 표현자 특징맵을 구성하고, 학습을 위해 미리 획득된 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여 표현자 특징맵에서 각 클래스를 대표하는 클래스 벡터를 추출하며, 추출된 클래스 벡터로 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c1 ~ ck) 중 대응하는 클래스에 해당하는 대표 표현자 벡터 각각을 업데이트한다.
본 실시예에서 메모리 업데이트부(300)는 영상 분할 장치의 학습 시에, 다양한 도메인에서 획득된 학습 데이터의 학습 영상에서 추출된 표현자맵(R)으로부터 각 클래스별로 저장할 만한 특징을 클래스 벡터로서 추출하여 메모리(400)에 이전 저장된 대표 표현자 벡터(c1 ~ ck)를 반복적으로 업데이트한다. 따라서 메모리 업데이트부(300)는 학습 종료 후 메모리(400)에 최종 업데이트되어 저장된 다수의 대표 표현자 벡터(c1 ~ ck) 각각이 특정 도메인에 과적합되지 않고 일반화된 클래스의 특성만을 표현하는 대표 표현자로 저장되도록 한다.
메모리(400)는 의미론적 영상 분할 장치가 구분해야 하는 다수의 클래스 각각에 대응하는 다수의 대표 표현자 벡터(c1 ~ ck)로 구성되는 대표 표현자(M ∋ {c1 ~ ck})를 저장한다. 여기서 대표 표현자(M)에 포함되는 다수의 대표 표현자 벡터(c1 ~ ck) 각각은 학습 시에 메모리 업데이트부(300)에 의해 반복적으로 업데이트되어 입력 영상(x)의 도메인에 무관하게 대응하는 클래스에 대해서 일반화된 특징을 나타낼 수 있다.
대표 표현자(M)는 의미론적 영상 분할 장치가 구분할 수 있는 클래스의 개수(여기서는 k)에 따른 대표 표현자 벡터(c1 ~ ck)를 포함할 수 있으며, 다수의 대표 표현자 벡터(c1 ~ ck)의 초기값은 미리 지정되어 저장될 수 있다.
도 2는 도 1의 메모리 업데이트부의 상세 구성의 일 예를 나타내고, 도 3은 도 3의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.
도 2를 참조하면, 메모리 업데이트부(300)는 표현자 특징맵 획득부(310), 클래스 마스크 획득부(320) 및 업데이트부(330)를 포함할 수 있다.
표현자 특징맵 획득부(310)는 표현자맵(R)에서 다수의 픽셀 각각에 대한 채널 방향 벡터인 픽셀 벡터를 인가받아 신경망 연산하여 해당 픽셀의 표현자의 특징을 추출하고, 추출된 표현자 특징 벡터를 표현자맵(R)의 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득한다.
표현자 특징맵 획득부(310)는 표현자 특징 추출부(311) 및 표현자 특징 가산부(312)를 포함할 수 있다. 표현자 특징 추출부(311)는 인공 신경망으로 구현되고, 표현자맵(R)의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여, 해당 픽셀 벡터의 특징을 추출하여 표현자 특징 벡터를 획득한다. 그리고 표현자 특징 가산부(312)는 표현자 특징 추출부(311)에서 표현자맵(R)의 다수의 픽셀 벡터 각각에 대응하여 획득된 다수의 표현자 특징 각각을 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득한다. 이때 표현자 특징 가산부(312)는 도 3에 도시된 바와 같이 획득된 다수의 표현자 특징 벡터를 잔차(Residual)맵 형태로 구성한 후, 표현자맵(R)과 결합할 수도 있다.
한편, 클래스 마스크 획득부(320)는 학습 시에 학습 영상과 함께 획득되는 진리 분할 영상을 인가받고, 인가된 진리 분할 영상을 이용하여 각 클래스에 따른 다수의 클래스 마스크를 생성한다. 여기서 다수의 클래스 마스크는 도 3에 도시된 바와 같이, 표현자 특징맵에서 대응하는 클래스의 픽셀 영역만이 남겨지고 나머지 영역은 제거되도록 하기 위한 이진 마스크이다.
업데이트부(330)는 클래스 마스크 획득부(320)에서 획득된 다수의 클래스 마스크를 이용하여 표현자 특징맵을 클래스에 따라 영역을 구분하고, 구분된 각 영역에 대한 클래스 특징 벡터를 추출하여, 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c1 ~ ck) 중 대응하는 클래스에 해당하는 대표 표현자 벡터를 업데이트한다.
업데이트부(330)는 표현자 벡터 획득부(331)와 표현자 벡터 업데이트부(332)를 포함할 수 있다.
표현자 벡터 획득부(331)는 표현자 특징맵을 인가받고, 다수의 클래스 마스크 각각을 이용하여 표현자 특징맵을 각 클래스에 따라 구분하여 마스킹한다. 각 클래스 마스크가 대응하는 클래스 영역만을 남기고 나머지 영역을 제거하도록 구성되므로, 표현자 특징맵은 도 3에 도시된 바와 같이, 다수의 클래스 마스크에 의해 각 클래스에 따른 다수의 클래스 영역으로 구분될 수 있다. 이에 표현자 벡터 획득부(331)는 표현자 특징맵에서 각 클래스 마스크에 의해 마스킹된 클래스 영역에 해당하는 픽셀 벡터들을 평균값 풀링하여 해당 클래스에서 기억할만한 정보로 추출된 클래스 벡터를 획득한다. 즉 표현자 벡터 획득부(331)는 다수의 클래스 마스크를 이용하여 표현자 특징맵에 대해 MAP(Masked Average Pooling)를 수행하여 다수의 클래스 벡터를 획득한다.
표현자 벡터 업데이트부(332)는 미리 지정된 모멘텀 값(m)에 따라 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c1 ~ ck) 각각에 대응하는 클래스 벡터를 가중합하여 획득된 다수의 클래스 벡터가 저장된 다수의 대표 표현자 벡터(c1 ~ ck)에 반영되도록 업데이트한다. 여기서 모멘텀 값(m)은 대표 표현자 벡터(c1 ~ ck)에 대한 클래스 벡터의 반영율로서 0 ~ 1 사이의 값을 갖는다. 모멘텀 값(m)이 작을수록 업데이트된 대표 표현자 벡터(c1 ~ ck)에서 클래스 벡터의 영향력이 증가한다. 따라서 모멘텀 값(m)이 너무 작으면, 클래스 벡터에 의한 대표 표현자 벡터(c1 ~ ck)의 변화가 크게 발생하여, 업데이트된 대표 표현자 벡터(c1 ~ ck)의 특성이 현재 입력된 영상의 도메인에 편중될 수 있다. 반면, 모멘텀 값(m)이 너무 크면, 업데이트된 대표 표현자 벡터(c1 ~ ck)의 변화가 미미하여 학습 시간이 길어질 수 있다. 이에 본 실시예에서는 모멘텀 값(m)이 일 예로 0.8(m = 0.8)로 설정되는 것으로 가정한다.
t번째 학습에서 표현자 특징 추출부(311)가 가중치(Θt)를 갖는 인공 신경망으로 구현되면, 표현자 특징 추출부(311)의 신경망 연산 함수를 U(Rt; Θt)라 할 수 있으며, 다수의 대표 표현자 벡터(c1 ~ ck)를 원소로 포함하는 대표 표현자(Mt ∋ {c1 ~ ck})는 수학식 2와 같이 업데이트 될 수 있다.
Figure PCTKR2022020264-appb-img-000002
결과적으로 메모리 업데이트부(300)는 현재 인가된 영상(xt)에서 미리 획득된 진리 분할 영상에 따른 클래스 영역별 특징 벡터를 추출하여, 메모리(400)에 이전 저장된 대표 표현자(Mt)를 업데이트된 대표 표현자(Mt+1)로 업데이트한다.
메모리 업데이트부(300)는 영상 분할 장치의 학습 시에 구비되고, 학습이 종료된 이후에는 제거될 수 있다.
다시 도 1을 참조하면, 표현자 결합부(500)는 표현자 추출부(200)에서 추출된 표현자맵(R)의 각 픽셀 벡터와 메모리(400)에 저장된 다수의 대표 표현자 벡터(c1 ~ ck) 사이의 유사도에 따른 클래스 가중치(w)를 대표 표현자 벡터(c1 ~ ck)각각에 가중합하여 획득되는 메모리 리드맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득하고, 결합 표현자맵에서 각 픽셀 벡터에 대해 신경망 연산하여 각 픽셀 벡터의 클래스 특성이 강화되도록 한다.
즉 표현자 결합부(500)는 현재 입력된 입력 영상에서의 특징을 추출하여 획득된 표현자맵(R)의 각 픽셀이 메모리(400)에 저장된 대표 표현자 벡터(c1 ~ ck) 각각에 대응할 확률을 가중하여 표현자맵(R)에 결합함으로써 표현자맵(R)의 각 픽셀과 다수의 클래스 사이의 관계를 표현하는 결합 표현자맵을 획득한다. 그리고 표현자 결합부(500) 또한 미리 학습된 인공 신경망을 포함함으로써, 결합 표현자맵의 다수의 픽셀 벡터 각각에 대해 신경망 연산을 하여 대응하는 클래스가 강조되는 결합 클래스 벡터를 획득한다.
도 4는 도 1의 표현자 결합부의 상세 구성의 일 예를 나타내고, 도 5는 도 4의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 표현자 결합부(500)는 유사도 계산부(510), 가중 벡터 획득부(520), 표현자 결합부(530) 및 결합 클래스 벡터 추출부(540)를 포함할 수 있다.
유사도 계산부(510)는 표현자 추출부(200)로부터 표현자맵(R)을 인가받고, 메모리(400)에 저장된 대표 표현자(Mt)를 인가받아 표현자맵(R)의 각 픽셀 벡터(Rj)와 대표 표현자(Mt)의 다수의 대표 표현자 벡터(c1 ~ ck) 각각 사이의 코사인 유사도를 계산하고, 소프트맥스(softmax) 함수로 연산하여, 표현자맵(R)의 각 픽셀 벡터(Rj)가 대표 표현자 벡터(ci)가 대응할 확률을 나타내는 가중치(wi,j)를 수학식 3과 같이 획득할 수 있다.
Figure PCTKR2022020264-appb-img-000003
그리고 가중 벡터 획득부(520)는 각 픽셀 벡터(Rj)의 각 대표 표현자 벡터(ci)에 대한 가중치(wi,j)가 계산되면, 수학식 4와 같이 각 대표 표현자 벡터(ci)에 대한 가중치(wi,j)를 가중합하여 해당 픽셀 벡터(Rj)에 대한 가중 벡터(MR(Rj))를 획득한다.
Figure PCTKR2022020264-appb-img-000004
표현자 결합부(530)는 도 5에서와 같이 가중 벡터 획득부(520)에서 획득된 다수의 가중 벡터(MR(Rj))로 가중 벡터맵을 구성하고, 구성된 가중 벡터맵을 표현자맵(R)과 결합(Concatenate)하여 결합 표현자맵을 획득한다.
결합 클래스 벡터 추출부(540)는 인공 신경망으로 구현되어 결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터를 인가받아 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터를 영상 분할부(600)로 전달한다.
영상 분할부(600)는 미리 학습된 인공 신경망으로 구현되어 표현자 결합부(500)로부터 다수의 결합 클래스 벡터를 인가받아 신경망 연산하여 다수의 결합 클래스 벡터 각각의 클래스를 판별하고, 판별 결과에 따라 결합 클래스 벡터에 대응하는 픽셀 위치의 클래스를 판별된 클래스로 지정한다. 즉 입력 영상(x)의 다수의 픽셀 각각에 클래스를 지정하고, 서로 다른 클래스의 픽셀들의 영역을 구분함으로써 영상을 의미론적으로 분할한다.
본 실시예에서 영상 분할부(600)는 표현자 결합부(500)에 의해 표현자맵(R)의 각 픽셀 위치에서 일반화된 클래스 특성이 반영된 다수의 결합 클래스 벡터를 인가받아 해당 픽셀의 클래스를 식별하므로, 입력된 영상(x)을 정확하게 의미론적으로 분할할 수 있다.
손실 계산부(700)는 영상 분할부(600)에서 분할되어 출력된 의미론적 분할 영상이 객체의 클래스에 따라 정상적으로 분할되었는지 여부를 판별하여 분할 손실(Lseg)을 계산할 수 있다. 분할 손실(Lseg)은 기존의 의미론적 분할 장치의 학습 방법에서도 이용되는 손실로서 크로스 엔트로피 손실(cross entropy loss)로 계산될 수 있다. 분할 손실(Lseg)을 계산하는 방식은 공지되어 있으므로 여기서는 상세하게 설명하지 않는다.
다만 본 실시예의 의미론적 영상 분할 장치에서는 메모리(400)에 다수의 대표 표현자 벡터(c1 ~ ck)가 반복 업데이트되어 저장되고, 메모리(400)에 저장된 다수의 대표 표현자 벡터(c1 ~ ck)를 이용하여 의미론적 영상 분할을 수행하므로, 손실 계산부(700)는 업데이트되어 저장되는 대표 표현자 벡터(c1 ~ ck)가 각 클래스를 대표할 수 있도록 하는 업데이트 손실(Lupdate)을 계산한다.
상기한 바와 같이, 다수의 대표 표현자 벡터(c1 ~ ck)는 도메인에 무관하게 각 클래스의 특징을 대표할 수 있어야 한다. 즉 다수의 대표 표현자 벡터(c1 ~ ck)는 서로 유사하지 않아야 하며, 따라서 업데이트 시에 다수의 대표 표현자 벡터(c1 ~ ck)는 벡터 공간 상에서 서로 최대한 이격되어야 한다.
이에 손실 계산부(700)는 t번째 학습 시에 메모리(400)에 저장된 대표 표현자(Mt)가 메모리 업데이트부(300)가 의해 업데이트될 때, 다수의 대표 표현자 벡터(c1 ~ ck)가 서로 멀어지도록 수학식 5에 따라 업데이트 손실(Lupdate)을 계산할 수 있다.
Figure PCTKR2022020264-appb-img-000005
또한 손실 계산부(700)는 메모리에 저장된 다수의 대표 표현자 벡터(c1 ~ ck)에서 표현자맵(R)의 각 픽셀의 클래스에 대응하는 대표 표현자 벡터가 정확하게 가중되어 리드되도록 하는 리드 손실(Lread)을 더 계산할 수 있다.
손실 계산부(700)는 t번째 학습 시에 입력되는 학습 영상(xt)의 j번째 픽셀에 대한 진리값(yt,j)을 진리 분할 영상으로부터 획득하고, 표현자맵(Rt)을 학습 영상(xt)의 크기로 업샘플링(upsample)한 이후, j번째 픽셀에 대한 표현자 벡터(Upsample(Rt)j)에 다수의 대표 표현자 벡터를 가중한 결과에 대비하여 가중한 표현자 벡터(Upsample(Rt)j)에 진리값(yt,j)을 가중한 비율에 따라 수학식 6과 같이 리드 손실(Lread)을 계산할 수 있다.
Figure PCTKR2022020264-appb-img-000006
다만 본 실시예에서 손실 계산부(700)는 분할 손실(Lseg)과 리드 손실(Lread)을 가중합하여 영상 분할부(600), 표현자 결합부(500) 및 표현자 추출부(200)로 역전파하는 반면, 업데이트 손실(Lupdate)은 분할 손실(Lseg)과 리드 손실(Lread)과 별도로 계산되어 독립적으로 메모리 업데이트부(300) 및 표현자 추출부(200)로 역전파된다.
손실 계산부(700)는 메모리 업데이트부(300)와 함께 의미론적 영상 분할 장치의 학습 시에만 구비되고, 학습이 종료된 이후에는 제거될 수 있다.
기존의 의미론적 영상 분할 장치에서는 학습 영상과 입력 영상의 도메인이 상이한 경우, 도메인의 차이로 인해 영상에서 스타일 특성이 상이하게 발생되지만, 각 영상의 스타일 특성과 클래스 특성을 구분되지 않아 동일 클래스의 객체일지라도 다른 클래스로 인식하거나 서로 다른 클래스의 객체를 동일 클래스로 잘못 식별하여 영상 분할이 비정상적으로 수행되는 경우가 빈번하게 발생하였다.
그러나 본 실시예에서는 메모리 업데이트부(300)가 다양한 도메인에서 획득된 학습 영상에서 클래스별로 획득된 특징을 이용하여 메모리(400)에 저장된 대표 표현자 벡터(c1 ~ ck)를 반복적으로 누적 업데이트함으로써, 도메인에 따른 스타일 특성이 반영되지 않고 클래스에 따라 일반화된 클래스 특성을 나타내는 대표 표현자 벡터(c1 ~ ck)를 메모리(400)에 저장할 수 있다. 그리고 표현자 결합부(500)는 메모리(400)에 일반화되어 저장된 대표 표현자 벡터(c1 ~ ck)를 리드하여 현재 획득된 입력 영상(x)에서 추출된 표현자맵(R)의 각 픽셀 벡터에 가중한 후, 각 픽셀의 클래스를 식별하여 구분함으로써 도메인에 무관하게 입력 영상(x)을 정확하게 의미론적으로 분할할 수 있다.
도 6은 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법을 나타내고, 도 7은 도 6의 영상 분할 방법의 동작을 설명하기 위한 도면이다.
본 실시예의 영상 분할 방법은 크게 학습 단계와 테스트 단계로 구분될 수 있다.
상기한 바와 같이, 본 실시예에 따른 영상 분할 장치는 인공 신경망을 포함하여 구성될 뿐만 아니라, 도메인에 무관하게 일반화된 각 클래스에 대한 대표 표현자(M)가 메모리(400)에 미리 저장되어 있어야 한다. 따라서 본 실시예의 영상 분할 장치는 실제로 입력 영상(x)이 입력되어 영상을 분할하는 테스트 단계 이전에 학습 단계를 통해 인공 신경망의 가중치를 결정하고 메모리(400)에 저장되는 대표 표현자를 업데이트하기 위한 학습이 수행되어야 한다. 그리고 본 실시예에서는 영상 분할 장치가 메타 학습(Meta-learning) 기법에 따라 학습이 수행된다. 메타 학습 기법에서는 기존의 인공 신경망 학습 기법과 달리 메타 트레이닝 단계와 메타 테스팅 단계의 2단계 동작이 반복되는 방식으로 학습이 수행된다. 또한 본 실시예에서 메타 테스트 단계에서는 메모리(400)의 대표 표현자를 업데이트하는 메모리 업데이트 단계가 포함될 수 있다.
도 6 및 도 7을 참조하면, 우선 학습 단계 중 메타 트레이닝 단계를 수행한다. 메타 트레이닝 단계에서는 먼저 다양한 도메인에서 학습 영상과 진리 분할 영상이 함께 획득된 다수의 학습 데이터 중에서 메타 트레이닝을 위한 트레이닝 도메인(Dtr)을 임의로 선택하고, 선택된 트레이닝 도메인(Dtr)에서 제1 학습 데이터의 학습 영상(xtr)을 선택한다(S11). 그리고 인공 신경망으로 구현되는 표현자 추출부(200)가 선택된 제1 학습 영상(xtr)에 대해 신경망 연산(F(xtt))을 수행하여 제1 표현자맵(Rt)을 추출한다(S12).
이에 메모리(400)에 저장된 대표 표현자(Mt)를 리드하고, 표현자맵(R)의 각 픽셀 벡터와 대표 표현자(Mt)의 다수의 대표 표현자 벡터(c1 ~ ck) 사이의 유사도에 따라 계산되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다(S13).
결합 표현자맵을 획득하는 단계(S13)는 구체적으로 표현자맵(R)의 각 픽셀 벡터와 메모리(400)에서 리드된 대표 표현자(Mt)의 다수의 대표 표현자 벡터(c1 ~ ck) 각각 사이의 코사인 유사도를 계산하고 소프트맥스함수로 정규화하여, 각 픽셀 벡터가 다수의 대표 표현자 벡터(c1 ~ ck) 각각에 따른 클래스에 대응할 확률을 나타내는 다수의 가중 벡터(MR(Rj))를 획득하고, 다수의 가중 벡터(MR(Rj))로 구성되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다.
이때 손실 계산부(700)는 메모리(400)에서 리드된 대표 표현자(Mt)를 기반으로 획득되는 다수의 가중 벡터(MR(Rj))에 대한 리드 손실(Lread)을 계산할 수 있다.
한편, 제1 표현자맵(Rt)의 각 픽셀 벡터에 대한 특징을 인공 신경망으로 신경망 연산하여 추출함으로써 표현자 특징맵을 획득하고, 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여 표현자 특징맵에서 각 클래스를 대표하는 클래스 벡터를 획득하며, 획득된 클래스 벡터를 이용하여 메모리(400)에 이전 저장된 대표 표현자(Mt)를 간이 대표 표현자(
Figure PCTKR2022020264-appb-img-000007
)로 간이 업데이트한다(S14). 도 6에서는 편의를 위하여 결합 표현자맵을 획득하는 단계(S13) 이후 간이 업데이트하는 단계(S14)가 수행되는 것으로 도시하였으나, 결합 표현자맵을 획득하는 단계(S13)와 간이 업데이트하는 단계(S14)는 동시에 병렬로 수행될 수 있다.
간이 업데이트하는 단계(S14)는 구체적으로 제1 표현자맵(Rt)의 다수의 픽셀 벡터 각각에 대해 인공 신경망으로 신경망 연산을 수행하여 표현자 특징 벡터를 추출하고, 추출된 표현자 특징 벡터를 표현자맵의 대응하는 픽셀 벡터에 가중하여 표현자 특징맵을 획득하며, 제1 학습 영상(xtr)에 대응하는 진리 분할 영상로부터 각 클래스 영역을 추출하기 위한 다수의 클래스 마스크를 획득하여, 획득된 표현자 특징맵에서 각 클래스 마스크에 의해 마스킹 되는 영역의 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 특징 벡터를 획득한다. 그리고 획득된 다수의 클래스 특징 벡터 각각과 메모리(400)에 저장된 대표 표현자(Mt ∋ {c1 ~ ck})의 다수의 대표 표현자 벡터(c1 ~ ck) 중 대응하는 대표 표현자 벡터를 미리 지정된 모멘텀 값(m)에 따라 가중합하여, 대표 표현자(Mt)를 간이 대표 표현자(
Figure PCTKR2022020264-appb-img-000008
)로 간이 업데이트한다(S14).
이때 손실 계산부(700)는 메모리(400)의 대표 표현자(Mt)가 간이 대표 표현자(
Figure PCTKR2022020264-appb-img-000009
)로 간이 업데이트됨에 따른 업데이트 손실(Lupdate)을 수학식 5에 따라 계산할 수 있다.
그리고 결합 표현자맵을 획득하는 단계(S13)에서 결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터에 대해 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터 각각의 클래스를 식별하여 클래스별로 구분함으로써, 제1 의미론적 분할 영상을 획득한다(S15).
이때 손실 계산부(700)는 제1 의미론적 분할 영상과 진리 분할 영상 사이의 크로스 엔트로피 손실(cross entropy loss)을 분할 손실(Lseg)로서 계산할 수 있다.
이후 손실 계산부(700)는 계산된 업데이트 손실(Lupdate)을 대표 표현자를 업데이트하는 과정에 이용된 인공 신경망으로 역전파하여 학습시킨다(S15).
또한 손실 계산부(700)는 계산된 분할 손실(Lseg)과 리드 손실(Lread)을 결합한 1차 손실을 메모리 업데이트를 위한 인공 신경망과 별도로 영상 분할을 위해 이용된 인공 신경망으로 역전파하여 메타 트레이닝 학습을 수행한다(S17).
메타 트레이닝 학습에 의해 표현자 추출부(200)를 구현하는 인공 신경망의 가중치(Ψt)와 표현자 특징 추출부(311)를 구현하는 인공 신경망의 가중치(Θt)는 수학식 7과 같이 Ψ't 와 Θ't 로 업데이트된다.
Figure PCTKR2022020264-appb-img-000010
이때 영상 분할부(600)를 구현하는 인공 신경망의 가중치(Φt)도 함께 Φ't 로 업데이트되지만 설명의 편의를 위하여 수학식 7에서는 생략하였다.
한편, 메타 트레이닝 단계가 수행되면, 메타 테스트 단계를 수행한다.
메타 테스트 단계는 메타 트레이닝 단계에서 수행된 학습 결과를 기반으로 추가 학습을 수행하는 단계로서, 우선 메타 트레이닝 단계에서 선택된 제1 학습 데이터를 재선택한다(S21). 그리고 메타 트레이닝 단계에서 업데이트된 가중치(Ψ't)를 갖는 인공 신경망을 이용하여 재선택된 제1 학습 데이터에 대해 신경망 연산을 하여 제1 표현자맵(R't)을 재추출(R't ← F(xtr|Ψ't))하고, 재추출된 제1 표현자맵(R't)과 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여, 메모리(400)에 간이 업데이트되어 저장된 간이 대표 표현자(
Figure PCTKR2022020264-appb-img-000011
)를 대표 표현자(M't)로 업데이트(M't ← U(R't, M't;Θ't))한다(S22).
Figure PCTKR2022020264-appb-img-000012
다만 메타 테스트 단계에서 업데이트 손실(Lupdate)이 적용되지 않는다. 이는 메타 테스트 단계가 실제 테스트 단계에서와 동일하게 동작해야 하기 때문이다.
따라서 메타 테스트 단계가 수행된 이후, 메모리 업데이트 단계가 수행된다. 메모리 업데이트 단계에서는 제1 학습 영상(xtr)을 추가적으로 재선택한다(S31). 그리고 추가 재선택된 제1 학습 영상(xtr)에 대해 메타 테스트 탄계에서 가중치가 업데이트된 인공 신경망으로 신경망 연산하여 메모리(400)에 저장된 대표 표현자(Mt)를 수학식 9와 같이 최종 업데이트한다(S32).
Figure PCTKR2022020264-appb-img-000013
메타 트레이닝 단계와 메타 테스트 단계 및 메모리 업데이트 단계를 통해 t번째 학습이 완료되면 학습 종료 여부를 판별한다(S33). 여기서 학습은 계산된 제2 손실이 기지정된 기준 손실 이하이거나, 반복 수행된 학습 횟수가 기지정된 기준 횟수 이상이면 종료될 수 있다.
만일 학습이 종료되지 않은 것으로 판별되면, 다시 메타 트레이닝 단계부터 수행하기 위해 제1 학습 데이터를 선택한다(S11). 그러나 학습이 종료된 것으로 판별되면, 의미론적으로 분할되어야 하는 입력 영상(x)을 획득한다(S41). 그리고 획득된 입력 영상(x)에 대해 학습된 인공 신경망으로 신경망 연산(F(x;Ψ))을 수행하여 표현자맵(R)을 추출한다(S42). 표현자맵(R)이 추출되면, 메모리(400)에 최종 업데이트되어 저장된 대표 표현자(M)를 리드한다(S43). 이후 표현자맵(R)의 각 픽셀 벡터와 대표 표현자(Mt의 다수의 대표 표현자 벡터(c1 ~ ck) 사이의 유사도에 따라 계산되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다(S44).
결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터에 대해 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터 각각의 클래스를 식별하여 클래스별로 구분함으로써, 입력 영상(x)에 대한 의미론적 분할 영상을 획득한다(S45).
결과적으로 본 실시예에 따른 의미론적 영상 분할 장치의 영상 분할 방법은 학습 시에 메타 트레이닝 단계와 메타 테스트 단계를 구분하여 서로 다른 도메인의 학습 영상으로 학습을 수행하여 메모리(400)에 저장되는 대표 표현자(M)가 특정 도메인에 과적합되지 않고 일반화된 클래스 특징을 저장하도록 함으로써, 도메인 변화에 강건하게 영상을 의미론적으로 분할할 수 있도록 한다. 특히 학습에 이용되지 않은 도메인이나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있다.
본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (18)

  1. 미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부;
    도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리;
    상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부; 및
    미리 학습된 인공 신경망으로 구현되어 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함하는 의미론적 영상 분할 장치.
  2. 제1항에 있어서, 상기 표현자 결합부는
    상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 리드하고, 상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 유사도 계산부;
    각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 가중 벡터 획득부;
    상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 표현자 결합부; 및
    인공 신경망으로 구현되어 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 결합 클래스 벡터 추출부를 포함하는 의미론적 영상 분할 장치.
  3. 제2항에 있어서, 상기 의미론적 영상 분할 장치는
    상기 의미론적 영상 분할 장치의 학습 시에 입력되는 학습 데이터의 학습 영상에서 추출된 표현자맵에 대해 신경망 연산으로 획득되는 표현자 특징맵에 대해 상기 학습 영상과 함께 상기 학습 데이터로 미리 획득된 진리 분할 영상에서 추출되는 다수의 클래스 마스크로 마스킹하여, 상기 표현자 특징맵에서 각 클래스에 대응하는 다수의 픽셀 벡터들을 구분하고, 구분된 픽셀들을 평균값 풀링하여 획득되는 다수의 클래스 특징 벡터 각각과 상기 다수의 대표 표현자 벡터 중 대응하는 대표 표현자 벡터를 기지정된 비율로 가중합하여 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 업데이트하는 메모리 업데이트부를 더 포함하는 의미론적 영상 분할 장치.
  4. 제3항에 있어서, 상기 메모리 업데이트부는
    인공 신경망을 이용하여 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 상기 표현자 특징맵을 획득하는 표현자 특징맵 획득부;
    상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 클래스 마스크 획득부; 및
    상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하며, 상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트된 대표 표현자로서 저장하는 업데이트부를 포함하는 의미론적 영상 분할 장치.
  5. 제3항에 있어서, 상기 의미론적 영상 분할 장치는
    학습 시에 결합되어 상기 메모리에서 리드된 상기 다수의 대표 표현자 벡터에 대한 손실을 나타내는 리드 손실과 상기 의미론적 분할 영상의 손실을 나타내는 분할 손실을 계산하고 합하여 역전파하고, 업데이트된 대표 표현자 의한 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하는 손실 계산부를 더 포함하는 의미론적 영상 분할 장치.
  6. 제5항에 있어서, 상기 손실 계산부는
    상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 업데이트될 때, 임베딩 벡터 공간에서 상기 다수의 대표 표현자 벡터가 서로 이격되도록 상기 업데이트 손실을 계산하고,
    입력되는 학습 영상에서 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 상기 리드 손실을 계산하며,
    상기 의미론적 분할 영상과 상기 진리 분할 영상 사이의 크로스 엔트로피 손실을 상기 분할 손실로 계산하는 의미론적 영상 분할 장치.
  7. 제5항에 있어서, 상기 메모리 업데이트부는
    메타 트레이닝, 메타 테스트 및 메모리 업데이트로 구분되어 수행되는 학습 중 상기 메타 트레이닝 시에 제1 학습 데이터의 제1 학습 영상를 인가받아 이전 저장된 대표 표현자를 간이 대표 표현자로 업데이트하고,
    상기 메타 테스트 시에 상기 제1 학습 영상을 다시 인가받아 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고,
    상기 제1 학습 데이터와 상이한 도메인에서 획득된 제2 학습 데이터의 학습 영상을 인가받고, 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하며,
    상기 메모리 업데이트 시에 상기 메타 테스트에 따라 상기 손실 계산부에서 다시 역전파된 업데이트 손실에 따라 가중치가 재업데이트된 인공 신경망을 이용하여 상기 제1 학습 데이터에 대해 신경망 연산하여 재업데이트된 대표 표현자를 최종 업데이트하는 의미론적 영상 분할 장치.
  8. 제7항에 있어서, 상기 손실 계산부는
    상기 메타 트레이닝 시에 간이 대표 표현자로 업데이트됨에 따른 상기 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하고, 상기 업데이트 손실과 별도로 상기 리드 손실 및 상기 분할 손실을 계산하고 합하여 획득되는 1차 손실을 상기 표현자 결합부로 역전파하며,
    상기 메타 테스트 시에 상기 메타 트레이닝에 의해 가중치가 업데이트된 인공 신경망과 재업데이트된 대표 표현자에 따른 리드 손실 및 분할 손실을 계산하고 합하여 획득되는 2차 손실을 상기 표현자 결합부로 역전파하는 의미론적 영상 분할 장치.
  9. 제6항에 있어서, 상기 손실 계산부는
    상기 업데이트 손실(Lupdate)을 수학식
    Figure PCTKR2022020264-appb-img-000014
    (여기서 Mt[ci]와 Mt[cj] 는 각각 t번째 학습 시에 메모리에 저장된 대표 표현자(Mt)에 포함된 i 및 j번째 클래스에 대한 대표 표현자 벡터를 나타낸다.)
    에 따라 계산하고,
    상기 리드 손실(Lread)을 수학식
    Figure PCTKR2022020264-appb-img-000015
    (여기서 yt,j 는 t번째 학습 영상의 j번째 픽셀에 대한 진리값을 나타내고, Upsample(Rt)j 는 업샘플링 표현자맵(Upsample(Rt))의 j번째 픽셀 벡터를 나타낸다.)
    에 따라 계산하는 의미론적 영상 분할 장치.
  10. 미리 학습된 인공 신경망을 이용하여 입력되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 단계;
    도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리에서 상기 다수의 대표 표현자 벡터를 리드하는 단계;
    상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 미리 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 단계; 및
    미리 학습된 인공 신경망을 이용하여 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 단계를 포함하는 의미론적 영상 분할 방법.
  11. 제10항에 있어서, 상기 다수의 결합 클래스 벡터를 획득하는 단계는
    상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 단계;
    각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 단계;
    상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 단계; 및
    인공 신경망을 이용하여 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 단계를 포함하는 의미론적 영상 분할 방법.
  12. 제11항에 있어서, 상기 의미론적 영상 분할 방법은
    상기 표현자맵을 획득하는 단계 이전 수행되는 학습 단계를 더 포함하고,
    상기 학습 단계는
    제1 학습 데이터의 제1 학습 영상을 인가받아 제1 표현자맵을 추출하고 상기 메모리에 저장된 대표 표현자를 리드하여 상기 제1 학습 영상에 대한 제1 분할 영상을 획득하고, 상기 제1 표현자맵과 상기 제1 학습 데이터의 진리 분할 영상을 이용하여 상기 메모리에 저장된 상기 대표 표현자를 간이 대표 표현자로 업데이트하며, 상기 간이 대표 표현자로의 업데이트에 대한 업데이트 손실과 획득된 제1 분할 영상에 대한 1차 손실을 계산하여 역전파하는 메타 트레이닝 단계;
    상기 제1 학습 영상를 다시 인가받아 상기 메타 트레이닝 단계에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고, 상기 제1 학습 데이터와 다른 도메인에서 획득된 제2 학습 데이터의 제2 학습 영상을 인가받아, 메타 트레이닝 단계에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 제2 분할 영상을 다시 획득하며, 다시 획득된 제2 분할 영상에 대한 2차 손실을 계산하여 역전파하는 메타 테스트 단계; 및
    상기 제1 학습 영상을 다시 인가받아 이용하여 간이 대표 표현자에서 재업데이트된 대표 표현자를 최종 업데이트하는 메모리 업데이트 단계를 포함하는 의미론적 영상 분할 방법.
  13. 제12항에 있어서, 상기 메타 트레이닝 단계는
    상기 제1 학습 영상을 인가받아 인공 신경망으로 신경망 연산하여 상기 제1 표현자맵을 추출하는 단계;
    상기 메모리에 저장된 대표 표현자를 리드하고, 리드된 대표 표현자의 다수의 대표 표현자 벡터와 상기 제1 표현자맵을 기반으로 상기 제1 분할 영상을 획득하는 단계;
    상기 제1 학습 데이터의 진리 분할 영상을 이용하여 상기 제1 표현자맵의 각 클래스별 영역을 구분하고 구분된 클래스별 영역의 특징을 추출하여 상기 메모리에 저장된 상기 대표 표현자를 간이 대표 표현자로 업데이트하는 단계;
    상기 간이 대표 표현자에 포함된 다수의 대표 표현자 벡터로부터 업데이트 손실을 계산하여 역전파하는 단계; 및
    상기 제1 표현자맵과 상기 대표 표현자에 포함된 다수의 대표 표현자 벡터 사이의 관계에 따른 리드 손실과 상기 제1 학습 데이터의 진리 분할 영상과 상기 제1 분할 영상 사이의 차이에 따른 분할 손실을 계산하고, 상기 리드 손실과 상기 분할 손실을 합하여 상기 1차 손실을 계산하고 역전파하는 단계를 포함하는 의미론적 영상 분할 방법.
  14. 제13항에 있어서, 상기 간이 대표 표현자로 업데이트하는 단계는
    상기 제1 학습 영상에서 추출된 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득하는 단계;
    상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 단계;
    상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하는 단계;
    상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트여 상기 간이 대표 표현자를 획득하고, 획득된 상기 간이 대표 표현자를 상기 메모리에 저장하는 단계를 포함하는 의미론적 영상 분할 방법.
  15. 제14항에 있어서, 상기 메타 테스트 단계는
    상기 제1 학습 영상을 재인가받아 상기 메타 트레이닝 단계에서 가중치가 업데이트된 인공 신경망을 이용하여 상기 메모리에 저장된 간이 대표 표현자를 재업데이트하는 단계;
    상기 제2 학습 영상을 인가받아 가중치가 업데이트된 인공 신경망으로 신경망 연산하여 제2 표현자맵을 추출하는 단계;
    상기 메모리에 재업데이트되어 저장된 대표 표현자를 리드하고, 리드된 대표 표현자의 다수의 대표 표현자 벡터와 상기 제2 표현자맵을 기반으로 상기 제2 분할 영상을 획득하는 단계; 및
    상기 제2 표현자맵과 재업데이트되어 저장된 대표 표현자에 포함된 다수의 대표 표현자 벡터 사이의 관계에 따른 리드 손실과 상기 제2 학습 데이터의 진리 분할 영상과 상기 제2 분할 영상 사이의 차이에 따른 분할 손실을 계산하고, 상기 리드 손실과 상기 분할 손실을 합하여 상기 2차 손실을 계산하고 역전파하는 단계를 포함하는 의미론적 영상 분할 방법.
  16. 제15항에 있어서, 상기 업데이트 손실(Lupdate)은
    상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 임베딩 벡터 공간에서 서로 이격되도록 수학식
    Figure PCTKR2022020264-appb-img-000016
    (여기서 Mt[ci]와 Mt[cj] 는 각각 t번째 학습 시에 메모리에 저장된 대표 표현자(Mt)에 포함된 i 및 j번째 클래스에 대한 대표 표현자 벡터를 나타낸다.)
    에 따라 계산되는 의미론적 영상 분할 방법.
  17. 제15항에 있어서, 상기 리드 손실(Lread)은
    입력되는 학습 영상의 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 수학식
    Figure PCTKR2022020264-appb-img-000017
    (여기서 yt,j 는 t번째 학습 영상의 j번째 픽셀에 대한 진리값을 나타내고, Upsample(Rt)j 는 업샘플링 표현자맵(Upsample(Rt))의 j번째 픽셀 벡터를 나타낸다.)
    에 따라 계산되는 의미론적 영상 분할 방법.
  18. 제15항에 있어서, 상기 분할 손실(Lseg)은
    입력되는 학습 영상에서 획득된 의미론적 분할 영상과 진리 분할 영상 사이의 크로스 엔트로피 손실로 계산되는 의미론적 영상 분할 방법.
PCT/KR2022/020264 2021-12-15 2022-12-13 메모리를 이용하는 의미론적 영상 분할 장치 및 방법 WO2023113437A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210179588A KR20230090648A (ko) 2021-12-15 2021-12-15 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
KR10-2021-0179588 2021-12-15

Publications (1)

Publication Number Publication Date
WO2023113437A1 true WO2023113437A1 (ko) 2023-06-22

Family

ID=86773025

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/020264 WO2023113437A1 (ko) 2021-12-15 2022-12-13 메모리를 이용하는 의미론적 영상 분할 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20230090648A (ko)
WO (1) WO2023113437A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222419A (ja) * 2001-01-29 2002-08-09 Olympus Optical Co Ltd 画像領域分割装置及びその方法ならびに処理プログラムが記録された記録媒体
KR102097742B1 (ko) * 2019-07-31 2020-04-06 주식회사 딥노이드 인공지능 기반의 의료영상 검색 시스템 및 그 구동방법
US20210224573A1 (en) * 2016-07-28 2021-07-22 Google Llc Domain separation neural networks
KR102335702B1 (ko) * 2020-11-24 2021-12-06 연세대학교 산학협력단 도메인 적응형 의미론적 영상 분할 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461998B2 (en) 2019-09-25 2022-10-04 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222419A (ja) * 2001-01-29 2002-08-09 Olympus Optical Co Ltd 画像領域分割装置及びその方法ならびに処理プログラムが記録された記録媒体
US20210224573A1 (en) * 2016-07-28 2021-07-22 Google Llc Domain separation neural networks
KR102097742B1 (ko) * 2019-07-31 2020-04-06 주식회사 딥노이드 인공지능 기반의 의료영상 검색 시스템 및 그 구동방법
KR102335702B1 (ko) * 2020-11-24 2021-12-06 연세대학교 산학협력단 도메인 적응형 의미론적 영상 분할 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI YUNSHENG; YUAN LU; VASCONCELOS NUNO: "Bidirectional Learning for Domain Adaptation of Semantic Segmentation", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 6929 - 6938, XP033687344, DOI: 10.1109/CVPR.2019.00710 *

Also Published As

Publication number Publication date
KR20230090648A (ko) 2023-06-22

Similar Documents

Publication Publication Date Title
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
EP3461290A1 (en) Learning model for salient facial region detection
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
WO2021230457A1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
WO2020122456A1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2021241804A1 (ko) 다중 플로우 기반 프레임 보간 장치 및 방법
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2019093599A1 (ko) 사용자 관심 정보 생성 장치 및 그 방법
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2021010671A2 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2020159241A1 (ko) 이미지를 처리하기 위한 방법 및 그에 따른 장치
WO2024080791A1 (ko) 데이터셋을 생성하기 위한 방법
WO2023113437A1 (ko) 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
WO2024019337A1 (en) Video enhancement method and apparatus
WO2021172674A1 (ko) 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법
CN113205507A (zh) 一种视觉问答方法、系统及服务器
CN116310293B (zh) 一种基于弱监督学习的生成高质量候选框目标检测方法
WO2023210914A1 (en) Method for knowledge distillation and model generation
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2023096011A1 (ko) 제로샷 시맨틱 분할 장치 및 방법
CN115661597A (zh) 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22907904

Country of ref document: EP

Kind code of ref document: A1