KR20200058297A - Method and device for explainable few-shot image classification - Google Patents

Method and device for explainable few-shot image classification Download PDF

Info

Publication number
KR20200058297A
KR20200058297A KR1020190145029A KR20190145029A KR20200058297A KR 20200058297 A KR20200058297 A KR 20200058297A KR 1020190145029 A KR1020190145029 A KR 1020190145029A KR 20190145029 A KR20190145029 A KR 20190145029A KR 20200058297 A KR20200058297 A KR 20200058297A
Authority
KR
South Korea
Prior art keywords
image
shot
generator
potential
variable
Prior art date
Application number
KR1020190145029A
Other languages
Korean (ko)
Other versions
KR102316678B1 (en
KR102316678B9 (en
Inventor
석흥일
윤지석
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of KR20200058297A publication Critical patent/KR20200058297A/en
Application granted granted Critical
Publication of KR102316678B1 publication Critical patent/KR102316678B1/en
Publication of KR102316678B9 publication Critical patent/KR102316678B9/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are a method and a device for classifying explainable few-shot images. According to the present invention, the device for classifying explainable few-shot images comprises: a generative adversarial network that is composed of a generator including a latent space generator generating latent variables for an actual image by using the actual image as input and an image generator generating a virtual artificial image by using a random latent variable as input, and a discriminator calculating and outputting a probability that the artificial image belongs to the actual image; and a few-shot training part that classifies whether a first image and a second image different from each other have the same entity by using the trained latent space generator, and generates an image for qualitative evaluation of few-shot training by combining latent variables for each of the first image and the second image.

Description

설명 가능한 소수샷 영상 분류 방법 및 장치{Method and device for explainable few-shot image classification}Method and device for explainable few-shot image classification}

본 발명은 설명 가능한 소수샷 영상 분류 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for classifying a small number of shot images.

소수샷 학습(Few-shot Learning)이란 소수의 학습 데이터만 활용할 수 있는 환경에서 주어진 문제를 풀 수 있는 모델 학습 방법으로, 인공지능 분야에서 높은 난도를 지닌다.Few-shot learning is a model learning method that can solve a given problem in an environment where only a small amount of training data can be used, and has high difficulty in the field of artificial intelligence.

소수샷 학습이 풀고자 하는 문제는 아주 다양하지만, 최근에는 영상을 분류하고자 하는 연구가 활발히 이루어지고 있다.The problems that minor shot learning attempts to solve are very diverse, but recently, studies to classify images have been actively conducted.

영상 분류(Image classification)란 사물, 동물, 인물, 의료 영상 등 영상의 개체(Class)를 분류하는 것으로서, 영상의 질과 양, 개체의 수에 따라 문제의 난이도가 바뀐다.Image classification is to classify objects (Classes) of images, such as objects, animals, people, and medical images, and the difficulty of the problem changes according to the quality, quantity, and number of objects.

최근 기계학습을 이용한 영상 분류는 눈부신 성능 향상을 보여주었지만, 소수샷 학습은 소수의 학습 데이터만 활용할 수 있어서 성능 향상에 어려움을 가진다.Recently, image classification using machine learning showed a remarkable improvement in performance, but minor shot training has difficulty in improving performance because only a small amount of training data can be utilized.

이에, 데이터의 특성 및 은닉 정보(Hidden information)를 투사한 잠재 공간(latent space)을 생성하고, 이를 소수샷 학습에 사용하는 방법을 고려할 수 있다.Accordingly, it is possible to consider a method of generating a latent space projecting characteristics of data and hidden information and using it for learning a small number of shots.

하지만, 소수샷 학습 환경에서 잠재 공간을 생성하는 연구는 아직 미비한 실정이며, 적은 수의 데이터로 생성된 잠재 공간은 과다 적합(Overfit) 현상이 일어나기 쉽다.However, studies for generating latent space in a small-shot learning environment are still incomplete, and latent space generated with a small number of data is likely to overfit.

최근 연구 중 적대적 생성 신경망(Generative Adversarial Networks; GAN)은 처음 본 데이터에 더욱 일반화된 잠재 공간을 생성할 수 있다.During recent research, hostile adversarial networks (GANs) can generate more generalized latent spaces in the data seen first.

이에 적대적 생성 신경망과 같은 방법을 이용하여 더욱 일반화된 잠재 공간을 생성하여 소수샷 학습 성능을 높이는 방법에 관한 연구가 필요한 실정이다. Accordingly, there is a need for research on a method of generating a more generalized latent space using a method such as a hostile generation neural network to increase the performance of learning a small number of shots.

소수샷 학습의 정의를 서술한 비특허문헌 1: [Li, F., Fergus, R., Perona, P.,“Few-shot learning of object categories,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006]에 따르면, 분류하려는 영상의 개체(Class)당 소수 개의 학습 데이터가 존재하는 환경에서의 학습을 소수샷 학습이라 정의한다. 다만, 분류하지 않을 개체의 데이터 개수는 제한하지 않는다. 예를 들어, 고양이 영상과 강아지 영상을 분류하는 원샷(One-shot) 학습에서는 고양이 영상 1장, 강아지 영상 1장, 그 외 영상 여러 장을 학습 데이터로 사용할 수 있다.Non-patent Document 1: [Li, F., Fergus, R., Perona, P., “Few-shot learning of object categories,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28 , Issue 4, April 2006], learning in an environment in which a small number of learning data per class of an image to be classified exists exists is defined as minority shot learning. However, the number of data of objects that are not classified is not limited. For example, in a one-shot learning classifying cat images and dog images, one cat image, one dog image, and several other images may be used as learning data.

매우 극단적인 데이터 개수를 극복하기 위해 한국공개특허공보 10-2018-0120478은 적대적 생성 신경망(Generative Adversarial Networks; GAN)을 사용하여 데이터를 인공적으로 생성해내는 방법을 제안했다. 다만, 위 문헌은 데이터 생성 방법만을 제안하였고 영상 분류와 같은 문제 해결에는 부적합하다. In order to overcome a very extreme number of data, Korean Patent Publication No. 10-2018-0120478 proposed a method for artificially generating data using hostile adversarial networks (GAN). However, the above document suggested only a data generation method and is not suitable for solving problems such as image classification.

1. [Li, F., Fergus, R., & Perona, P.,“Few-shot learning of object categories,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006]1. [Li, F., Fergus, R., & Perona, P., “Few-shot learning of object categories,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006] 2. [Dumoulin, V., Belghazi, I., Poole, B., Mastropietro, O., Lamb, A., Arjovsky, M., & Courville, A., “Adversarially learned inference,” ICLR, 2017]2. [Dumoulin, V., Belghazi, I., Poole, B., Mastropietro, O., Lamb, A., Arjovsky, M., & Courville, A., “Adversarially learned inference,” ICLR, 2017]

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 데이터의 은닉 정보(Hidden information)가 투사된 잠재 공간을 생성하고, 생성된 잠재 공간을 통해 소수샷 학습의 정량적인 성능을 향상하며, 잠재 공간을 복호화함으로써 소수샷 학습의 설명 및 정성적 평가를 가능하게 하는 설명 가능한 소수샷 영상 분류 방법 및 장치를 제안하고자 한다. In order to solve the above-mentioned problems of the prior art, the present invention creates a latent space in which hidden information of data is projected, improves quantitative performance of learning a small number of shots through the generated latent space, and latent space Describes a method and apparatus for classifying a fractional shot image that can be explained and qualitative evaluation of fractional shot learning by decoding.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 설명 가능한 소수샷 영상 분류 장치로서, 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 잠재 공간 생성기 및 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 영상 생성기를 포함하는 생성기 및 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하여 출력하는 판별기로 구성되는 적대적 생성 신경망; 및 학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 소수샷 학습부를 포함하는 설명 가능한 소수샷 영상 분류 장치가 제공된다. In order to achieve the above object, according to an embodiment of the present invention, as a descriptive fractional shot image classification apparatus, a potential space generator and a random potential generating a potential variable for the real image by using the real image as an input An adversary generating neural network consisting of a generator including an image generator for generating a virtual artificial image by taking a variable as input, and a discriminator for calculating and outputting a probability that the artificial image belongs to the real image; And classifying whether different first and second images have the same entity using the latent spatial generator where learning has been completed, and combining latent variables for each of the first and second images to synthesize a small number of shots. An explainable fractional shot image classification apparatus including a fractional shot learning unit generating an image for qualitative evaluation is provided.

상기 소수샷 학습부는, 상기 제1 영상을 입력으로 하여 상기 제1 잠재 변수를 생성하는 제1 잠재 공간 생성기; 상기 제2 영상을 입력으로 하여 상기 제2 잠재 변수를 생성하는 제2 잠재 공간 생성기; 및 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 벡터형 데이터로 출력하는 합성기를 포함할 수 있다. The fractional shot learning unit may include a first potential space generator generating the first potential variable by using the first image as an input; A second potential space generator that generates the second potential variable by using the second image as an input; And a synthesizer that synthesizes the first latent variable and the second latent variable and outputs it as vector data.

상기 합성기는, 상기 벡터형 데이터는 일부 요소(element)는 개체의 분류에 사용되고, 나머지는 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 생성한 제3 잠재 변수일 수 있다. In the synthesizer, the vector type data may be a third latent variable generated by synthesizing the first latent variable and the second latent variable while some elements are used for classification of the individual.

상기 소수샷 합성부는, 상기 적대적 신경 생성망에서 학습이 완료되며, 상기 제3 잠재 변수를 입력으로 하여 영상을 생성하는 영상 생성기를 포함할 수 있다. The fractional shot synthesizing unit may include an image generator that completes learning in the hostile neural network and generates an image using the third potential variable as an input.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치의 설명 가능한 소수샷 영상 분류 방법으로서, 적대적 생성 신경망의 잠재적 공간 생성기가 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 단계; 적대적 생성 신경망의 영상 생성기가 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 단계; 적대적 생성 신경망의 판별기가 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하는 단계; 학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하는 단계; 및 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 단계를 포함하는 설명 가능한 소수샷 영상 분류 방법이 제공된다. According to another aspect of the present invention, a method for classifying a small number of shot images of a device including a processor and a memory, wherein the potential spatial generator of the hostile generating neural network inputs a real image to generate a latent variable for the real image ; Generating a virtual artificial image by inputting a random latent variable as an image generator of the hostile generating neural network; A discriminator of a hostile generating neural network calculating a probability that the artificial image belongs to the real image; Classifying whether different first images and second images have the same entity using the latent spatial generator having completed learning; And generating an image for qualitative evaluation of the learning of the minority shot by synthesizing potential variables for each of the first image and the second image.

본 발명에 따르면, 인공지능의 가장 큰 단점 중 하나인 설명 가능성에 소수샷 학습에 대한 접근 방법을 제시한다.According to the present invention, an approach to learning a small number of shots is presented to explainability, which is one of the biggest drawbacks of artificial intelligence.

본 발명은 잠재 공간을 활용함으로써 일반적인 영상 분류에서 할 수 없는 정성적 평가를 할 수 있는 장점이 있다. The present invention has an advantage in that it is possible to perform qualitative evaluation that cannot be performed in general image classification by utilizing the latent space.

도 1은 본 발명의 바람직한 일 실시예에 따른 소수샷 영상 분류 시스템을 도시한 도면이다.
도 2는 본 발명의 적대적 생성 신경망의 상세 구성을 도시한 도면이다.
도 3은 본 실시예에 따른 생성기의 상세 구성을 도시한 도면이다.
도 4는 본 실시예에 따른 소수샷 학습부의 상세 구성을 도시한 도면이다.
도 5는 본 실시예에 따른 분류기의 상세 구성을 도시한 도면이다.
1 is a diagram illustrating a system for classifying a small number of shots according to a preferred embodiment of the present invention.
2 is a diagram showing the detailed configuration of the hostile generating neural network of the present invention.
3 is a diagram showing a detailed configuration of the generator according to the present embodiment.
4 is a diagram showing a detailed configuration of a minority shot learning unit according to the present embodiment.
5 is a diagram showing a detailed configuration of the classifier according to the present embodiment.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.The present invention can be applied to various changes and can have various embodiments, and specific embodiments will be illustrated in the drawings and described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

본 발명은 데이터의 은닉 정보(Hidden information)가 투사된 잠재 공간을 생성하고, 이를 통해 영상 분류에서의 소수샷 학습을 진행한다. The present invention generates a latent space in which hidden information of data is projected, and through this, learns a small number of shots in image classification.

구체적으로, 적대적 생성 신경망(Generative Adversarial Networks; GAN)으로 잠재 공간을 생성하고, 생성된 잠재 공간에서 개체 변수(Identity variable)와 은닉 변수(Hidden variable)를 각각 추출하며, 최종적으로 개체 변수로 소수샷 학습의 정량적 성능을 향상시키고, 은닉 변수로 모델의 설명 가능성 및 정성적 성능을 향상시킨다.Specifically, a potential space is generated with hostile generating neural networks (GAN), and an entity variable and a hidden variable are respectively extracted from the generated potential space, and finally, a small number shot as an object variable It improves the quantitative performance of learning and improves the explanatory and qualitative performance of the model with hidden variables.

도 1은 본 발명의 바람직한 일 실시예에 따른 소수샷 영상 분류 시스템을 도시한 도면이다.1 is a diagram illustrating a system for classifying a small number of shots according to a preferred embodiment of the present invention.

도 1을 참조하면, 본 실시예에 따른 시스템은 영상 X와 Y를 입력 받고 잠재 공간에서 각각의 잠재 변수(latent variable)

Figure pat00001
Figure pat00002
를 출력하는 적대적 생성 신경망(100) 및 학습이 완료된 적대적 생성 신경망(100)의 생성기를 이용하여 잠재 변수를 입력 받고 동일한 영상인지 분류하고 영상을 합성하는 소수샷 학습부(102)를 포함할 수 있다. Referring to FIG. 1, the system according to the present embodiment receives images X and Y and each latent variable in a potential space
Figure pat00001
Wow
Figure pat00002
It may include a small number shot learning unit 102 that receives the potential variable using the generator of the hostile generating neural network 100 outputting the output and the generator of the hostile generating neural network 100 that has completed learning, classifies whether it is the same image and synthesizes the image. .

도 2는 본 발명의 적대적 생성 신경망의 상세 구성을 도시한 도면이고, 도 3은 본 실시예에 따른 생성기의 상세 구성을 도시한 도면이다. 2 is a diagram showing the detailed configuration of a hostile generating neural network of the present invention, and FIG. 3 is a diagram showing the detailed configuration of a generator according to the present embodiment.

도 2를 참조하면, 적대적 생성 신경망은 생성기(200) 및 판별기(202)를 포함할 수 있다. Referring to FIG. 2, the hostile generating neural network may include a generator 200 and a discriminator 202.

도 3을 참조하면, 생성기(200)는 잠재 공간 생성기(300)와 영상 생성기(302)를 포함하며, 잠재 공간 생성기(300)는 실제 영상을 입력 받아 실제 영상에 상응하는 잠재 변수를 생성하고, 영상 생성기(302)는 무작위 잠재 변수를 입력 받아 가상의 인공 영상을 생성할 수 있다. Referring to FIG. 3, the generator 200 includes a latent space generator 300 and an image generator 302, and the latent space generator 300 receives a real image and generates latent variables corresponding to the real image, The image generator 302 may generate a virtual artificial image by receiving random latent variables .

여기서, 잠재 공간 생성기(300)와 영상 생성기(302)는 동일한 잠재 공간을 공유한다. 이는 각 생성기(300,302)를 학습할 때 영상을 잠재 변수로 만들고, 해당 잠재 변수로 다시 영상을 만드는 방식을 사용함으로써 가능하다. Here, the potential space generator 300 and the image generator 302 share the same potential space . This is possible by using a method of making an image as a latent variable when learning each generator (300,302), and creating an image again with the corresponding latent variable.

즉, 생성기(200)는 주기 일관성(Cycle consistency)이 있는 것이다. That is, the generator 200 has a cycle consistency.

판별기(202)는 생성기(200)가 생성한 가상의 인공 영상과 실제 영상을 입력 받고, 입력된 영상의 참/거짓을 판별한다. The discriminator 202 receives a virtual artificial image and a real image generated by the generator 200 and determines true / false of the input image.

이때, 생성기(200)는 잠재 공간을 통해 변수 또는 영상을 실제 영상에 가깝게 생성하도록 학습되고 판별기(202)는 실제 영상에 가깝게 생성된 인공 영상을 실제 영상과 잘 구별할 수 있도록 학습된다. At this time, the generator 200 is trained to generate a variable or image close to the real image through the latent space, and the discriminator 202 is trained to distinguish the artificial image generated close to the real image from the real image.

본 실시예에 따른 판별기(202)에는 인공 영상 및 이에 대응되는 무작위 잠재 변수가 쌍으로 이루어진 데이터와 실제 영상 및 잠재 공간 생성기(300)에 출력하는 실제 영상의 잠재 변수가 쌍으로 이루어진 데이터가 입력되어 인공 영상이 실제 영상에 속할 확률을 계산한다. The discriminator 202 according to the present embodiment inputs data consisting of pairs of artificial images and random potential variables corresponding thereto and data consisting of pairs of potential variables of actual images output to the real image and potential space generator 300. To calculate the probability that the artificial image belongs to the real image.

도 4는 본 실시예에 따른 소수샷 학습부의 상세 구성을 도시한 도면이다. 4 is a diagram showing a detailed configuration of a minority shot learning unit according to the present embodiment.

도 4에 도시된 바와 같이, 본 실시예에 따른 소수샷 학습부(102)는 제1 잠재 공간 생성기(400), 제2 잠재 공간 생성기(402) 및 분류기(404)를 포함할 수 있다. As shown in FIG. 4, the fractional shot learning unit 102 according to the present embodiment may include a first latent space generator 400, a second latent space generator 402 and a classifier 404.

여기서, 제1 잠재 공간 생성기(400) 및 제2 잠재 공간 생성기(402)는 적대적 생성 신경망(100)의 생성기(200)에 포함되며 학습이 완료된 신경망 네트워크이다. Here, the first latent spatial generator 400 and the second latent spatial generator 402 are included in the generator 200 of the hostile generating neural network 100 and are learning neural network networks.

제1 잠재 공간 생성기(400)는 영상 X를 입력으로 하여 잠재 변수

Figure pat00003
를 생성하고, 제2 잠재 공간 생성기(402)는 영상 Y를 입력으로 하여 잠재 변수
Figure pat00004
를 생성한다. The first potential space generator 400 uses the image X as an input, and the latent variable
Figure pat00003
And the second potential space generator 402 inputs the image Y as a potential variable
Figure pat00004
Produces

잠재 변수

Figure pat00005
Figure pat00006
는 분류기(404)로 입력된다. Latent variable
Figure pat00005
And
Figure pat00006
Is input to the classifier 404.

분류기(404)는 입력된 2개의 잠재 변수들이 동일한 개체를 갖는지 분류하고, 잠재 변수를 합성하여 새로운 잠재 변수

Figure pat00007
를 생성한다. The classifier 404 classifies whether the two inputted latent variables have the same entity, synthesizes the latent variables, and synthesizes new latent variables.
Figure pat00007
Produces

도 5는 본 실시예에 따른 분류기의 상세 구성을 도시한 도면이다. 5 is a diagram showing a detailed configuration of the classifier according to the present embodiment.

도 5를 참조하면, 분류기(404)는 합성기(500)를 포함하며, 구체적으로 합성기(500)는 잠재 변수

Figure pat00008
Figure pat00009
를 입력 받고, 벡터형 데이터를 출력한다. Referring to Figure 5, the classifier 404 includes a synthesizer 500, specifically, the synthesizer 500 is a potential variable
Figure pat00008
Wow
Figure pat00009
Receives and outputs vector type data.

여기서 벡터형 데이터의 일부 요소(element)는 개체의 분류(같음/다름)에 사용되고, 나머지는 합성된 잠재 변수

Figure pat00010
이다 .Here, some elements of vector data are used for classification of objects (equal / different), others are synthesized latent variables
Figure pat00010
to be .

새롭게 생성된 잠재 변수

Figure pat00011
를 적대적 생성 신경망(100)에서 학습이 완료된 영상 생성기(302)에 입력하면 새로운 영상 X'가 출력된다. Newly created latent variables
Figure pat00011
When input to the image generator 302 where learning is completed in the hostile generation neural network 100, a new image X 'is output.

영상 X'는 영상 X와 영상 Y를 합성시킨 영상으로 정의되고, 영상 X와 Y가 동일한 개체를 갖는지를 시각적으로 확인할 수 있도록 하는 영상이다. Image X 'is defined as a composite image of image X and image Y, and is an image that visually checks whether images X and Y have the same object.

구체적으로 영상 X'의 질과 변화량에 따라 소수샷 학습의 정성적 평가가 가능하기 때문에 설명 가능성이 있다고 해석할 수 있다. Specifically, it can be interpreted that there is a possibility of explanation because qualitative evaluation of small number shot learning is possible according to the quality and the amount of change of the image X '.

또한 소수샷 학습 중 적대적 생성 신경망에서 학습되는 잠재 공간 생성기(300)와 영상 생성기(302)의 가중치는 학습에 영향을 주지 않도록 고정값으로 유지된다. In addition, the weights of the latent spatial generator 300 and the image generator 302 that are learned in the hostile generating neural network during the minor shot training are maintained at a fixed value so as not to influence the learning.

본 실시예에 따른 설명 가능한 소수샷 영상 분류 장치는 프로세서 및 메모리를 포함할 수 있다. 프로세서는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다. The descriptive fractional shot image classification apparatus according to the present embodiment may include a processor and a memory. The processor may include a central processing unit (CPU) capable of executing computer programs or other virtual machines.

메모리는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.The memory may include non-volatile storage devices such as fixed hard drives or removable storage devices. The removable storage device may include a compact flash unit, a USB memory stick, and the like. The memory may also include volatile memory such as various random access memories.

본 발명의 일 실시예에 따르면, 메모리에는 적대적 생성 신경망 모델을 통해 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하고, 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하며, 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하고, 학습이 완료된 적대적 생성 신경망의 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 프로그램 명령어들이 저장될 수 있다. According to an embodiment of the present invention, a potential image for the real image is generated by inputting a real image through the hostile generation neural network model in the memory, and a virtual artificial image is generated by using a random latent variable as the input. Calculate the probability that the artificial image belongs to the real image, classify whether the different first image and the second image have the same entity by using the latent spatial generator of the hostile generation neural network after learning, and classify the first image and the second image. Program commands for generating an image for qualitative evaluation of fractional shot learning by combining potential variables for each of the 2 images may be stored.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.The above-described embodiments of the present invention have been disclosed for purposes of illustration, and those skilled in the art having various knowledge of the present invention will be able to make various modifications, changes, and additions within the spirit and scope of the present invention. It should be regarded as belonging to the following claims.

Claims (5)

설명 가능한 소수샷 영상 분류 장치로서,
실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 잠재 공간 생성기 및 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 영상 생성기를 포함하는 생성기 및 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하여 출력하는 판별기로 구성되는 적대적 생성 신경망; 및
학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 소수샷 학습부를 포함하는 설명 가능한 소수샷 영상 분류 장치.
Describeable fractional shot video classification device,
A generator including a potential space generator for generating a potential variable for the real image by using a real image and an image generator for generating a virtual artificial image by inputting a random latent variable, and the artificial image belongs to the real image. A hostile generating neural network consisting of a discriminator for calculating and outputting a probability; And
Using the latent spatial generator where learning is completed, classifying whether different first and second images have the same entity, and combining potential variables for each of the first and second images to determine the fractional shot learning Explainable fractional shot image classification device including a fractional shot learning unit that generates an image for evaluation.
제1항에 있어서,
상기 소수샷 학습부는,
상기 제1 영상을 입력으로 하여 상기 제1 잠재 변수를 생성하는 제1 잠재 공간 생성기;
상기 제2 영상을 입력으로 하여 상기 제2 잠재 변수를 생성하는 제2 잠재 공간 생성기; 및
상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 벡터형 데이터로 출력하는 합성기를 포함하는 설명 가능한 소수샷 영상 분류 장치.
According to claim 1,
The minority shot learning unit,
A first potential space generator that generates the first potential variable by using the first image as an input;
A second potential space generator that generates the second potential variable by using the second image as an input; And
An explainable fractional shot image classification device including a synthesizer that synthesizes the first latent variable and the second latent variable and outputs the vector type data.
제2항에 있어서,
상기 합성기는,
상기 벡터형 데이터는 일부 요소(element)는 개체의 분류에 사용되고, 나머지는 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 생성한 제3 잠재 변수인 설명 가능한 소수샷 영상 분류 장치.
According to claim 2,
The synthesizer,
The vector type data is a descriptive fractional shot image classification device in which some elements are used for classification of an entity, and others are third potential variables generated by synthesizing the first potential variable and the second potential variable.
제3항에 있어서,
상기 소수샷 합성부는,
상기 적대적 신경 생성망에서 학습이 완료되며, 상기 제3 잠재 변수를 입력으로 하여 영상을 생성하는 영상 생성기를 포함하는 설명 가능한 소수샷 영상 분류 장치.
According to claim 3,
The fractional shot synthesis unit,
A descriptive fractional shot image classification device comprising an image generator that completes learning in the hostile neural network and generates an image using the third potential variable as an input.
프로세서 및 메모리를 포함하는 장치의 설명 가능한 소수샷 영상 분류 방법으로서,
적대적 생성 신경망의 잠재적 공간 생성기가 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 단계;
적대적 생성 신경망의 영상 생성기가 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 단계;
적대적 생성 신경망의 판별기가 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하는 단계;
학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하는 단계; 및
상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 단계를 포함하는 설명 가능한 소수샷 영상 분류 방법.
A method of classifying a small number of shot images of a device including a processor and a memory,
A potential spatial generator of a hostile generating neural network generating a potential variable for the real image by using the real image as an input;
Generating a virtual artificial image by inputting a random latent variable as an image generator of the hostile generating neural network;
A discriminator of a hostile generating neural network calculating a probability that the artificial image belongs to the real image;
Classifying whether different first images and second images have the same entity using the latent spatial generator having completed learning; And
And generating a video for qualitative evaluation of learning of a minority shot by synthesizing potential variables for each of the first and second images.
KR1020190145029A 2018-11-19 2019-11-13 Method and device for explainable few-shot image classification KR102316678B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180142824 2018-11-19
KR1020180142824 2018-11-19

Publications (3)

Publication Number Publication Date
KR20200058297A true KR20200058297A (en) 2020-05-27
KR102316678B1 KR102316678B1 (en) 2021-10-25
KR102316678B9 KR102316678B9 (en) 2022-04-11

Family

ID=70911177

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190145029A KR102316678B1 (en) 2018-11-19 2019-11-13 Method and device for explainable few-shot image classification

Country Status (1)

Country Link
KR (1) KR102316678B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052802A (en) * 2021-03-11 2021-06-29 南京大学 Small sample image classification method, device and equipment based on medical image
WO2021256702A1 (en) * 2020-06-18 2021-12-23 삼성전자 주식회사 Electronic device and control method thereof

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
1. [Li, F., Fergus, R., & Perona, P.,"Few-shot learning of object categories," IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006]
2. [Dumoulin, V., Belghazi, I., Poole, B., Mastropietro, O., Lamb, A., Arjovsky, M., & Courville, A., "Adversarially learned inference," ICLR, 2017]
Few-shot Classifier GAN, 2018 International Joint Conference on Neural Networks 1부* *
GAN을 이용한 식물 병해 이미지 합성 데이터 증강 1부* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021256702A1 (en) * 2020-06-18 2021-12-23 삼성전자 주식회사 Electronic device and control method thereof
CN113052802A (en) * 2021-03-11 2021-06-29 南京大学 Small sample image classification method, device and equipment based on medical image
CN113052802B (en) * 2021-03-11 2024-04-09 南京大学 Small sample image classification method, device and equipment based on medical image

Also Published As

Publication number Publication date
KR102316678B1 (en) 2021-10-25
KR102316678B9 (en) 2022-04-11

Similar Documents

Publication Publication Date Title
Yu et al. Semantic jitter: Dense supervision for visual comparisons via synthetic images
Yuan et al. Iterative transformer network for 3d point cloud
JP7357706B2 (en) Avatar generator and computer program
Reddy et al. On causally disentangled representations
KR102316678B1 (en) Method and device for explainable few-shot image classification
Hvilshøj et al. ECINN: efficient counterfactuals from invertible neural networks
KR20200094938A (en) Data imbalance solution method using Generative adversarial network
Shi et al. Improving 3d-aware image synthesis with a geometry-aware discriminator
Zhu et al. Image manipulation with natural language using two-sided attentive conditional generative adversarial network
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (gan) machine learning model
Tan et al. Enhanced Text-to-Image Synthesis Conditional Generative Adversarial Networks.
Zhang et al. Arbitrary view action recognition via transfer dictionary learning on synthetic training data
Foo et al. Aigc for various data modalities: A survey
Zeno et al. IP-GAN: learning identity and pose disentanglement in generative adversarial networks
Kaddoura A Primer on Generative Adversarial Networks
Despraz et al. Towards a better understanding of deep neural networks representations using deep generative networks
Yellapantula Synthesizing realistic data for vision based drone-to-drone detection
Deja et al. Multiband vae: Latent space alignment for knowledge consolidation in continual learning
Kumar et al. DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis
WO2020193972A1 (en) Facial analysis
Shangguan et al. 3D human pose dataset augmentation using generative adversarial network
Raut et al. Face completion using generative adversarial network
Paul Deepfakes Generated by Generative Adversarial Networks
US20240037870A1 (en) Methods and apparatus for determining and using controllable directions of gan space
Bhat et al. Automated learning of user preferences for selection of high quality 3D designs

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]