WO2022145787A1 - 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 - Google Patents

마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 Download PDF

Info

Publication number
WO2022145787A1
WO2022145787A1 PCT/KR2021/018574 KR2021018574W WO2022145787A1 WO 2022145787 A1 WO2022145787 A1 WO 2022145787A1 KR 2021018574 W KR2021018574 W KR 2021018574W WO 2022145787 A1 WO2022145787 A1 WO 2022145787A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature vector
attribute
label
mask
query image
Prior art date
Application number
PCT/KR2021/018574
Other languages
English (en)
French (fr)
Inventor
송철환
Original Assignee
오드컨셉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오드컨셉 주식회사 filed Critical 오드컨셉 주식회사
Publication of WO2022145787A1 publication Critical patent/WO2022145787A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Definitions

  • multi-label data a plurality of labels exist in one multimedia data
  • the conventional multi-label classification method has a limitation that labels must be simultaneously classified for all properties in a training data set when learning a neural network model.
  • An object of the present invention is to solve the above problems, and to use a training data set in which labels are independently classified for each attribute in learning a model for multi-label classification.
  • Another object of the present invention is to classify labels for a plurality of attributes using only one network to efficiently use a memory.
  • the present invention provides an image receiving module for receiving at least one query image from a user terminal, a vector generating module for generating a first feature vector based on the query image, and a mask according to at least one attribute to the first feature vector, respectively. It is characterized in that it comprises a filtering module for extracting the second feature vector for each attribute by applying and a label identification module for identifying the label for each attribute of the query image based on the second feature vector.
  • the present invention can efficiently use a memory by classifying labels for a plurality of attributes using only one network.
  • FIG. 1 is a block diagram showing the configuration of a multi-label classification apparatus according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating a multi-label classification method according to an embodiment of the present invention
  • FIG. 3 is a flowchart illustrating a process of learning a neural network model for generating a mask used for multi-label classification according to an embodiment of the present invention.
  • each of the components may be implemented as a hardware processor, the above components may be integrated into one hardware processor, or the above components may be combined with each other and implemented as a plurality of hardware processors.
  • FIG. 1 is a diagram illustrating a configuration of a multi-label classification apparatus based on masking according to an embodiment of the present invention.
  • a masking-based multi-label classification apparatus may extract labels for a plurality of attributes included in an image when an image is input.
  • the attributes used in the multi-label classification apparatus are a pattern, a fabric, a color, and a sense.
  • the multi-label classification apparatus of the present invention may be composed of an image receiving module 100 , a vector generating module 200 , a filtering module 300 , and a label classification module 400 , or may operate as one module.
  • the vector generation module 200 , the filtering module 300 , and the label classification module 400 will be based on a Convolutional Neural Network (CNN).
  • CNN Convolutional Neural Network
  • Convolutional neural networks are a class of multilayer perceptrons designed to use minimal preprocessing.
  • a convolutional neural network consists of one or several convolutional layers and general artificial neural network layers on top of it, and additionally utilizes weights and pooling layers. Thanks to this structure, the convolutional neural network can fully utilize the input data of the two-dimensional structure.
  • a convolutional neural network is characterized by being composed of an encoder and a decoder.
  • the encoder of the convolutional neural network according to an embodiment of the present invention combines a convolution layer, an activation function layer (Relu layer), a dropout layer, and a Max-pooling layer by combining may be generated, and a feature vector representing detailed features may be generated from the received query image.
  • the decoder may be created by combining an upsampling layer, a deconvolution layer, a sigmoid layer, and a dropout layer, and a deconvolution layer ) can be used to restore data from the feature vector.
  • the vector generation module 200 will play the role of an encoder of the convolutional neural network
  • the filtering module 300 and the label classification module 400 will play the role of a decoder of the convolutional neural network.
  • the image receiving module 100 may receive at least one query image from the user terminal.
  • the vector generation module 200 may extract a first feature vector corresponding to the received query image.
  • the vector generation module 200 may use a conventional method such as a Scale Invariant Feature Transform (SIFT) algorithm to extract the first feature vector of the query image.
  • SIFT Scale Invariant Feature Transform
  • the filtering module 300 may generate a second feature vector by filtering the first feature vector of the query image according to the attribute, based on a different mask for each attribute.
  • the filtering module 300 may use a neural network model to generate a different mask for each attribute and use it.
  • the neural network model according to an embodiment of the present invention is learned based on machine learning, and the learning process of the neural network model will be described later with reference to FIG. 3 .
  • the filtering module 300 may sequentially apply a mask according to each attribute to the query image to generate a second feature vector of the query image for each attribute.
  • the filtering module 300 applies a mask according to the pattern attribute to the first characteristic vector of the query image to extract a second characteristic vector including only pattern attribute information, and then the mask according to the far-end attribute to extract a second feature vector including only information on the far-end attribute by applying can do.
  • the filtering module 300 applies a mask corresponding to each property to the first feature vector to generate a second feature vector for each property, thereby making it possible to utilize only a vector value corresponding to a specific property in the first feature vector.
  • the label classification module 400 may classify a label for each attribute of the query image based on the second feature vector.
  • the label classification module 400 may identify a label corresponding to the second feature vector by applying a Softmax function to the second feature vector extracted for each attribute.
  • the softmax function is a function that provides normalization of the output value so that it can classify the output value used in the artificial neural network.
  • the label classification module 400 may identify a label for each attribute of the query image based on a result of applying the softmax function to the second feature vector.
  • the label classification module 400 applies a softmax function to each of the second feature vector for the pattern attribute, the second feature vector for the fabric attribute, the second feature vector for the color attribute, and the second feature vector for the tactile attribute. , it is possible to identify each label for the pattern attribute, fabric attribute, color attribute, and tactile attribute of the query image.
  • the label classification module 400 applies a softmax function to the second feature vector, calculates a probability for at least one label included in each attribute, and identifies a label most suitable for the second feature vector.
  • the label classification module 400 provides a softmax to the second feature vector corresponding to the pattern attribute.
  • Apply a function to ⁇ (smooth, 3%), (checkered, 37%), (striped, 25%), (floral, 5%), (dot, 14%), (leopard, 16%) ⁇ can produce the same result value.
  • the label classification module 400 will select a checkered pattern, which is a label having the highest probability, as a label corresponding to the pattern attribute of the query image.
  • the label classification module 400 may provide the identified label information to the user terminal when labels for all attributes of the query image are identified.
  • the multi-label classification apparatus can identify multiple labels for a query image using only one network, thereby improving the efficiency of GPU memory.
  • FIG. 2 is a flowchart illustrating a method for identifying multiple labels based on masking according to an embodiment of the present invention.
  • a multi-label identification method will be described with reference to FIG. 2 .
  • the attributes used in the multi-label classification method are pattern, fabric, color, and sense.
  • the multi-label identification apparatus may receive at least one query image from the user terminal ( S110 ).
  • the electronic device generates a first feature vector corresponding to the received query image, applies a mask for each attribute to the first feature vector, and extracts a second feature vector for each attribute including information on only one attribute, thereby generating a label for each attribute. can be identified.
  • the mask for each attribute used at this time will be created through a neural network model and trained based on machine learning.
  • the electronic device may extract a first feature vector corresponding to the received query image ( S120 ).
  • the electronic device may use a conventional method such as a Scale Invariant Feature Transform (SIFT) algorithm to extract the first feature vector of the query image.
  • SIFT Scale Invariant Feature Transform
  • the electronic device may sequentially apply a mask according to each attribute to the query image to generate a second feature vector of the query image for each attribute.
  • the electronic device generates a second feature vector for each attribute by applying a mask corresponding to each attribute to the first feature vector, thereby making it possible to utilize only a vector value corresponding to a specific attribute in the first feature vector.
  • the electronic device may identify a label for each attribute of the query image based on the second feature vector ( S140 ).
  • the electronic device may identify a label corresponding to the second feature vector by applying a Softmax function to the second feature vector extracted for each attribute.
  • the softmax function is a function that provides normalization of the output value so that it can classify the output value used in the artificial neural network.
  • the electronic device may identify a label for each attribute of the query image based on a result of applying the softmax function to the second feature vector.
  • the electronic device applies the softmax function to each of the second feature vector for the pattern attribute, the second feature vector for the fabric attribute, the second feature vector for the color attribute, and the second feature vector for the tactile attribute, Labels for pattern properties, fabric properties, color properties, and tactile properties can be identified, respectively.
  • the electronic device will identify the most suitable label for each attribute based on the probability of at least one label included in each attribute, which is a result of applying the softmax function to the second feature vector.
  • the electronic device may provide the identified label information to the user terminal ( S150 ).
  • the electronic device may learn a neural network model through supervised learning, and the neural network model includes a mask generating model corresponding to each of at least one attribute, and is trained to generate different masks for each attribute through each mask generating model. will be.
  • the electronic device may receive learning data from the user terminal ( S210 ).
  • the training data may include a training image and a first label according to an attribute of the training image.
  • the training data may have the form (training image, (attribute a, label a), (attribute b, label b), ..., (attribute k, label k)).
  • the electronic device may generate a third feature vector for the training image through the neural network model (S220), and may generate a fourth feature vector by applying a mask for each attribute to the third feature vector (S230).
  • the electronic device may identify the second label for each attribute corresponding to the training image based on the fourth feature vector ( S240 ).
  • the electronic device may determine whether the second label is correctly identified by comparing the second label identified for each attribute with the first label (label a to label k) for each attribute included in the training data set ( S250 ). Specifically, the electronic device compares the second label for attribute a with the label a included in the training data set, compares the second label for attribute b with the label b included in the training data set, ... The second label for the k attribute may be compared with the label k included in the training data set.
  • the electronic device will provide feedback to the mask generating model according to each attribute to learn the mask generating model ( S260 ).
  • the electronic device compares the second label for the specific property with the label for the same property included in the training data set, giving a positive feedback to the mask generation model for the specific property if the two labels are the same, and negative feedback if they are not.
  • We will train a mask generation model.
  • the electronic device compares the second label identified for the pattern attribute with the first label for the pattern attribute included in the training data set and the first and second labels are the same, the electronic device generates a mask corresponding to the pattern attribute By giving positive feedback to the model, it is possible to train the mask generation model corresponding to the pattern attribute.
  • the electronic device may more accurately identify the label for each attribute of the query image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치에 관한 것으로, 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있게 하는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 것을 특징으로 한다.

Description

마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치
본 발명은 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치에 관한 것으로, 보다 자세하게는 마스크를 적용하여 쿼리 이미지에 대해 적어도 하나의 속성에 대응하는 레이블을 식별하는 방법 및 장치에 관한 것이다.
이미지, 비디오 등 멀티미디어 서비스의 수요가 증가하고 휴대용 멀티미디어 기기가 보편적으로 보급되면서 방대한 양의 멀티미디어 데이터의 처리 및 분석 기술에 대한 필요성이 커지고 있으며, 멀티미디어 데이터의 분석 기술에 있어서 다중 레이블 데이터에 대한 연구가 활발하게 진행되고 있다.
다중 레이블 데이터는 하나의 멀티미디어 데이터에 복수 개의 레이블이 존재하는 것으로, 종래의 다중 레이블 분류 방법은 신경망 모델을 학습함에 있어서 학습 데이터 세트에 모든 속성에 대해 동시에 레이블이 분류가 되어 있어야 한다는 제약이 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 다중 레이블 분류를 위한 모델을 학습함에 있어서 각 속성에 대해 독립적으로 레이블이 분류된 학습 데이터 세트를 이용하는 것을 일 목적으로 한다.
또한 본 발명은 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있게 하는 것을 일 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 전자 장치가 이미지의 다중 레이블을 분류하는 방법에 있어서, 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 이미지 수신 모듈, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 벡터 생성 모듈, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 필터링 모듈 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 레이블 식별 모듈을 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 다중 레이블 분류를 위한 모델을 학습함에 있어서 각 속성에 대해 독립적으로 레이블이 분류된 학습 데이터 세트를 이용할 수 있어 학습 데이터 세트를 생성함에 있어서 용이하다.
또한 본 발명은 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있다.
도 1은 본 발명의 일 실시 예에 의한 다중 레이블 분류 장치의 구성을 나타낸 구성도,
도 2는 본 발명의 일 실시 예에 의한 다중 레이블 분류 방법을 설명하기 위한 순서도,
도 3은 본 발명의 일 실시 예에 의한 다중 레이블 분류에 사용되는 마스크를 생성하는 신경망 모델을 학습하는 과정을 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
다중 레이블 분류 기술은 하나의 이미지를 복수 개의 카테고리(속성, Attribute)로 분류하는 것으로, 종래의 다중 레이블 분류 기술은 카테고리 별로 네트워크를 두어 레이블을 분류할 수 있다. 예를 들어, n개의 카테고리 분류를 제공하는 모델의 경우 n개의 네트워크를 포함할 것이다.
이와 같이 카테고리 각각에 대한 네트워크를 따로 두어 레이블을 분류하는 기술은 카테고리가 증가할 경우 네트워크의 수 역시 증가하게 되어 그 수가 많아질수록 GPU 메모리에 부담이 생기는 문제가 있다.
이러한 문제를 해결하기 위한 본 발명의 마스킹을 기반으로 하는 다중 레이블 분류 장치는, 카테고리의 수에 무관하게 하나의 네트워크만을 사용하여 GPU 메모리를 효율적으로 사용할 수 있게 한다.
도 1은 본 발명의 일 실시 예에 의한 마스킹을 기반으로 하는 다중 레이블 분류 장치의 구성을 도시한 도면이다.
도 1을 참조하면, 마스킹을 기반으로 하는 다중 레이블 분류 장치(이하, 다중 레이블 분류 장치)는 이미지가 입력되면 이미지에 포함된 복수 개의 속성에 대한 레이블을 추출할 수 있다. 이하에서는 설명의 편의성을 위해 다중 레이블 분류 장치에서 사용하는 속성은 패턴(pattern), 원단(fabric), 색상(color) 그리고 촉감(sense)인 것으로 가정한다.
본 발명의 다중 레이블 분류 장치는 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)로 구성될 수 있다. 다중 레이블 분류 장치는 적어도 하나의 프로세서를 통해 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)의 동작을 처리할 수 있다.
또한 본 발명의 다중 레이블 분류 장치는 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)로 구성될 수도 있고 하나의 모듈로서 동작할 수도 있다. 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)은 합성곱 신경망(CNN, Convolutional Neural Network)를 기반으로 할 것이다.
합성곱 신경망은 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. 합성곱 신경망은 하나 또는 여러 개의 합성곱 계층(convolutional layer)과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 합성곱 신경망은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다.
합성곱 신경망은 인코더와 디코더로 구성되는 것을 특징으로 한다. 본 발명의 일 실시 예에 의한 합성곱 신경망의 인코더는 합성곱 계층(convolution layer) , 활성화 함수 계층(Relu layer), 드롭아웃 계층(Dropout layer)와 맥스풀링 계층(Max-pooling layer)을 조합하여 생성될 수 있으며 수신한 쿼리 이미지에서 세부 특징을 나타내는 특징 벡터를 생성할 수 있다.
디코더는 업샘플링 계층(Upsampling layer), 역합성곱 계층(Deconvolution layer), 시그모이드 계층(Sigmoid layer), 드롭아웃 계층(Dropout layer)을 조합하여 생성될 수 있으며, 역합성곱 계층(deconvolution layer)을 이용하여 특징 벡터로부터 데이터를 복원시킬 수 있다.
이러한 구성에 따라 벡터 생성 모듈(200)은 합성곱 신경망의 인코더의 역할을, 필터링 모듈(300)과 레이블 분류 모듈(400)은 합성곱 신경망의 디코더의 역할을 수행할 것이다.
이미지 수신 모듈(100)은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신할 수 있다.
벡터 생성 모듈(200)은 수신된 쿼리 이미지에 대응하는 제1 특징 벡터를 추출할 수 있다. 벡터 생성 모듈(200)은 쿼리 이미지의 제1 특징 벡터를 추출하기 위하여, SIFT(Scale Invariant Feature Transform) 알고리즘과 같은 종래의 방법을 사용할 수 있다.
필터링 모듈(300)은 속성 별로 상이한 마스크(mask)를 기반으로, 속성에 따라 쿼리 이미지의 제1 특징 벡터를 필터링하여 제2 특징 벡터를 생성할 수 있다.
필터링 모듈(300)은 신경망 모델을 이용하여 속성 별로 상이한 마스크를 생성하고, 이를 사용할 수 있다. 본 발명의 일 실시 예에 의한 신경망 모델은 머신 러닝을 기반으로 학습된 것으로, 신경망 모델의 학습 과정은 도 3에 대한 설명에서 후술한다.
필터링 모듈(300)은 쿼리 이미지에 각 속성에 따른 마스크를 순차적으로 적용하여 속성 별로 쿼리 이미지의 제2 특징 벡터를 생성할 수 있다.
예를 들어 설명하면, 필터링 모듈(300)은 쿼리 이미지의 제1 특징 벡터에 패턴 속성에 따른 마스크를 적용하여 패턴 속성의 정보만을 포함하는 제2 특징 벡터를 추출하고, 그 후 원단 속성에 따른 마스크를 적용하여 원단 속성의 정보만을 포함하는 제2 특징 벡터를 추출하고, 다음으로 색상 속성의 정보만을 포함하는 제2 특징 벡터를 추출한 후, 마지막으로 촉감 속성의 정보만을 포함하는 제2 특징 벡터를 추출할 수 있다.
필터링 모듈(300)은 제1 특징 벡터에 각 속성에 대응하는 마스크를 적용하여 속성 별 제2 특징 벡터를 생성함으로써, 제1 특징 벡터에서 특정 속성에 대응하는 벡터 값 만을 활용할 수 있게 한다.
레이블 분류 모듈(400)은 제2 특징 벡터를 기반으로 쿼리 이미지의 속성 별 레이블을 분류할 수 있다. 레이블 분류 모듈(400)은 속성 별로 추출된 제2 특징 벡터에 소프트맥스(Softmax) 함수를 적용하여 제2 특징 벡터에 대응하는 레이블을 식별할 수 있다. 소프트맥스 함수는 인공 신경망에서 사용되는 출력 값으로 클래스 분류를 할 수 있게 출력 값에 대한 정규화를 제공하는 함수이다.
레이블 분류 모듈(400)은 제2 특징 벡터에 소프트맥스 함수를 적용한 결과를 기반으로 쿼리 이미지의 속성 별 레이블을 식별할 수 있다. 레이블 분류 모듈(400)은 패턴 속성에 대한 제2 특징 벡터, 원단 속성에 대한 제2 특징 벡터, 색상 속성에 대한 제2 특징 벡터, 촉감 속성에 대한 제2 특징 벡터 각각에 소프트맥스 함수를 적용하여, 쿼리 이미지의 패턴 속성, 원단 속성, 색상 속성, 촉감 속성에 대한 레이블을 각각 식별할 수 있다.
레이블 분류 모듈(400)은 제2 특징 벡터에 소프트맥스 함수를 적용하여, 각 속성에 포함된 적어도 하나의 레이블에 대한 확률을 연산하여 제2 특징 벡터에 가장 적합한 레이블을 식별할 것이다.
예를 들어 패턴 속성에 정의된 레이블이 민무늬, 체크무늬, 줄무늬, 꽃무늬, 도트무늬, 레오파드무늬를 포함한다고 가정하면, 레이블 분류 모듈(400)은 패턴 속성에 대응하는 제2 특징 벡터에 소프트맥스 함수를 적용하여 {(민무늬, 3%), (체크무늬, 37%), (줄무늬, 25%), (꽃무늬, 5%), (도트무늬, 14%), (레오파드무늬, 16%)}와 같은 결과 값을 생성할 수 있다. 이 경우 레이블 분류 모듈(400)은 가장 높은 확률을 갖는 레이블인 체크무늬를 쿼리 이미지의 패턴 속성에 대응하는 레이블로 선택할 것이다.
레이블 분류 모듈(400)은 쿼리 이미지의 모든 속성에 대한 레이블을 식별하면 사용자 단말에 식별된 레이블 정보를 제공할 수 있다.
이러한 과정을 통해 본 발명의 일 실시 예에 의한 다중 레이블 분류 장치는 하나의 네트워크 만으로 쿼리 이미지에 대한 다중 레이블을 식별할 수 있게 하여 GPU 메모리의 효율을 향상시킬 수 있다.
도 2는 본 발명의 일 실시 예에 의한 마스킹을 기반으로 하는 다중 레이블 식별 방법을 설명하기 위한 순서도이다. 이하에서는 도 2를 참조하여 다중 레이블 식별 방법을 설명한다. 다중 레이블 식별 방법에 대한 설명에 있어서, 앞서 설명한 다중 레이블 식별 장치와 중복되는 세부 실시 예는 생략될 수 있다. 이하에서는 다중 레이블 분류 방법에서 사용되는 속성은 패턴(pattern), 원단(fabric), 색상(color) 그리고 촉감(sense)인 것으로 가정한다.
다중 레이블 식별 장치(이하, 전자 장치)는 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신(S110)할 수 있다. 전자 장치는 수신한 쿼리 이미지에 대응하는 제1 특징 벡터를 생성하고, 제1 특징 벡터에 속성 별 마스크를 적용하여 일 속성에 대한 정보만을 포함하는 속성 별 제2 특징 벡터를 추출함으로써 속성 별 레이블을 식별할 수 있다. 이 때 사용되는 속성 별 마스크는 신경망 모델을 통해 생성되어 머신 러닝을 기반으로 학습될 것이다.
전자 장치는 수신된 쿼리 이미지에 대응하는 제1 특징 벡터를 추출(S120)할 수 있다. 전자 장치는 쿼리 이미지의 제1 특징 벡터를 추출하기 위하여, SIFT(Scale Invariant Feature Transform) 알고리즘과 같은 종래의 방법을 사용할 수 있다.
전자 장치는 속성 별로 상이한 마스크(mask)를 기반으로, 속성에 따라 쿼리 이미지의 제1 특징 벡터를 필터링하여 제2 특징 벡터를 생성(S130)할 수 있다. 전자 장치는 신경망 모델을 이용하여 속성 별로 상이한 마스크를 생성하고, 이를 사용할 수 있다.
전자 장치는 쿼리 이미지에 각 속성에 따른 마스크를 순차적으로 적용하여 속성 별로 쿼리 이미지의 제2 특징 벡터를 생성할 수 있다. 전자 장치는 제1 특징 벡터에 각 속성에 대응하는 마스크를 적용하여 속성 별 제2 특징 벡터를 생성함으로써, 제1 특징 벡터에서 특정 속성에 대응하는 벡터 값 만을 활용할 수 있게 한다.
전자 장치는 제2 특징 벡터를 기반으로 쿼리 이미지의 속성 별 레이블을 식별(S140)할 수 있다. 전자 장치는 속성 별로 추출된 제2 특징 벡터에 소프트맥스(Softmax) 함수를 적용하여 제2 특징 벡터에 대응하는 레이블을 식별할 수 있다. 소프트맥스 함수는 인공 신경망에서 사용되는 출력 값으로 클래스 분류를 할 수 있게 출력 값에 대한 정규화를 제공하는 함수이다.
전자 장치는 제2 특징 벡터에 소프트맥스 함수를 적용한 결과를 기반으로 쿼리 이미지의 속성 별 레이블을 식별할 수 있다. 전자 장치는 패턴 속성에 대한 제2 특징 벡터, 원단 속성에 대한 제2 특징 벡터, 색상 속성에 대한 제2 특징 벡터, 촉감 속성에 대한 제2 특징 벡터 각각에 소프트맥스 함수를 적용하여, 쿼리 이미지의 패턴 속성, 원단 속성, 색상 속성, 촉감 속성에 대한 레이블을 각각 식별할 수 있다.
전자 장치는 제2 특징 벡터에 소프트맥스 함수를 적용한 결과 값인 각 속성에 포함된 적어도 하나의 레이블에 대한 확률을 기반으로 속성 별로 가장 적합한 레이블을 식별할 것이다.
전자 장치는 쿼리 이미지의 모든 속성에 대한 레이블을 식별하면 사용자 단말에 식별된 레이블 정보를 제공(S150)할 수 있다.
도 3는 본 발명의 일 실시 예에 의한 마스크를 생성하는 신경망 모델을 학습하는 과정을 설명하기 위한 도면이다. 전자 장치는 지도 학습을 통해 신경망 모델을 학습할 수 있으며, 신경망 모델은 적어도 하나의 속성 각각에 대응하는 마스크 생성 모델을 포함하여, 각 마스크 생성 모델을 통해 속성 별로 상이한 마스크를 생성할 수 있게 학습될 것이다.
도 3을 참조하면 전자 장치는 사용자 단말로부터 학습 데이터를 수신(S210)할 수 있다. 학습 데이터는 학습 이미지, 학습 이미지의 속성에 따른 제1 레이블을 포함할 것이다. 예를 들어 학습 데이터는 (학습 이미지, (속성a, 레이블a), (속성b, 레이블b), ..., (속성k, 레이블k))의 형태를 가질 수 있다.
전자 장치는 신경망 모델을 통해 학습 이미지에 대한 제3 특징 벡터를 생성(S220)하고, 제3 특징 벡터에 속성 별 마스크를 적용하여 제4 특징 벡터를 생성(S230)할 수 있다.
전자 장치는 제4 특징 벡터를 기반으로 학습 이미지에 대응하는 속성 별 제2 레이블을 식별(S240)할 수 있다.
전자 장치는 속성 별로 식별된 제2 레이블과 학습 데이터 세트에 포함된 속성 별 제1 레이블(레이블a 내지 레이블k)을 각각 비교하여 제2 레이블이 정확하게 식별되었는 지를 판단(S250)할 수 있다. 구체적으로 전자 장치는 속성a에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블a를 비교하고, 속성b에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블b를 비교하고, ..., 제k 속성에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블k를 비교할 수 있다.
전자 장치는 각 속성 별로 제2 레이블과 학습 데이터 세트에 포함된 속성 별 제1 레이블의 비교 결과에 따라 각 속성에 따른 마스크 생성 모델에 피드백을 주어 마스크 생성 모델을 학습(S260)시킬 것이다. 전자 장치는 특정 속성에 대한 제2 레이블과 학습 데이터 세트에 포함된 동일 속성에 대한 레이블을 비교하여 두 레이블이 동일하면 특정 속성에 대한 마스크 생성 모델에 긍정적인 피드백을, 동일하지 않으면 부정적인 피드백을 주어 마스크 생성 모델을 학습시킬 것이다.
예를 들어, 전자 장치는 패턴 속성에 대해 식별된 제2 레이블과 학습 데이터 세트에 포함된 패턴 속성에 대한 제1 레이블을 비교한 결과 제1 및 제2 레이블이 동일하면 패턴 속성에 대응하는 마스크 생성 모델에 긍정적인 피드백을 주어 패턴 속성에 대응하는 마스크 생성 모델을 학습시킬 수 있다.
이러한 과정을 통해 본 발명의 일 실시 예에 의한 전자 장치는 쿼리 이미지에 대한 속성 별 레이블을 보다 정확하게 식별할 수 있을 것이다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (7)

  1. 전자 장치가 이미지의 다중 레이블을 분류하는 방법에 있어서,
    사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계;
    상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계;
    제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계; 및
    제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 다중 레이블 분류 방법.
  2. 제1항에 있어서,
    상기 마스크는 신경망 모델을 통해 생성되되,
    상기 신경망 모델은 상기 속성 각각에 대응하는 적어도 하나의 마스크 생성 모델을 포함하는 다중 레이블 분류 방법.
  3. 제2항에 있어서, 상기 C 단계는,
    제1 특징 벡터에, 상기 속성 별 마스크 생성 모듈에 의해 각각 생성된 마스크를 순차적으로 적용하여 속성 별 제2 특징 벡터를 추출하는 다중 레이블 분류 방법.
  4. 제3항에 있어서,
    제2 특징 벡터는 제1 특징 벡터의 특정 속성에 대응하는 벡터 값 만을 포함하는 다중 레이블 분류 방법.
  5. 제1항에 있어서, 상기 D 단계는,
    제2 특징 벡터에 소프트맥스 함수를 적용하여 정규화 하는 단계;
    상기 정규화 결과 값에서 가장 높은 확률을 갖는 레이블을 제2 특징 벡터에 대응하는 속성의 레이블로 선택하는 단계를 포함하는 다중 레이블 분류 방법.
  6. 제2항에 있어서,
    상기 신경망 모델은 딥 러닝 기반의 합성곱 신경망을 기반으로 학습되며,
    학습 이미지 및 상기 학습 이미지의 속성 별 제1 레이블을 포함하는 학습 데이터 세트를 수신하는 단계;
    상기 학습 이미지의 제3 특징 벡터를 생성하고, 제3 특징 벡터에 속성 별 마스크를 각각 적용하여 제4 특징 벡터를 추출하는 단계;
    제4 특징 벡터를 기반으로 상기 학습 이미지에 대응하는 속성 별 제2 레이블을 식별하는 단계;
    제1 레이블과 제2 레이블을 비교하여 그 결과에 따라 제2 레이블의 속성에 대응하는 마스크 생성 모델에 피드백을 전송하는 단계를 포함하는 다중 레이블 분류 방법.
  7. 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 이미지 수신 모듈;
    상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 벡터 생성 모듈;
    제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 필터링 모듈; 및
    제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 레이블 식별 모듈을 포함하는 다중 레이블 분류 장치.
PCT/KR2021/018574 2021-01-04 2021-12-09 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 WO2022145787A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210000280A KR20220098502A (ko) 2021-01-04 2021-01-04 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치
KR10-2021-0000280 2021-01-04

Publications (1)

Publication Number Publication Date
WO2022145787A1 true WO2022145787A1 (ko) 2022-07-07

Family

ID=82260584

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/018574 WO2022145787A1 (ko) 2021-01-04 2021-12-09 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20220098502A (ko)
WO (1) WO2022145787A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005638A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
KR20180048058A (ko) * 2016-11-02 2018-05-10 삼성전자주식회사 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
KR20190140619A (ko) * 2018-06-12 2019-12-20 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 특징 하위 집합 생성 방법 및 그 장치
KR20200023696A (ko) * 2018-08-21 2020-03-06 한국전자통신연구원 식물 이미지 분류 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005638A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
KR20180048058A (ko) * 2016-11-02 2018-05-10 삼성전자주식회사 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
KR20190140619A (ko) * 2018-06-12 2019-12-20 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 특징 하위 집합 생성 방법 및 그 장치
KR20200023696A (ko) * 2018-08-21 2020-03-06 한국전자통신연구원 식물 이미지 분류 방법 및 장치

Also Published As

Publication number Publication date
KR20220098502A (ko) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
Kuo The CNN as a guided multilayer RECOS transform [lecture notes]
WO2018217019A1 (ko) 신경망 학습 기반의 변종 악성 코드를 탐지하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2014051246A1 (en) Method and apparatus for inferring facial composite
CN107808113A (zh) 一种基于差分深度特征的人脸表情识别方法及系统
CN113076994A (zh) 一种开集域自适应图像分类方法及系统
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN105956631A (zh) 一种面向电子图库的在线渐进式图像分类方法
CN114882521A (zh) 基于多分支网络的无监督行人重识别方法及装置
CN116363738A (zh) 一种基于多移动目标的人脸识别方法、系统及存储介质
CN115100678A (zh) 基于通道重组和注意力机制的跨模态行人重识别方法
CN111461244A (zh) 一种基于SimpleShot的One-Shot学习新方法
Masood et al. Scene recognition from image using convolutional neural network
CN113011513B (zh) 一种基于通用域自适应的图像大数据分类方法
WO2022145787A1 (ko) 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치
WO2022114363A1 (ko) 비지도학습방법론에 기인한 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치
CN110059718A (zh) 基于多类多注意力机制的细粒度检测方法
CN112750128B (zh) 图像语义分割方法、装置、终端及可读存储介质
Long et al. Object-level representation learning for few-shot image classification
CN112800979A (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
CN111507396A (zh) 缓解神经网络对未知类样本产生错误分类的方法及装置
WO2022092672A1 (ko) Ai 예측 모델을 이용한 예측 결과의 학습 데이터 추가 방법
WO2022108275A1 (ko) 인공지능을 활용한 가상 얼굴 생성 방법 및 장치
WO2022145769A1 (ko) 이미지 분류를 통한 이미지 퀄리티 연산 방법 및 장치
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21915585

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21915585

Country of ref document: EP

Kind code of ref document: A1