KR20220098502A - 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 - Google Patents

마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 Download PDF

Info

Publication number
KR20220098502A
KR20220098502A KR1020210000280A KR20210000280A KR20220098502A KR 20220098502 A KR20220098502 A KR 20220098502A KR 1020210000280 A KR1020210000280 A KR 1020210000280A KR 20210000280 A KR20210000280 A KR 20210000280A KR 20220098502 A KR20220098502 A KR 20220098502A
Authority
KR
South Korea
Prior art keywords
feature vector
attribute
label
mask
query image
Prior art date
Application number
KR1020210000280A
Other languages
English (en)
Inventor
송철환
Original Assignee
오드컨셉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오드컨셉 주식회사 filed Critical 오드컨셉 주식회사
Priority to KR1020210000280A priority Critical patent/KR20220098502A/ko
Priority to PCT/KR2021/018574 priority patent/WO2022145787A1/ko
Publication of KR20220098502A publication Critical patent/KR20220098502A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치에 관한 것으로, 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있게 하는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 것을 특징으로 한다.

Description

마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치{METHOD AND DEVICE FOR MULTI LABEL CLASSIFICATION BASED ON MASKING}
본 발명은 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치에 관한 것으로, 보다 자세하게는 마스크를 적용하여 쿼리 이미지에 대해 적어도 하나의 속성에 대응하는 레이블을 식별하는 방법 및 장치에 관한 것이다.
이미지, 비디오 등 멀티미디어 서비스의 수요가 증가하고 휴대용 멀티미디어 기기가 보편적으로 보급되면서 방대한 양의 멀티미디어 데이터의 처리 및 분석 기술에 대한 필요성이 커지고 있으며, 멀티미디어 데이터의 분석 기술에 있어서 다중 레이블 데이터에 대한 연구가 활발하게 진행되고 있다.
다중 레이블 데이터는 하나의 멀티미디어 데이터에 복수 개의 레이블이 존재하는 것으로, 종래의 다중 레이블 분류 방법은 신경망 모델을 학습함에 있어서 학습 데이터 세트에 모든 속성에 대해 동시에 레이블이 분류가 되어 있어야 한다는 제약이 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 다중 레이블 분류를 위한 모델을 학습함에 있어서 각 속성에 대해 독립적으로 레이블이 분류된 학습 데이터 세트를 이용하는 것을 일 목적으로 한다.
또한 본 발명은 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있게 하는 것을 일 목적으로 한다.
이러한 목적을 달성하기 위한 본 발명은 전자 장치가 이미지의 다중 레이블을 분류하는 방법에 있어서, 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 이미지 수신 모듈, 상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 벡터 생성 모듈, 제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 필터링 모듈 및 제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 레이블 식별 모듈을 포함하는 것을 일 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 다중 레이블 분류를 위한 모델을 학습함에 있어서 각 속성에 대해 독립적으로 레이블이 분류된 학습 데이터 세트를 이용할 수 있어 학습 데이터 세트를 생성함에 있어서 용이하다.
또한 본 발명은 하나의 네트워크만을 이용해 복수 개의 속성에 대한 레이블을 분류하여 메모리를 효율적으로 사용할 수 있다.
도 1은 본 발명의 일 실시 예에 의한 다중 레이블 분류 장치의 구성을 나타낸 구성도,
도 2는 본 발명의 일 실시 예에 의한 다중 레이블 분류 방법을 설명하기 위한 순서도,
도 3은 본 발명의 일 실시 예에 의한 다중 레이블 분류에 사용되는 마스크를 생성하는 신경망 모델을 학습하는 과정을 설명하기 위한 순서도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.
본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.
또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
다중 레이블 분류 기술은 하나의 이미지를 복수 개의 카테고리(속성, Attribute)로 분류하는 것으로, 종래의 다중 레이블 분류 기술은 카테고리 별로 네트워크를 두어 레이블을 분류할 수 있다. 예를 들어, n개의 카테고리 분류를 제공하는 모델의 경우 n개의 네트워크를 포함할 것이다.
이와 같이 카테고리 각각에 대한 네트워크를 따로 두어 레이블을 분류하는 기술은 카테고리가 증가할 경우 네트워크의 수 역시 증가하게 되어 그 수가 많아질수록 GPU 메모리에 부담이 생기는 문제가 있다.
이러한 문제를 해결하기 위한 본 발명의 마스킹을 기반으로 하는 다중 레이블 분류 장치는, 카테고리의 수에 무관하게 하나의 네트워크만을 사용하여 GPU 메모리를 효율적으로 사용할 수 있게 한다.
도 1은 본 발명의 일 실시 예에 의한 마스킹을 기반으로 하는 다중 레이블 분류 장치의 구성을 도시한 도면이다.
도 1을 참조하면, 마스킹을 기반으로 하는 다중 레이블 분류 장치(이하, 다중 레이블 분류 장치)는 이미지가 입력되면 이미지에 포함된 복수 개의 속성에 대한 레이블을 추출할 수 있다. 이하에서는 설명의 편의성을 위해 다중 레이블 분류 장치에서 사용하는 속성은 패턴(pattern), 원단(fabric), 색상(color) 그리고 촉감(sense)인 것으로 가정한다.
본 발명의 다중 레이블 분류 장치는 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)로 구성될 수 있다. 다중 레이블 분류 장치는 적어도 하나의 프로세서를 통해 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)의 동작을 처리할 수 있다.
또한 본 발명의 다중 레이블 분류 장치는 이미지 수신 모듈(100), 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)로 구성될 수도 있고 하나의 모듈로서 동작할 수도 있다. 벡터 생성 모듈(200), 필터링 모듈(300), 그리고 레이블 분류 모듈(400)은 합성곱 신경망(CNN, Convolutional Neural Network)를 기반으로 할 것이다.
합성곱 신경망은 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. 합성곱 신경망은 하나 또는 여러 개의 합성곱 계층(convolutional layer)과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 합성곱 신경망은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다.
합성곱 신경망은 인코더와 디코더로 구성되는 것을 특징으로 한다. 본 발명의 일 실시 예에 의한 합성곱 신경망의 인코더는 합성곱 계층(convolution layer) , 활성화 함수 계층(Relu layer), 드롭아웃 계층(Dropout layer)와 맥스풀링 계층(Max-pooling layer)을 조합하여 생성될 수 있으며 수신한 쿼리 이미지에서 세부 특징을 나타내는 특징 벡터를 생성할 수 있다.
디코더는 업샘플링 계층(Upsampling layer), 역합성곱 계층(Deconvolution layer), 시그모이드 계층(Sigmoid layer), 드롭아웃 계층(Dropout layer)을 조합하여 생성될 수 있으며, 역합성곱 계층(deconvolution layer)을 이용하여 특징 벡터로부터 데이터를 복원시킬 수 있다.
이러한 구성에 따라 벡터 생성 모듈(200)은 합성곱 신경망의 인코더의 역할을, 필터링 모듈(300)과 레이블 분류 모듈(400)은 합성곱 신경망의 디코더의 역할을 수행할 것이다.
이미지 수신 모듈(100)은 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신할 수 있다.
벡터 생성 모듈(200)은 수신된 쿼리 이미지에 대응하는 제1 특징 벡터를 추출할 수 있다. 벡터 생성 모듈(200)은 쿼리 이미지의 제1 특징 벡터를 추출하기 위하여, SIFT(Scale Invariant Feature Transform) 알고리즘과 같은 종래의 방법을 사용할 수 있다.
필터링 모듈(300)은 속성 별로 상이한 마스크(mask)를 기반으로, 속성에 따라 쿼리 이미지의 제1 특징 벡터를 필터링하여 제2 특징 벡터를 생성할 수 있다.
필터링 모듈(300)은 신경망 모델을 이용하여 속성 별로 상이한 마스크를 생성하고, 이를 사용할 수 있다. 본 발명의 일 실시 예에 의한 신경망 모델은 머신 러닝을 기반으로 학습된 것으로, 신경망 모델의 학습 과정은 도 3에 대한 설명에서 후술한다.
필터링 모듈(300)은 쿼리 이미지에 각 속성에 따른 마스크를 순차적으로 적용하여 속성 별로 쿼리 이미지의 제2 특징 벡터를 생성할 수 있다.
예를 들어 설명하면, 필터링 모듈(300)은 쿼리 이미지의 제1 특징 벡터에 패턴 속성에 따른 마스크를 적용하여 패턴 속성의 정보만을 포함하는 제2 특징 벡터를 추출하고, 그 후 원단 속성에 따른 마스크를 적용하여 원단 속성의 정보만을 포함하는 제2 특징 벡터를 추출하고, 다음으로 색상 속성의 정보만을 포함하는 제2 특징 벡터를 추출한 후, 마지막으로 촉감 속성의 정보만을 포함하는 제2 특징 벡터를 추출할 수 있다.
필터링 모듈(300)은 제1 특징 벡터에 각 속성에 대응하는 마스크를 적용하여 속성 별 제2 특징 벡터를 생성함으로써, 제1 특징 벡터에서 특정 속성에 대응하는 벡터 값 만을 활용할 수 있게 한다.
레이블 분류 모듈(400)은 제2 특징 벡터를 기반으로 쿼리 이미지의 속성 별 레이블을 분류할 수 있다. 레이블 분류 모듈(400)은 속성 별로 추출된 제2 특징 벡터에 소프트맥스(Softmax) 함수를 적용하여 제2 특징 벡터에 대응하는 레이블을 식별할 수 있다. 소프트맥스 함수는 인공 신경망에서 사용되는 출력 값으로 클래스 분류를 할 수 있게 출력 값에 대한 정규화를 제공하는 함수이다.
레이블 분류 모듈(400)은 제2 특징 벡터에 소프트맥스 함수를 적용한 결과를 기반으로 쿼리 이미지의 속성 별 레이블을 식별할 수 있다. 레이블 분류 모듈(400)은 패턴 속성에 대한 제2 특징 벡터, 원단 속성에 대한 제2 특징 벡터, 색상 속성에 대한 제2 특징 벡터, 촉감 속성에 대한 제2 특징 벡터 각각에 소프트맥스 함수를 적용하여, 쿼리 이미지의 패턴 속성, 원단 속성, 색상 속성, 촉감 속성에 대한 레이블을 각각 식별할 수 있다.
레이블 분류 모듈(400)은 제2 특징 벡터에 소프트맥스 함수를 적용하여, 각 속성에 포함된 적어도 하나의 레이블에 대한 확률을 연산하여 제2 특징 벡터에 가장 적합한 레이블을 식별할 것이다.
예를 들어 패턴 속성에 정의된 레이블이 민무늬, 체크무늬, 줄무늬, 꽃무늬, 도트무늬, 레오파드무늬를 포함한다고 가정하면, 레이블 분류 모듈(400)은 패턴 속성에 대응하는 제2 특징 벡터에 소프트맥스 함수를 적용하여 {(민무늬, 3%), (체크무늬, 37%), (줄무늬, 25%), (꽃무늬, 5%), (도트무늬, 14%), (레오파드무늬, 16%)}와 같은 결과 값을 생성할 수 있다. 이 경우 레이블 분류 모듈(400)은 가장 높은 확률을 갖는 레이블인 체크무늬를 쿼리 이미지의 패턴 속성에 대응하는 레이블로 선택할 것이다.
레이블 분류 모듈(400)은 쿼리 이미지의 모든 속성에 대한 레이블을 식별하면 사용자 단말에 식별된 레이블 정보를 제공할 수 있다.
이러한 과정을 통해 본 발명의 일 실시 예에 의한 다중 레이블 분류 장치는 하나의 네트워크 만으로 쿼리 이미지에 대한 다중 레이블을 식별할 수 있게 하여 GPU 메모리의 효율을 향상시킬 수 있다.
도 2는 본 발명의 일 실시 예에 의한 마스킹을 기반으로 하는 다중 레이블 식별 방법을 설명하기 위한 순서도이다. 이하에서는 도 2를 참조하여 다중 레이블 식별 방법을 설명한다. 다중 레이블 식별 방법에 대한 설명에 있어서, 앞서 설명한 다중 레이블 식별 장치와 중복되는 세부 실시 예는 생략될 수 있다. 이하에서는 다중 레이블 분류 방법에서 사용되는 속성은 패턴(pattern), 원단(fabric), 색상(color) 그리고 촉감(sense)인 것으로 가정한다.
다중 레이블 식별 장치(이하, 전자 장치)는 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신(S110)할 수 있다. 전자 장치는 수신한 쿼리 이미지에 대응하는 제1 특징 벡터를 생성하고, 제1 특징 벡터에 속성 별 마스크를 적용하여 일 속성에 대한 정보만을 포함하는 속성 별 제2 특징 벡터를 추출함으로써 속성 별 레이블을 식별할 수 있다. 이 때 사용되는 속성 별 마스크는 신경망 모델을 통해 생성되어 머신 러닝을 기반으로 학습될 것이다.
전자 장치는 수신된 쿼리 이미지에 대응하는 제1 특징 벡터를 추출(S120)할 수 있다. 전자 장치는 쿼리 이미지의 제1 특징 벡터를 추출하기 위하여, SIFT(Scale Invariant Feature Transform) 알고리즘과 같은 종래의 방법을 사용할 수 있다.
전자 장치는 속성 별로 상이한 마스크(mask)를 기반으로, 속성에 따라 쿼리 이미지의 제1 특징 벡터를 필터링하여 제2 특징 벡터를 생성(S130)할 수 있다. 전자 장치는 신경망 모델을 이용하여 속성 별로 상이한 마스크를 생성하고, 이를 사용할 수 있다.
전자 장치는 쿼리 이미지에 각 속성에 따른 마스크를 순차적으로 적용하여 속성 별로 쿼리 이미지의 제2 특징 벡터를 생성할 수 있다. 전자 장치는 제1 특징 벡터에 각 속성에 대응하는 마스크를 적용하여 속성 별 제2 특징 벡터를 생성함으로써, 제1 특징 벡터에서 특정 속성에 대응하는 벡터 값 만을 활용할 수 있게 한다.
전자 장치는 제2 특징 벡터를 기반으로 쿼리 이미지의 속성 별 레이블을 식별(S140)할 수 있다. 전자 장치는 속성 별로 추출된 제2 특징 벡터에 소프트맥스(Softmax) 함수를 적용하여 제2 특징 벡터에 대응하는 레이블을 식별할 수 있다. 소프트맥스 함수는 인공 신경망에서 사용되는 출력 값으로 클래스 분류를 할 수 있게 출력 값에 대한 정규화를 제공하는 함수이다.
전자 장치는 제2 특징 벡터에 소프트맥스 함수를 적용한 결과를 기반으로 쿼리 이미지의 속성 별 레이블을 식별할 수 있다. 전자 장치는 패턴 속성에 대한 제2 특징 벡터, 원단 속성에 대한 제2 특징 벡터, 색상 속성에 대한 제2 특징 벡터, 촉감 속성에 대한 제2 특징 벡터 각각에 소프트맥스 함수를 적용하여, 쿼리 이미지의 패턴 속성, 원단 속성, 색상 속성, 촉감 속성에 대한 레이블을 각각 식별할 수 있다.
전자 장치는 제2 특징 벡터에 소프트맥스 함수를 적용한 결과 값인 각 속성에 포함된 적어도 하나의 레이블에 대한 확률을 기반으로 속성 별로 가장 적합한 레이블을 식별할 것이다.
전자 장치는 쿼리 이미지의 모든 속성에 대한 레이블을 식별하면 사용자 단말에 식별된 레이블 정보를 제공(S150)할 수 있다.
도 3는 본 발명의 일 실시 예에 의한 마스크를 생성하는 신경망 모델을 학습하는 과정을 설명하기 위한 도면이다. 전자 장치는 지도 학습을 통해 신경망 모델을 학습할 수 있으며, 신경망 모델은 적어도 하나의 속성 각각에 대응하는 마스크 생성 모델을 포함하여, 각 마스크 생성 모델을 통해 속성 별로 상이한 마스크를 생성할 수 있게 학습될 것이다.
도 3을 참조하면 전자 장치는 사용자 단말로부터 학습 데이터를 수신(S210)할 수 있다. 학습 데이터는 학습 이미지, 학습 이미지의 속성에 따른 제1 레이블을 포함할 것이다. 예를 들어 학습 데이터는 (학습 이미지, (속성a, 레이블a), (속성b, 레이블b), ..., (속성k, 레이블k))의 형태를 가질 수 있다.
전자 장치는 신경망 모델을 통해 학습 이미지에 대한 제3 특징 벡터를 생성(S220)하고, 제3 특징 벡터에 속성 별 마스크를 적용하여 제4 특징 벡터를 생성(S230)할 수 있다.
전자 장치는 제4 특징 벡터를 기반으로 학습 이미지에 대응하는 속성 별 제2 레이블을 식별(S240)할 수 있다.
전자 장치는 속성 별로 식별된 제2 레이블과 학습 데이터 세트에 포함된 속성 별 제1 레이블(레이블a 내지 레이블k)을 각각 비교하여 제2 레이블이 정확하게 식별되었는 지를 판단(S250)할 수 있다. 구체적으로 전자 장치는 속성a에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블a를 비교하고, 속성b에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블b를 비교하고, ..., 제k 속성에 대한 제2 레이블과 학습 데이터 세트에 포함된 레이블k를 비교할 수 있다.
전자 장치는 각 속성 별로 제2 레이블과 학습 데이터 세트에 포함된 속성 별 제1 레이블의 비교 결과에 따라 각 속성에 따른 마스크 생성 모델에 피드백을 주어 마스크 생성 모델을 학습(S260)시킬 것이다. 전자 장치는 특정 속성에 대한 제2 레이블과 학습 데이터 세트에 포함된 동일 속성에 대한 레이블을 비교하여 두 레이블이 동일하면 특정 속성에 대한 마스크 생성 모델에 긍정적인 피드백을, 동일하지 않으면 부정적인 피드백을 주어 마스크 생성 모델을 학습시킬 것이다.
예를 들어, 전자 장치는 패턴 속성에 대해 식별된 제2 레이블과 학습 데이터 세트에 포함된 패턴 속성에 대한 제1 레이블을 비교한 결과 제1 및 제2 레이블이 동일하면 패턴 속성에 대응하는 마스크 생성 모델에 긍정적인 피드백을 주어 패턴 속성에 대응하는 마스크 생성 모델을 학습시킬 수 있다.
이러한 과정을 통해 본 발명의 일 실시 예에 의한 전자 장치는 쿼리 이미지에 대한 속성 별 레이블을 보다 정확하게 식별할 수 있을 것이다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (7)

  1. 전자 장치가 이미지의 다중 레이블을 분류하는 방법에 있어서,
    사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 A 단계;
    상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 B 단계;
    제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 C 단계; 및
    제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 D 단계를 포함하는 다중 레이블 분류 방법.
  2. 제1항에 있어서,
    상기 마스크는 신경망 모델을 통해 생성되되,
    상기 신경망 모델은 상기 속성 각각에 대응하는 적어도 하나의 마스크 생성 모델을 포함하는 다중 레이블 분류 방법.
  3. 제2항에 있어서, 상기 C 단계는,
    제1 특징 벡터에, 상기 속성 별 마스크 생성 모듈에 의해 각각 생성된 마스크를 순차적으로 적용하여 속성 별 제2 특징 벡터를 추출하는 다중 레이블 분류 방법.
  4. 제3항에 있어서,
    제2 특징 벡터는 제1 특징 벡터의 특정 속성에 대응하는 벡터 값 만을 포함하는 다중 레이블 분류 방법.
  5. 제1항에 있어서, 상기 D 단계는,
    제2 특징 벡터에 소프트맥스 함수를 적용하여 정규화 하는 단계;
    상기 정규화 결과 값에서 가장 높은 확률을 갖는 레이블을 제2 특징 벡터에 대응하는 속성의 레이블로 선택하는 단계를 포함하는 다중 레이블 분류 방법.
  6. 제2항에 있어서,
    상기 신경망 모델은 딥 러닝 기반의 합성곱 신경망을 기반으로 학습되며,
    학습 이미지 및 상기 학습 이미지의 속성 별 제1 레이블을 포함하는 학습 데이터 세트를 수신하는 단계;
    상기 학습 이미지의 제3 특징 벡터를 생성하고, 제3 특징 벡터에 속성 별 마스크를 각각 적용하여 제4 특징 벡터를 추출하는 단계;
    제4 특징 벡터를 기반으로 상기 학습 이미지에 대응하는 속성 별 제2 레이블을 식별하는 단계;
    제1 레이블과 제2 레이블을 비교하여 그 결과에 따라 제2 레이블의 속성에 대응하는 마스크 생성 모델에 피드백을 전송하는 단계를 포함하는 다중 레이블 분류 방법.
  7. 사용자 단말로부터 적어도 하나의 쿼리 이미지를 수신하는 이미지 수신 모듈;
    상기 쿼리 이미지를 기반으로 제1 특징 벡터를 생성하는 벡터 생성 모듈;
    제1 특징 벡터에 적어도 하나의 속성에 따른 마스크를 각각 적용하여 상기 속성 별 제2 특징 벡터를 추출하는 필터링 모듈; 및
    제2 특징 벡터를 기반으로 상기 쿼리 이미지의 상기 속성 별 레이블을 식별하는 레이블 식별 모듈을 포함하는 다중 레이블 분류 장치.
KR1020210000280A 2021-01-04 2021-01-04 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치 KR20220098502A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210000280A KR20220098502A (ko) 2021-01-04 2021-01-04 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치
PCT/KR2021/018574 WO2022145787A1 (ko) 2021-01-04 2021-12-09 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210000280A KR20220098502A (ko) 2021-01-04 2021-01-04 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220098502A true KR20220098502A (ko) 2022-07-12

Family

ID=82260584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210000280A KR20220098502A (ko) 2021-01-04 2021-01-04 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20220098502A (ko)
WO (1) WO2022145787A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6670698B2 (ja) * 2016-07-04 2020-03-25 日本電信電話株式会社 映像認識モデル学習装置、映像認識装置、方法、及びプログラム
KR102308871B1 (ko) * 2016-11-02 2021-10-05 삼성전자주식회사 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
KR102066157B1 (ko) * 2018-06-12 2020-01-14 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 특징 하위 집합 생성 방법 및 그 장치
KR20200023696A (ko) * 2018-08-21 2020-03-06 한국전자통신연구원 식물 이미지 분류 방법 및 장치

Also Published As

Publication number Publication date
WO2022145787A1 (ko) 2022-07-07

Similar Documents

Publication Publication Date Title
Tuli et al. Are convolutional neural networks or transformers more like human vision?
CN110163258B (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
Chen et al. Generalizable representation learning for mixture domain face anti-spoofing
Gebru et al. Fine-grained recognition in the wild: A multi-task domain adaptation approach
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
Liu et al. Multi-objective convolutional learning for face labeling
Donahue et al. Decaf: A deep convolutional activation feature for generic visual recognition
Patra et al. A novel SOM-SVM-based active learning technique for remote sensing image classification
CN111582409B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
Mao et al. Deep multi-task multi-label CNN for effective facial attribute classification
WO2014205231A1 (en) Deep learning framework for generic object detection
Shah et al. Max-margin contrastive learning
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN111611323A (zh) 一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质
CN112183602B (zh) 一种带有并行卷积块的多层特征融合细粒度图像分类方法
Sun et al. Scene categorization using deeply learned gaze shifting kernel
Wieschollek et al. Transfer learning for material classification using convolutional networks
Vaidya et al. Deep learning architectures for object detection and classification
Seo et al. One-to-one example-based automatic image coloring using deep convolutional generative adversarial network
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Imani et al. Semi-supervised Persian font recognition
CN116935100A (zh) 一种基于特征融合和自注意力机制的多标签图像分类方法
Bahroun et al. Building efficient deep hebbian networks for image classification tasks
KR20220098502A (ko) 마스크를 기반으로 하는 다중 레이블 분류 방법 및 장치
CN115601791A (zh) 基于Multiformer及离群样本重分配的无监督行人重识别方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right