KR20220052223A - 객체 감지를 위한 라벨링 장치 및 방법 - Google Patents
객체 감지를 위한 라벨링 장치 및 방법 Download PDFInfo
- Publication number
- KR20220052223A KR20220052223A KR1020200136341A KR20200136341A KR20220052223A KR 20220052223 A KR20220052223 A KR 20220052223A KR 1020200136341 A KR1020200136341 A KR 1020200136341A KR 20200136341 A KR20200136341 A KR 20200136341A KR 20220052223 A KR20220052223 A KR 20220052223A
- Authority
- KR
- South Korea
- Prior art keywords
- labeling
- feature vector
- image
- object detection
- images
- Prior art date
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 title claims description 27
- 238000007689 inspection Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 125
- 239000000284 extract Substances 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
라벨링 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 라벨링 장치는 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 이미지 선별부; 사용자로부터 상기 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득하는 피드백 획득부; 상기 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 상기 라벨 검수 정보를 학습하고, 상기 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 상기 모조 레이블에 기초하여 상기 라벨링 대상 이미지의 라벨링 순서를 재결정하는 모델 학습부를 포함한다.
Description
개시되는 실시예들은 객체 감지를 위한 라벨링 기술과 관련된다.
딥 러닝(Deep Learning) 모델은 유의미한 학습을 위해서 라벨링(Labeling)이 된 다수의 학습 데이터를 필요로 한다. 특히, 이미지 분류(Image Classification) 분야에서는 모델의 학습을 위해 레이블(Label)이 있는 수천 내지 수만 장 이상의 이미지를 필요로 한다.
또한, 이미지의 감지(Detection) 및 세그멘테이션(Segmentation)은 작업자마다 라벨링 품질에 큰 차이가 있고, 라벨링 품질의 차이는 딥 러닝 모델의 성능 저하 현상을 초래하는 문제점이 있었다.
이에 따라, 라벨링 된 이미지가 제한 또는 라벨링된 이미지가 없는 환경에서 라벨링되지 않은 이미지에 대한 라벨링을 수행할 필요가 대두 되었다.
개시되는 실시예들은 객체 감지를 위한 라벨링 장치 및 방법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 데이터 라벨링 방법은, 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 이미지 선별부; 사용자로부터 상기 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득하는 피드백 획득부; 상기 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 상기 라벨 검수 정보를 학습하고, 상기 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 상기 모조 레이블에 기초하여 상기 라벨링 대상 이미지의 라벨링 순서를 재결정하는 모델 학습부를 포함한다.
상기 이미지 선별부는, 상기 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스(Bounding Box)를 획득하기 위한 BPN(Box Proposal Network) 구조를 포함할 수 있다.
상기 이미지 선별부는, 상기 라벨링되지 않은 복수의 이미지의 상기 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 상기 군집화 결과에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
상기 이미지 선별부는, 상기 바운딩 박스의 크기에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
상기 모델 학습부는, 상기 라벨링 대상 이미지에서 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다.
상기 모델 학습부는, 상기 관심 영역을 학습하기 위하여 RPN(Region Proposal Network) 기반의 상기 관심 영역을 포함한 상기 특징 벡터를 추출할 수 있다.
상기 모델 학습부는, 추출된 상기 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델에서 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 포함할 수 있다.
상기 모델 학습부는, 적대적 학습(Adversarial Learning)에 기초하여 상기 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 상기 SPP 기반 모델을 학습할 수 있다.
상기 모델 학습부는, 라벨링되지 않은 이미지 및 상기 라벨링된 이미지를 구분하지 못하도록 상기 특징 벡터에 음의 스칼라 값을 곱하여 반전시키는 GRL(Gradient Reversal Layer) 네트워크 구조를 포함할 수 있다.
상기 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함하되,
상기 GRL(Gradient Reversal Layer) 네트워크 구조는, 상기 객체 특징 벡터 및 상기 이미지 특징 벡터 각각에 적용할 수 있다.
개시되는 일 실시예에 따른 데이터 라벨링 장치는, 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 단계; 사용자로부터 상기 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득하는 단계; 상기 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 상기 라벨 검수 정보를 학습하고, 상기 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 상기 모조 레이블에 기초하여 상기 라벨링 대상 이미지의 라벨링 순서를 재결정하는 모델 학습 단계를 포함할 수 있다.
상기 라벨링 순서를 결정하는 단계는, BPN(Box Proposal Network) 구조에 기초하여 상기 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스(Bounding Box)를 획득할 수 있다.
상기 라벨링 순서를 결정하는 단계는, 상기 라벨링되지 않은 복수의 이미지의 상기 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 상기 군집화 결과에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 단계를 포함할 수 있다.
상기 라벨링 순서를 결정하는 단계는, 상기 바운딩 박스의 크기에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
상기 모델 학습 단계는, 상기 라벨링 대상 이미지에 포함된 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득하는 단계를 포함할 수 있다.
상기 모델 학습 단계는, 상기 관심 영역을 학습하기 위하여 RPN(Region Proposal Network) 기반의 상기 관심 영역을 포함한 특징 벡터를 추출할 수 있다.
상기 모델 학습 단계는, 추출된 상기 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델에서 하나 이상의 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 수행할 수 있다.
상기 모델 학습 단계는, 적대적 학습(Adversarial Learning)에 기초하여 상기 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 상기 특징 벡터를 추출하는 단계를 포함할 수 있다.
상기 모델 학습 단계는, 라벨링되지 않은 이미지 및 상기 라벨링된 이미지를 구분하지 못하도록 음의 스칼라 값을 곱하여 반전시키는 GRL(Gradient Reversal Layer) 네트워크 구조를 상기 특징 벡터에 적용하는 단계를 포함할 수 있다.
상기 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함하되, 상기 GRL 네트워크 구조는, 상기 객체 특징 벡터 및 상기 이미지 특징 벡터 각각에 적용할 수 있다.
개시되는 실시예들에 따르면, 라벨링되지 않은 복수의 이미지에 대해 효율적으로 라벨링할 수 있도록 이미지의 라벨링 우선순위를 결정하고, 라벨링 대상 이미지에 라벨 정보를 표시하여 사용자로부터 피득백을 받아 라벨링의 정확도를 높일 수 있다.
또한, 개시되는 실시예들에 따르면, 라벨링 되지 않은 이미지에 대한 모조 레이블(Pseudo label)을 생성함으로써, 지도 학습을 위해 레이블(Label)이 있는 수천 내지 수만 장 이상의 이미지를 획득하는 과정을 간소화하여 학습의 준비에 소요되는 인력 및 시간을 절감할 수 있다.
또한, 개시되는 실시예들에 따르면, 라벨링 대상 이미지에 포함된 객체가 라벨링 대상 이미지 상의 위치를 나타내는 관심 영역 정보를 포함함으로써, 산업 이미지에 주로 발생할 수 있는 관심 영역 학습을 수행할 수 있다.
도 1은 일 실시예에 따른 객체 감지를 위한 라벨링 장치의 구성도
도 2는 일 실시예에 따른 객체 감지를 위한 라벨링 방법의 순서도
도 3은 일 실시예에 따른 객체 감지를 위한 라벨링 장치에 포함된 모델 학습부의 구성도
도 4는 일 실시예에 따른 객체 감지를 위한 라벨링 학습 방법의 순서도
도 5는 일 실시예에 따른 모델 학습부의 학습 구조를 개괄적으로 나타낸 도면
도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 일 실시예에 따른 객체 감지를 위한 라벨링 방법의 순서도
도 3은 일 실시예에 따른 객체 감지를 위한 라벨링 장치에 포함된 모델 학습부의 구성도
도 4는 일 실시예에 따른 객체 감지를 위한 라벨링 학습 방법의 순서도
도 5는 일 실시예에 따른 모델 학습부의 학습 구조를 개괄적으로 나타낸 도면
도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 개시되는 실시예들은 이에 제한되지 않는다.
실시예들을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 개시되는 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 개시되는 실시예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 일 실시예에 따른 객체 감지를 위한 라벨링 장치의 구성도이다.
도 1은 일 실시예에 따른 라벨링 장치(100)를 설명하기 위한 블록도이다.
도시된 바와 같이, 일 실시예에 따른 라벨링 장치(100)는 이미지 선별부(110), 피드백 획득부(120) 및 모델 학습부(130)를 포함한다.
일 실시예에 따르면, 라벨링 장치(100)는 라벨링되지 않은 복수의 이미지 각각에 대한 특징 벡터에 기초한 정확도 높은 모조 레이블을 출력하도록 학습되는 합성곱 신경망(CNN; Convolutional Neural Network) 기반의 모델일 수 있다.
일 실시예에 따르면, 이미지 선별부(110), 피드백 획득부(120) 및 모델 학습부(130)는 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 프로세서 또는 하나 이상의 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
이미지 선별부(110)는 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 복수의 라벨링 대상 이미지의 라벨링 순서를 결정한다.
일 실시예에 따르면, 이미지 선별부(110)는 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스(Bounding Box)를 획득하기 위한 BPN(Box Proposal Network) 구조를 포함할 수 있다.
일 실시예에 따르면, 이미지 선별부(110)는 바운딩 박스의 크기에 기초하여 복수의 라벨링 대상 이미지의 순서를 결정할 수 있다.
일 실시예에 따르면, 이미지 선별부(110)는 라벨링되지 않은 복수의 이미지의 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 군집화 결과에 기초하여 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
이때, 이미지 선별부(110)에서 수행되는 특징 벡터에 대한 클러스터링은 종래의 K-means Clustering 기법을 통해 수행할 수 있다.
구체적으로, 이미지 선별부(110)는 인공 신경망 구조를 통해 추출한 특징 벡터를 라벨링되지 않은 복수의 이미지 각각에 대한 색인으로 클러스터링을 수행하고, 복수의 라벨링 대상 이미지의 특징 벡터의 클러스터링에 기초하여 획득한 클러스터의 중심으로부터의 거리를 비교하여 차이가 작을수록 우선 라벨링 하도록 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
피드백 획득부(120)는 사용자로부터 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득한다.
일 실시예에 따르면, 피드백 획득부(120)는 사용자로부터 라벨 검수 정보를 획득하기 위하여 라벨이 시각적으로 표시된 복수의 라벨링 대상 이미지를 제공할 수 있다.
모델 학습부(130)는 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 라벨 검수 정보를 학습하고, 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 모조 레이블에 기초하여 라벨링 대상 이미지의 라벨링 순서를 재결정 한다.
일 실시예에 따르면, 모델 학습부(130)는 라벨링 대상 이미지에서 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다.
이하에서 '관심 영역'이란, 종래 RPN(Region Proposal Network)에 없는 객체를 포함한 바운딩 박스의 위치를 알 수 있는 변수를 추가하여 이미지에 포함된 객체가 이미지 상에 어디에 위치하고 있는지를 표시하는 정보를 의미한다.
일 실시예에 따르면, 모델 학습부(130)는 관심 영역을 학습하기 위하여 RPN기반의 관심 영역을 포함한 특징 벡터를 추출할 수 있다.
일 실시예에 따르면, 모델 학습부(130)는 추출된 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델의 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 포함할 수 있다.
종래 객체 감지를 위한 SPP 기반 모델은 객체에 대한 클래스(Class)를 판별하기 위해 객체가 감지된 곳의 SPP layer를 통과한 출력 층(Out Layer)의 특징 벡터를 분류기(Classifier)로 전달하였다. 그러나, 모델 학습부(130)는 풀링 층(Pooling Layer)을 통과할수록 특징 벡터의 크기가 줄어드는 문제가 있었다.
이에 따라, 모델 학습부(130)는 정보가 손실되는 문제를 해결할 위해 SPP기반 모델의 복수의 중간 층 특징 벡터에 접근할 수 있으며, 접근할 수 있는 중간 층을 미리 설정할 수 있다. 또한, 중간 충의 개수는 반드시 특정한 개수로 한정되는 것은 아니며, 실시예에 따라 변경될 수 있다.
일 실시예에 따르면, 모델 학습부(130)는 적대적 학습(Adversarial Learning)에 기초하여 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터를 추출하고, 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다. 이 때, 모조 레이블에 기초하여 라벨링 대상 이미지의 순서를 재결정할 수 있다.
일 실시예에 따르면, 모델 학습부(130)는 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터에 음의 스칼라 값을 곱하여 반전시키는 GRL(Gradient Reversal Layer) 네트워크 구조를 포함할 수 있다.
또한, 음의 스칼라 값을 곱하여 반전시킨 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함할 수 있으며, GRL 네트워크 구조는, 객체 특징 벡터 및 이미지 특징 벡터 각각에 적용할 수 있다.
도 2는 일 실시예에 따른 객체 감지를 위한 라벨링 방법의 순서도이다.
도 2에 도시된 방법은 예들 들어, 도 1에 도시된 라벨링 장치(100)에 의해 수행될 수 있다.
도 2를 참조하면, 라벨링 장치(100)는 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 복수의 라벨링 대상 이미지의 라벨링 순서를 결정한다(210).
일 실시예에 따르면, 라벨링 장치(100)는 복수의 라벨링 대상 이미지를 결정하기 위해 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스를 획득하기 위한 BPN 조를 수행할 수 있다.
일 실시예에 따르면, 이미지 선별부(110)는 바운딩 박스의 크기에 기초하여 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
일 실시예에 따르면, 라벨링되지 않은 복수의 이미지의 상기 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 상기 군집화 결과에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
이때, 특징 벡터의 좌표값에 대한 클러스터링은 종래의 K-means Clustering 기법을 통해 수행할 수 있다.
구체적으로, 이미지 선별부(110)는 인공 신경망 구조를 통해 추출한 특징 벡터를 라벨링되지 않은 복수의 이미지 각각에 대한 색인으로 클러스터링을 수행하고, 복수의 라벨링 대상 이미지의 특징 벡터의 클러스터링에 기초하여 획득한 클러스터의 중심으로부터의 거리를 비교하여 차이가 작을수록 우선 라벨링 하도록 라벨링 대상 이미지의 라벨링 순서를 결정할 수 있다.
이후, 라벨링 장치(100)는 사용자로부터 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득한다(220).
일 실시예에 따르면, 라벨링 장치(100) 사용자로부터 라벨 검수 정보를 획득하기 위하여 라벨이 시각적으로 표시된 복수의 라벨링 대상 이미지를 제공할 수 있다.
이후, 라벨링 장치(100)는 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 라벨 검수 정보를 학습하고, 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습을 위한 모조 레이블을 획득하고, 모조 레이블에 기초하여 라벨링 대상 이미지의 라벨링 순서를 재결정 한다(230).
일 실시예에 따르면, 라벨링 장치(100)는 라벨링 대상 이미지에서 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다.
일 실시예에 따르면, 라벨링 장치(100)는 관심 영역을 학습하기 위하여 RPN 기반의 관심 영역을 포함한 특징 벡터를 추출할 수 있다.
일 실시예에 따르면, 라벨링 장치(100)는 추출된 특징 벡터의 정보 손실을 줄이기 위한 SPP 반 모델의 중간 층 특징 벡터에 접근할 수 있는 네트워크 구조를 포함할 수 있다.
예를 들어, 라벨링 장치(100)는 라벨링 대상 이미지를 이용하여 SPP기반 모델의 하나 이상의 중간 층 특징 벡터에 접근할 수 있으며, 접근할 수 있는 중간 층을 미리 설정할 수 있다.
일 실시예에 따르면, 라벨링 장치(100)는 적대적 학습에 기초하여 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터를 추출하고, 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다. 이 때, 모조 레이블에 기초하여 라벨링 대상 이미지의 순서를 재결정할 수 있다.
일 실시예에 따르면, 라벨링 장치(100)는 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터에 음의 스칼라 값을 곱하여 반전시키는 GRL네트워크 구조를 포함할 수 있다.
또한, 음의 스칼라 값을 곱하여 반전시킨 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함할 수 있으며, GRL 네트워크 구조는, 객체 특징 벡터 및 이미지 특징 벡터 각각에 적용할 수 있다.
한편, 도 2에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 3은 일 실시예에 따른 객체 감지를 위한 라벨링 장치에 포함된 모델 학습부의 구성도이다.
도 3은 일 실시예에 따른 모델 학습부(130)를 설명하기 위한 블록도이다.
도시된 바와 같이, 일 실시예에 따른 모델 학습부(130)는 관심 영역 학습 모델(131), 특징 벡터 접근 모델(132) 및 적대적 학습 모델(133)을 포함한다.
일 실시예에서, 관심 영역 학습 모델(131), 특징 벡터 접근 모델(132) 및 적대적 학습 모델(133)은 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 프로세서 또는 하나 이상의 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
관심 영역 학습 모델(131)은 라벨링 대상 이미지에서 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득하기 위한 모델이다.
일 실시예에 따르면, 관심 영역 학습 모델(131)은 종래 RPN에서 사용하는 특징 벡터가 [batch size, height, width, channels]의 크기 일 때, 0으로 채워진 [1,10,10,1] 크기의 벡터를 생성하고, RPN에서 사용하는 특징 벡터의 height, width 크기로 잘라내어 합성곱하고 관심 영역을 포함한 특징 벡터를 추출할 수 있다.
특징 벡터 접근 모델(132)은 추출된 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델의 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 포함한다.
일 실시예에 따르면, SPP기반 모델의 하나 이상의 중간 층 특징 벡터에 접근할 수 있으며, 접근할 수 있는 중간 층을 미리 설정할 수 있다. 또한, 중간 충의 개수는 반드시 특정한 개수로 한정되는 것은 아니며, 실시예에 따라 변경될 수 있다.
적대적 학습 모델(133)은 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하는 공통 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다.
이 때, 적대적 학습 모델은 이진 분류기(Binary Discriminator)를 이용하여 라벨링되지 않은 이미지와 라벨리된 이미지를 구분할 수 있다.
일 실시예에 따르면, 적대적 학습 모델(133)은 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터에 음의 스칼라 값을 곱하여 반전시키는 GRL 네트워크 구조를 포함할 수 있다.
예를 들어, 적대적 학습 모델(133)은 라벨링되지 않은 이미지 및 라벨링된 이미지의 특징 벡터에 음의 스칼라 값을 곱하여 역전파(Backpropagation)하면서 라벨링되지 않은 이미지와 라벨링된 이미지를 구분하지 못하는 경우 손실(loss)이 줄어들도록 설계하여 라벨링되지 않은 이미지와 라벨링된 이미지의 공통된 특징 벡터를 추출할 수 있다.
또한, 음의 스칼라 값을 곱하여 반전시킨 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함할 수 있으며, GRL 네트워크 구조는, 객체 특징 벡터 및 이미지 특징 벡터 각각에 적용할 수 있다.
도 4는 일 실시예에 따른 객체 감지를 위한 라벨링 학습 방법의 순서도이다.
도 4에 도시된 방법은 예들 들어, 도 3에 도시된 모델 학습부(130)에 의해 수행될 수 있다.
도 4를 참조하면, 우선, 모델 학습부(130)는 관심 영역 기초하여 특징 벡터를 추출한다(410).
일 실시예에 따르면 관심 영역을 학습하기 위하여 RPN 기반의 관심 영역을 포함한 특징 벡터를 추출할 수 있다.
이후, 모델 학습부(130)는 라벨링의 정확도를 높이기 위해 중간 층의 특징 벡터에 접근한다(420).
일 실시예에 따르면, SPP기반 모델에서 하나 이상의 중간 층 특징 벡터에 접근하여 필요한 특징 벡터를 획득할 수 있다.
이후, 모델 학습부(130)는 적대적 학습에 기초하여 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터를 추출하고, 특징 벡터에 기초하여 모조 레이블을 획득한다(430).
일 실시예에 따르면, 모델 학습부(130)는 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 음의 스칼라 값을 곱하여 반전시키는 GRL 네트워크 구조를 특징 벡터에 적용하여 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 특징 벡터를 학습 할 수 있다.
일 실시예에 따르면, 모델 학습부(130)는 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하는 공통 특징 벡터에 기초하여 모조 레이블을 획득할 수 있다.
도 5는 일 실시예에 따른 모델 학습부의 학습 구조를 개괄적으로 나타낸 도면이다.
도 5를 참조하면, 개와 고양이의 두 객체를 포함하는 라벨링 되지 않은 이미지(501)에 대해 RPN 기반 관심 영역을 포함한 특징 벡터를 추출(502)하고, 특징 벡터에 기초하여 개와 고양이에 대한 모조 레이블(503)을 획득한다. 라벨링 되지 않은 이미지(501)에 대한 SPP 기반 모델을 수행하고 하나 이상의 중간 층 특징 벡터(504)를 이용하여 합성곱 연산(507)을 수행한다. 이 때, 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 음의 스칼라 값을 곱하여 반전시키는 GRL 네트워크 구조(505)를 포함하는 적대적 학습(506) 모델에 기초하여 합성곱 연산을 역전파하여 모조 레이블을 갱신하고 사용자로부터 획득한 라벨 검수 결과 라벨링된 이미지에 기초하여 분류(508)를 수행한다.
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 않은 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 도 1 에 도시된 기능 생성 장치(100)에 포함되는 하나 이상의 컴포넌트일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
개시된 실시예들에 따르면, 사용자의 게임 정보에 따라 게이밍 디바이스의 디스플레이 화면 상에 표시되는 게임 애플리케이션의 아이콘이 갱신되도록 함으로써, 각 사용자의 게임 정보에 따라 개인화된 아이콘이 표시되도록 할 수 있다.
또한, 개시된 실시예들에 따르면, 사용자의 게임 정보에 대응되는 시각적 정보가 게임 애플리케이션의 아이콘을 통해 표시되도록 함으로써, 게임 애플리케이션의 아이콘을 통해 사용자에게 게임과 관련된 다양한 정보를 제공할 수 있고, 이를 통해 사용자의 게임 접속을 유도할 수 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
*10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 라벨링 장치
110: 이미지 선별부
120: 피드백 획득부
130: 모델 학습부
131: 관심 영역 학습 모델
132: 특징 벡터 추출 모델
133: 적대적 학습 모델
Claims (20)
- 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 이미지 선별부;
사용자로부터 상기 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득하는 피드백 획득부;
상기 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 상기 라벨 검수 정보를 학습하고, 상기 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 상기 모조 레이블에 기초하여 상기 라벨링 대상 이미지의 라벨링 순서를 재결정하는 모델 학습부를 포함하는, 객체 감지를 위한 라벨링 장치.
- 청구항 1에 있어서,
상기 이미지 선별부는, 상기 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스(Bounding Box)를 획득하기 위한 BPN(Box Proposal Network) 구조를 포함하는, 객체 감지를 위한 라벨링 장치.
- 청구항 2에 있어서,
상기 이미지 선별부는, 상기 라벨링되지 않은 복수의 이미지의 상기 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 상기 군집화 결과에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는, 객체 감지를 위한 라벨링 장치.
- 청구항 3에 있어서,
상기 이미지 선별부는, 상기 바운딩 박스의 크기에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는, 객체 감지를 위한 라벨링 장치.
- 청구항 1에 있어서,
상기 모델 학습부는, 상기 라벨링 대상 이미지에서 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득하는, 객체 감지를 위한 라벨링 장치.
- 청구항 5에 있어서,
상기 모델 학습부는, 상기 관심 영역을 학습하기 위하여 RPN(Region Proposal Network) 기반의 상기 관심 영역을 포함한 상기 특징 벡터를 추출하는, 객체 감지를 위한 라벨링 장치.
- 청구항 6에 있어서,
상기 모델 학습부는, 추출된 상기 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델에서 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 포함하는, 객체 감지를 위한 라벨링 장치.
- 청구항 6에 있어서,
상기 모델 학습부는, 적대적 학습(Adversarial Learning)에 기초하여 상기 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 상기 특징 벡터를 추출하는, 객체 감지를 위한 라벨링 장치.
- 청구항 8에 있어서,
상기 모델 학습부는, 라벨링되지 않은 이미지 및 상기 라벨링된 이미지를 구분하지 못하도록 상기 특징 벡터에 음의 스칼라 값을 곱하여 반전시키는 GRL(Gradient Reversal Layer) 네트워크 구조를 포함하는, 객체 감지를 위한 라벨링 장치.
- 청구항 9에 있어서,
상기 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함하되,
상기 GRL(Gradient Reversal Layer) 네트워크 구조는, 상기 객체 특징 벡터 및 상기 이미지 특징 벡터 각각에 적용하는, 객체 감지를 위한 라벨링 장치.
- 라벨링되지 않은 복수의 이미지 중에서 복수의 라벨링 대상 이미지를 결정하고, 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 단계;
사용자로부터 상기 복수의 라벨링 대상 이미지에 대한 라벨 검수 정보를 획득하는 단계;
상기 라벨링 대상 이미지를 이용하여 사용자로부터 입력 받은 상기 라벨 검수 정보를 학습하고, 상기 라벨 검수 정보를 이용한 학습 결과에 기초하여 지도 학습(Supervised Learning)을 위한 모조 레이블(pseudo label)을 획득하고, 상기 모조 레이블에 기초하여 상기 라벨링 대상 이미지의 라벨링 순서를 재결정하는 모델 학습 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 11에 있어서,
상기 라벨링 순서를 결정하는 단계는, BPN(Box Proposal Network) 구조에 기초하여 상기 라벨링되지 않은 복수의 이미지에 대한 바운딩 박스(Bounding Box)를 획득하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 12에 있어서,
상기 라벨링 순서를 결정하는 단계는, 상기 라벨링되지 않은 복수의 이미지의 상기 바운딩 박스에 대한 특징 벡터에 기초하여 기 설정된 개수의 군집으로 군집화하고, 상기 군집화 결과에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 13에 있어서,
상기 라벨링 순서를 결정하는 단계는, 상기 바운딩 박스의 크기에 기초하여 상기 복수의 라벨링 대상 이미지의 라벨링 순서를 결정하는, 객체 감지를 위한 라벨링 방법.
- 청구항 11에 있어서,
상기 모델 학습 단계는, 상기 라벨링 대상 이미지에 포함된 객체가 위치한 영역에 대응되는 관심 영역에 대한 특징 벡터를 추출하고, 상기 특징 벡터에 기초하여 모조 레이블을 획득하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 15에 있어서,
상기 모델 학습 단계는, 상기 관심 영역을 학습하기 위하여 RPN(Region Proposal Network) 기반의 상기 관심 영역을 포함한 특징 벡터를 추출하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 16에 있어서,
상기 모델 학습 단계는, 추출된 상기 특징 벡터의 정보 손실을 줄이기 위한 SPP(Spatial Pyramid Pooling) 기반 모델에서 하나 이상의 중간 층(Internal Layer) 특징 벡터에 접근할 수 있는 네트워크 구조를 수행하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 16에 있어서,
상기 모델 학습 단계는, 적대적 학습(Adversarial Learning)에 기초하여 상기 라벨링되지 않은 이미지 및 라벨링된 이미지를 구분하지 못하도록 상기 특징 벡터를 추출하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 18에 있어서,
상기 모델 학습 단계는, 라벨링되지 않은 이미지 및 상기 라벨링된 이미지를 구분하지 못하도록 음의 스칼라 값을 곱하여 반전시키는 GRL(Gradient Reversal Layer) 네트워크 구조를 상기 특징 벡터에 적용하는 단계를 포함하는, 객체 감지를 위한 라벨링 방법.
- 청구항 19에 있어서,
상기 특징 벡터는, 객체 특징 벡터 및 이미지 특징 벡터를 포함하되,
상기 GRL 네트워크 구조는, 상기 객체 특징 벡터 및 상기 이미지 특징 벡터 각각에 적용하는, 객체 감지를 위한 라벨링 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200136341A KR20220052223A (ko) | 2020-10-20 | 2020-10-20 | 객체 감지를 위한 라벨링 장치 및 방법 |
US17/177,699 US11756284B2 (en) | 2020-10-20 | 2021-02-17 | Apparatus and method of labeling for object detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200136341A KR20220052223A (ko) | 2020-10-20 | 2020-10-20 | 객체 감지를 위한 라벨링 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220052223A true KR20220052223A (ko) | 2022-04-27 |
Family
ID=81186306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200136341A KR20220052223A (ko) | 2020-10-20 | 2020-10-20 | 객체 감지를 위한 라벨링 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11756284B2 (ko) |
KR (1) | KR20220052223A (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2624270A (en) * | 2022-11-09 | 2024-05-15 | Samsung Electronics Co Ltd | Method for training a machine learning model to perform object detection |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200095335A (ko) | 2019-01-31 | 2020-08-10 | 주식회사 스트라드비젼 | 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3204888A4 (en) * | 2014-10-09 | 2017-10-04 | Microsoft Technology Licensing, LLC | Spatial pyramid pooling networks for image processing |
US20200411167A1 (en) * | 2019-06-27 | 2020-12-31 | Retrace Labs | Automated Dental Patient Identification And Duplicate Content Extraction Using Adversarial Learning |
US11170264B2 (en) * | 2019-05-31 | 2021-11-09 | Raytheon Company | Labeling using interactive assisted segmentation |
KR102283283B1 (ko) * | 2019-07-26 | 2021-07-28 | 주식회사 수아랩 | 데이터 레이블링 우선순위 결정방법 |
-
2020
- 2020-10-20 KR KR1020200136341A patent/KR20220052223A/ko active Search and Examination
-
2021
- 2021-02-17 US US17/177,699 patent/US11756284B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200095335A (ko) | 2019-01-31 | 2020-08-10 | 주식회사 스트라드비젼 | 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20220121872A1 (en) | 2022-04-21 |
US11756284B2 (en) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2743931C1 (ru) | Система и способ обработки изображений с использованием глубинных нейронных сетей | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
US20230177821A1 (en) | Document image understanding | |
US20190385054A1 (en) | Text field detection using neural networks | |
US9349076B1 (en) | Template-based target object detection in an image | |
CN110232689A (zh) | 语义类别定位数字环境 | |
AU2019222819A1 (en) | Method for scaling object detection to a very large number of categories | |
US10762678B2 (en) | Representing an immersive content feed using extended reality based on relevancy | |
US20200279134A1 (en) | Using simulation and domain adaptation for robotic control | |
US11880648B2 (en) | Automatic semantic labeling of form fields with limited annotations | |
US20210216874A1 (en) | Radioactive data generation | |
CN111797886A (zh) | 通过解析pdl文件为神经网络生成ocr用训练数据 | |
KR20210149530A (ko) | 이미지 분류 모델 학습 방법 및 이를 수행하기 위한 장치 | |
US20210374455A1 (en) | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text | |
EP3942459A1 (en) | Object detection and segmentation for inking applications | |
KR20200052446A (ko) | 딥러닝 모델 학습 장치 및 방법 | |
US11989628B2 (en) | Machine teaching complex concepts assisted by computer vision and knowledge reasoning | |
KR20220052223A (ko) | 객체 감지를 위한 라벨링 장치 및 방법 | |
Ferreira et al. | Multimodal learning for sign language recognition | |
Coelho et al. | Object detection with retinanet on aerial imagery: The algarve landscape | |
CN116361502A (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
US20230230406A1 (en) | Facilitating identification of fillable regions in a form | |
KR20200134813A (ko) | 기계 학습을 위한 이미지 처리 장치 및 방법 | |
US11776287B2 (en) | Document segmentation for optical character recognition | |
Ahmed et al. | Cursive scene text analysis by deep convolutional linear pyramids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |