KR102638370B1 - 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스 - Google Patents
오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스 Download PDFInfo
- Publication number
- KR102638370B1 KR102638370B1 KR1020217042549A KR20217042549A KR102638370B1 KR 102638370 B1 KR102638370 B1 KR 102638370B1 KR 1020217042549 A KR1020217042549 A KR 1020217042549A KR 20217042549 A KR20217042549 A KR 20217042549A KR 102638370 B1 KR102638370 B1 KR 102638370B1
- Authority
- KR
- South Korea
- Prior art keywords
- images
- resized
- learning
- testing
- maps
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000009977 dual effect Effects 0.000 title claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 544
- 230000004913 activation Effects 0.000 claims abstract description 348
- 238000012795 verification Methods 0.000 claims description 308
- 230000008569 process Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 32
- 238000005516 engineering process Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000677647 Proba Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
오브젝트 디텍터를 위한 베이시안 듀얼 엔코더를 이용한 익스플레이너블 액티브 러닝 방법에 관한 것으로, (a) 테스트 이미지들을 오브젝트 디텍터에 입력하여 크롭된 이미지들을 생성하고, 테스트 이미지들과 크롭된 이미지들을 리사이즈하며, 리사이즈된 이미지들을 데이터 엔코더에 입력하여 데이터 코드들을 출력하고; (b) (b1) (i) 테스트 이미지들을 오브젝트 디텍터에 입력하고, 베이시안 출력 임베딩을 적용하며, 액티베이션 엔트로피 맵들과 크롭된 액티베이션 엔트로피 맵들을 리사이즈하거나, (ii) 리사이즈된 오브젝트 이미지들을 입력하고, 베이시안 출력 임베딩을 적용하며, (b2) 리사이즈된 액티베이션 엔트로피 맵들을 모델 엔코더에 입력하여 모델 코드들을 출력하고; (c) (i) 레퍼런스 데이터 코드들을 확인하고, 레어 샘플들로 특정 테스트 이미지들을 선택하며, 데이터 코드북을 업데이트하고, (ii) 레퍼런스 모델 코드들을 확인하며, 하드 샘플들로 특정 테스트 이미지들을 선택한다.
Description
본 출원은 2020년 5월 8일에 미국특허청에 출원된 미국특허출원 제63/021,809호 및 2020년 12월 28일에 미국특허청에 출원된 미국특허출원 제17/135,033호를 기초로 출원되었으며 이에 대해 우선권을 주장하고, 이것의 전체 내용이 참조로서 본 명세서에 포함된다.
본 발명은 오브젝트 디텍션을 위한 액티브 러닝(active leaning) 방법 및 이를 이용한 액티브 러닝 장치에 관한 것으로, 보다 상세하게는, 이미지 상에 특정 유형의 오브젝트가 등장하는 지 여부 및 이미지의 씬(scene) 특성을 반영하여 액티브 러닝에 의해 이미지를 선택한 이유를 알 수 있도록 하며, 이를 통해 특정 유형의 이미지를 샘플링할 수 있도록 하는 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더(Bayesian dual autoencoder)를 이용한 익스플레이너블(explainable) 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스에 관한 것이다.
최근, 머신 러닝(machine learning)을 이용하여 물체의 식별 등을 수행하는 방법에 대한 연구가 이루어지고 있다.
이러한 머신 러닝 중의 하나로 인풋 레이어(input layer)와 아웃풋 레이어(output layer) 사이에 여러 개의 히든 레이어(hidden layer)를 가지는 신경망을 이용한 머신 러닝(machine learning)인 딥 러닝(deep learning)은 높은 식별 성능을 가지고 있다.
그리고, 딥 러닝을 이용하는 뉴럴 네트워크(neural network)는 일반적으로 로스(loss)를 이용한 백프로파게이션(backpropagation)을 통해 학습을 한다.
이러한 딥 러닝 네트워크의 학습을 위하여, 종래에는 데이터 수집 정책에 따라 로우(raw) 데이터들을 수집하며, 휴먼 라벨러들이 수집된 로우 데이터를 어노테이션(annotation)하여 새로운 트레이닝 데이터를 생성한다. 이후, 새로운 트레이닝 데이터와 기존 트레이닝 데이터를 이용하여 딥 러닝 네트워크를 학습시킨 다음, 휴먼 엔지니어들이 성능을 분석한 결과를 참조하여 딥 러닝 네트워크의 학습을 위한 학습 알고리즘을 수정 및 개선한다. 또한, 분석한 결과를 참조하여 데이터 수집 정책을 변경하며, 잘못된 어노테이션이 있는지 재검수하고 수정한다.
하지만, 딥 러닝 네트워크의 성능이 좋아질수록 학습에 유용한 하드 이그잼플(hard example)은 희소해지므로 새로운 트레이닝 데이터에 의한 딥 러닝 네트워크의 성능 향상 효과가 감소하게 될 뿐만 아니라, 라벨된 이미지에 대한 데이터베이스가 커질수록 딥 러닝 네트워크의 성능 향상 효과가 감소하게 되며, 그에 따라, 휴먼 라벨러들에 의한 데이터 어노테이션의 투자수익이 감소하게 된다.
한편, 이러한 문제점을 해결하기 위하여, 종래에는 수집된 모든 언라벨된(unlabeled) 이미지를 라벨링하는 대신에, 라벨된 이미지를 저장하는 데이터베이스 사이즈 및 학습시키고자 하는 모델 성능 등의 현재 상황에서 효과가 클 것으로 예상되는 언라벨된 이미지만 골라 라벨링하는 액티브 러닝 기술이 이용되고 있다.
이러한 종래의 액티브 러닝 기술에서는 데이터 분포 관점에서 드물게 획득 가능한 데이터를 중요하게 취급하고 있으며, 이를 위해 다양한 서브 스페이스들(subspaces) 또는 파티션들(partitions)로부터의 쿼링(querying), 탐색(exploration)과 이용(exploitation) 사이의 발란스(balance) 등이 이용되고 있다.
다양한 서브 스페이스들 또는 파티션들로부터의 쿼링에서는, 오리지널 피처(feature) 스페이스의 오버랩핑되지 않거나 최소한으로 오버랩핑되는 파티션에서 언라벨된 데이터를 선택한다. 그리고, 탐색과 이용 사이의 발란스에서는, 이그잼플들의 선택은 데이터 스페이스 표현(represent)에 대한 탐색과 이용 사이의 딜레마로 간주된다. 각 라운드(round)에서, 이 접근 방식은 풀(pool)에 샘플링 분포를 할당하고, 이 분포에서 한 지점을 샘플링한다.
또한, 종래의 종래의 액티브 러닝 기술에서는 이미지를 인식하기 위한 뉴럴 네트워크 모델의 관점에서 어려운 데이터, 즉, 데이터의 종류가 레어(rare)하여 뉴럴 네트워크 모델에서 학습이 덜 된 데이터이거나 원래부터 뉴럴 네트워크 모델에서 인식하기 어려운 데이터를 중요하게 취급하고 있으며, 이를 위해 커미티(committee)에 의한 쿼리, 언설턴티(uncertainty) 샘플링 등이 이용되고 있다.
커미티에 의한 쿼리에서는, 다양한 모델(커미티)이 출력에 대하여 투표하고 가장 동의하지 않은 언라벨된 데이터를 선택한다.
그리고, 언설턴티 샘플링에서는, 올바른 출력이 무엇인지에 대하여 현재 모델이 일 예로, 클래시피케이션을 위한 소프트맥스(softmax) 출력 스코어 측면에서, 가장 확실하지 않은 언라벨된 데이터를 선택한다.
그러나, 종래의 액티브 러닝 기술들은 클래시피케이션 문제로 한정되어 있다.
즉, 종래의 액티브 러닝 기술들은 클래시피케이션 문제에서는, 주어진 H*W 크기의 이미지 전체를 피처 스페이스에 맵핑하는 것으로, 전체적으로 유사한 씬끼리 같은 서브 스페이스에 속하게 되도록 하고 있다.
하지만, 종래의 액티브 러닝 기술들은 오브젝트 디텍션 문제에서는 레어 이미지를 판별하는 데 어려움이 있다.
일 예로, 비슷한 거리 씬에서 보행자의 유무에 따라 서로 다른 서브 스페이스로 맵핑하여야 하나, 종래의 액티브 러닝 기술들은 동일한 서브 스페이스로 분류하는 문제점이 있다.
또한, 종래의 액티브 러닝 기술들은 스탑 사인(stop sign)이 등장하는 이미지의 경우, 전체 이미지 내에서 극히 작은 영역만으로 다른 서브 스페이스로 맵핑하지 못하는 단점이 있다.
즉, 1920*1080 크기의 이미지 내에서 스탑 사인이 존재하는 영역은 50*50 크기, 100*100 크기 등 극히 작은 영역에 속하며, 만약, 스탑 사인이 등장하는 이미지를 고른다고 하면, 해당 영역을 제외한 다른 부분은 모두 무시하여야 하나, 종래의 액티브 러닝 기술들에서는 이를 구현하지 못하는 단점이 있다.
특히, 종래의 액티브 러닝은 데이터 분포 관점에서, 드물다고 해서 꼭 성능이 안 나오는 것은 아니며, 작은 오브젝트, 어두운 환경 등과 같이 자주 등장하지만 어려운 경우도 있을 수 있다. 또한, 하드 서브 스페이스인 경우, 다른 이지(easy) 서브 스페이스보다 더 많이 선택해줘야 하지만, 얼마나 더 선택할지에 대한 최적의 밸런스를 찾기가 쉽지 않다.
그리고, 언설턴티 샘플링에서, 주로 모델이 오버피팅(overfitting)된 경우 100%에 가까운 확신을 가지고 오답을 내리는 경우도 많은데, 이러한 하드 이그잼플은 전혀 골라내지 못하는 문제점이 있다.
한편, 커미티에 의한 쿼리에서는, 특정 서브 스페이스에서 여러 모델들이 전부 오버피팅 또는 언더피팅(underfitting) 되었을 가능성은 낮기 때문에 하드 이그잼플을 좀 더 잘 찾아내는 장점이 있으나, 우리가 학습하고자 하는 뉴럴 네트워크 모델은 보통 1개인데 반하여, 커미티에 의한 쿼리는 여러 모델 간의 출력 미스매치(mismatch)를 통해 일반적인 하드 이그잼플을 찾기 때문에 타겟 모델 고유의 현재 약점, 일 예로, 오버피팅 또는 언더피팅된 서브 스페이스를 찾아낼 수 없는 문제점이 있다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 액티브 러닝에서 오브젝트 유형에 따른 레어 샘플을 용이하게 획득할 수 있도록 하는 것을 다른 목적으로 한다
본 발명은 액티브 러닝에서 특정 유형의 오브젝트의 등장 여부 및 전체 씬의 특성을 반영한 레어 샘플을 획득할 수 있도록 하는 것을 또 다른 목적으로 한다.
본 발명은 액티브 러닝에서 레어 샘플을 선택한 이유를 용이하게 확인 가능하도록 하는 것을 또 다른 목적으로 한다.
본 발명은 액티브 러닝에서 획득된 레어 샘플로부터 특정 유형의 언라벨된 이미지 만을 용이하게 선택할 수 있도록 하는 것을 또 다른 목적으로 한다.
본 발명은 액티브 러닝에서 데이터 분포 관점에서의 레어 샘플과 모델 관점에서의 하드 샘플을 용이하게 획득할 수 있도록 하는 것을 또 다른 목적으로 한다.
본 발명의 일 실시예에 따르면, 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더(Bayesian dual encoder)를 이용한 익스플레이너블(explainable) 액티브 러닝 방법에 있어서, (a) 테스트 이미지들이 획득되면, 액티브 러닝 디바이스가, 상기 테스트 이미지들을 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각에서의 테스트용 오브젝트들을 검출하여 상기 테스트용 오브젝트들에 대응되는 테스트용 바운딩 박스들을 출력하도록 하며, 상기 테스트 이미지들 각각에서 상기 테스트용 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 이미지들 내지 테스트용 제n - 상기 n은 1 이상의 정수임 - 크롭된 이미지들을 생성하고, 상기 테스트 이미지들과 상기 테스트 이미지들 각각에 대응되는 상기 테스트용 제1 크롭된 이미지들 내지 상기 테스트용 제n 크롭된 이미지들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 이미지들 내지 테스트용 제n+1 리사이즈된 이미지들을 생성하며, 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 엔코딩하여 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들에 대응되는 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 출력하도록 하는 단계; (b) 상기 액티브 러닝 디바이스가, (i) 상기 테스트 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각을 m - 상기 m은 2 이상의 정수임 - 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 테스트용 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들 각각에서 상기 테스트용 바운딩 박스들 중 오브젝트로 판별된 테스트용 특정 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o - 상기 o는 n 이하의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들과 상기 테스트용 액티베이션 엔트로피 맵들에 대응되는 상기 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들 중에서 오브젝트로 판별된 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 테스트용 제1 모델 코드들 내지 테스트용 제o+1 모델 코드들을 출력하도록 하는 단계; 및 (c) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 이전 학습에 사용된 이전 학습 이미지들에 의해 생성된 데이터 코드북 - 상기 데이터 코드북은 상기 이전 학습용 이미지들에서의 데이터 코드별 리사이즈된 이미지 개수들을 정리한 것임 - 을 참조하여 카운터 스레시홀드 이하인 리사이즈된 이미지 개수들에 대응되는 레퍼런스 데이터 코드들을 확인하며, 상기 제1 데이터 코드들 내지 상기 제n+1 데이터 코드들 중 상기 레퍼런스 데이터 코드들에 매칭되는 제1 특정 데이터 코드들을 추출하고, 상기 제1 특정 데이터 코드들에 대응되는 제1 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 레어 샘플들로 선정하며, 상기 레어 샘플들에 대응되는 제2 특정 데이터 코드들을 참조하여 상기 데이터 코드북을 업데이트하고, (ii) 상기 오브젝트 디텍터의 재학습 이전에 검증 이미지들에 의해 생성된 모델 코드북 - 상기 모델 코드북은 상기 검증 이미지들에서의 모델 코드별 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 정리한 것임 - 을 참조하여 엔트로피 스레시홀드 이상인 에버러지 엔트로피 값들에 대응되는 레퍼런스 모델 코드들을 확인하며, 상기 제1 모델 코드들 내지 상기 제o+1 모델 코드들 중 상기 레퍼런스 모델 코드들에 매칭되는 특정 모델 코드들을 추출하고, 상기 특정 모델 코드들에 대응되는 제2 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 하드 샘플들로 선정하는 단계; 를 포함하는 방법이 제공된다.
일 실시예에서, (d) 상기 액티브 러닝 디바이스는, 이전 학습용 이미지들, 상기 레어 샘플들, 및 상기 하드 샘플들을 이용하여 상기 오브젝트 디텍터를 재학습시키는 단계; 를 더 포함하는 방법이 제공된다.
일 실시예에서, 상기 (b) 단계에서, 상기 액티브 러닝 디바이스는, (i) 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 바이너리 변환하여 테스트용 제1 바이너리 피처맵들 내지 테스트용 제m 바이너리 피처맵들을 생성하고, 상기 테스트용 제1 바이너리 피처맵들 내지 상기 테스트용 제m 바이너리 피처맵들을 컨캐이터네이트하여 테스트용 액티베이션 프로바빌리티 맵들을 생성하며, 상기 테스트용 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 바이너리 변환하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 생성하고, 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 바이너리 오브젝트 피처맵들 내지 상기 테스트용 제m 바이너리 오브젝트 피처맵들을 컨캐이터네이트하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하는 방법이 제공된다.
일 실시예에서, 상기 (a) 단계에서, 상기 액티브 러닝 디바이스는, 상기 테스트용 바운딩 박스들 중 오검출된 테스트용 바운딩 박스들은 백그라운드 데이터 코드로 맵핑하는 방법이 제공된다.
일 실시예에서, 상기 (c) 단계에서, 상기 카운터 스레시홀드는 기설정된 리사이즈된 이미지 개수이거나, 상기 데이터 코드북에서 리사이즈된 이미지 개수가 높은 순으로부터 q - 상기 q는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 데이터 코드에 대응되는 리사이즈된 이미지 개수이며, 상기 엔트로피 스레시홀드는 기설정된 에버러지 엔트로피 값이거나, 상기 모델 코드북에서 에버러지 엔트로피 값이 높은 순으로부터 s - 상기 s는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 모델 코드에 대응되는 에버러지 엔트로피 값인 방법이 제공된다.
일 실시예에서, 상기 (a) 단계 이전에, (a1) 상기 액티브 러닝 디바이스가, 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들 각각에서 오브젝트 영역들을 크롭하여 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t - 상기 t는 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 학습 이미지들 각각에서 백그라운드 영역들을 크롭하여 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u - 상기 u는 1 이상의 정수임 - 크롭된 백그라운드 이미지들을 생성하며, 상기 학습 이미지들과 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 오브젝트 이미지들 내지 상기 학습용 제t 크롭된 오브젝트 이미지들, 및 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 백그라운드 이미지들 내지 상기 학습용 제u 크롭된 백그라운드 이미지들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들, 및 학습용 제1 리사이즈된 백그라운드 이미지들 내지 학습용 제u 리사이즈된 백그라운드 이미지들을 생성하며, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 데이터 오토엔코더의 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 엔코딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들에 대응되는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들에 대응되는 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 출력하도록 하며, 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 상기 데이터 오토엔코더의 데이터 디코더에 입력하여 상기 데이터 디코더로 하여금 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 디코딩하여 학습용 제1 리컨스트럭된 이미지들 내지 제t+1 리컨스트럭된 이미지들을 출력하도록 하고, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들과 상기 학습용 제1 리컨스트럭된 이미지들 내지 상기 학습용 제t+1 리컨스트럭된 이미지들을 참조한 제1 오브젝트 로스들 내지 제t+1 오브젝트 로스들을 이용하여 상기 데이터 디코더와 상기 데이터 엔코더를 학습시키며, 상기 학습용 제1 백그라운드 데이터 코드들 내지 상기 학습용 제u 백그라운드 데이터 코드들을 참조한 백그라운드 로스들을 이용하여 상기 데이터 엔코더를 학습시키는 단계; 를 더 포함하는 방법이 제공된다.
일 실시예에서, (a2) 상기 액티브 러닝 디바이스가, 상기 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들 각각에서 오브젝트 영역들을 크롭하여 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v - 상기 v은 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 검증 이미지들과 상기 검증 이미지들 각각에 대응되는 상기 검증용 제1 크롭된 오브젝트 이미지들 내지 상기 검증용 제v 크롭된 오브젝트 이미지들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들을 생성하며, 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 엔코딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들에 대응되는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 출력하도록 하고, 상기 검증용 제1 오브젝트 데이터 코드들 내지 상기 검증용 제v+1 오브젝트 데이터 코드들을 데이터 코드별로 분류하며, 각각의 데이터 코드들에 대응되는 리사이즈된 이미지들의 개수를 카운팅하여 상기 데이터 코드북을 생성하는 단계; 를 더 포함하는 방법이 제공된다.
일 실시예에서, 상기 (a) 단계 이전에, (a3) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습 이미지들 각각에 대응되는 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 생성하도록 하며, 상기 학습용 제1 피처맵들 내지 상기 학습용 제m 피처맵들을 베이시안 출력 임베딩하여 학습용 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x - 상기 x는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들과 상기 학습용 액티베이션 엔트로피 맵들에 대응되는 상기 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 학습 이미지들과 상기 학습 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 학습용 제1 오브젝트 피처맵들 내지 상기 학습용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 출력하도록 하고, 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 상기 모델 오토엔코더의 모델 디코더로 입력하여 상기 모델 디코더로 하여금 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 디코딩하여 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 출력하도록 하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들과 상기 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 상기 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 참조한 제1 엔트로피 로스들 내지 제x+1 엔트로피 로스들을 이용하여 상기 모델 디코더와 상기 모델 엔코더를 학습시키는 단계; 를 더 포함하는 방법이 제공된다.
일 실시예에서, (a4) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증 이미지들 각각에 대응되는 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 생성하도록 하며, 상기 검증용 제1 피처맵들 내지 상기 검증용 제m 피처맵들을 베이시안 출력 임베딩하여 검증용 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y - 상기 y는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들과 상기 검증용 액티베이션 엔트로피 맵들에 대응되는 상기 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 검증 이미지들과 상기 검증 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 검증용 제1 오브젝트 피처맵들 내지 상기 검증용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 출력하도록 하고, 상기 검증용 제1 모델 코드들 내지 상기 검증용 제y+1 모델 코드들을 모델 코드별로 분류하며, 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 참조하여 상기 모델 코드북을 생성하는 단계; 를 더 포함하는 방법이 제공된다.
일 실시예에서, 상기 액티브 러닝 디바이스는, 상기 오브젝트 디텍터의 학습 및 재학습이 이루어질 때마다, 상기 모델 엔코더를 학습시키며, 상기 모델 코드북을 생성하는 방법이 제공된다.
본 발명의 다른 실시예에 따르면, 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더(Bayesian dual encoder)를 이용한 익스플레이너블(explainable) 액티브 러닝을 수행하는 액티브 러닝 디바이스에 있어서, 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하기 위한 인스트럭션들이 저장된 메모리; 및 상기 메모리에 저장된 인스트럭션들에 따라 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하는 프로세서; 를 포함하며, 상기 프로세서는, (I) 테스트 이미지들이 획득되면, 상기 테스트 이미지들을 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각에서의 테스트용 오브젝트들을 검출하여 상기 테스트용 오브젝트들에 대응되는 테스트용 바운딩 박스들을 출력하도록 하며, 상기 테스트 이미지들 각각에서 상기 테스트용 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 이미지들 내지 테스트용 제n - 상기 n은 1 이상의 정수임 - 크롭된 이미지들을 생성하고, 상기 테스트 이미지들과 상기 테스트 이미지들 각각에 대응되는 상기 테스트용 제1 크롭된 이미지들 내지 상기 테스트용 제n 크롭된 이미지들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 이미지들 내지 테스트용 제n+1 리사이즈된 이미지들을 생성하며, 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 엔코딩하여 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들에 대응되는 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 출력하도록 하는 프로세스, (II) (i) 상기 테스트 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각을 m - 상기 m은 2 이상의 정수임 - 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 테스트용 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들 각각에서 상기 테스트용 바운딩 박스들 중 오브젝트로 판별된 테스트용 특정 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o - 상기 o는 n 이하의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들과 상기 테스트용 액티베이션 엔트로피 맵들에 대응되는 상기 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들 중에서 오브젝트로 판별된 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 테스트용 제1 모델 코드들 내지 테스트용 제o+1 모델 코드들을 출력하도록 하는 프로세스, 및 (III) (i) 상기 오브젝트 디텍터의 이전 학습에 사용된 이전 학습 이미지들에 의해 생성된 데이터 코드북 - 상기 데이터 코드북은 상기 이전 학습용 이미지들에서의 데이터 코드별 리사이즈된 이미지 개수들을 정리한 것임 - 을 참조하여 카운터 스레시홀드 이하인 리사이즈된 이미지 개수들에 대응되는 레퍼런스 데이터 코드들을 확인하며, 상기 제1 데이터 코드들 내지 상기 제n+1 데이터 코드들 중 상기 레퍼런스 데이터 코드들에 매칭되는 제1 특정 데이터 코드들을 추출하고, 상기 제1 특정 데이터 코드들에 대응되는 제1 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 레어 샘플들로 선정하며, 상기 레어 샘플들에 대응되는 제2 특정 데이터 코드들을 참조하여 상기 데이터 코드북을 업데이트하고, (ii) 상기 오브젝트 디텍터의 재학습 이전에 검증 이미지들에 의해 생성된 모델 코드북 - 상기 모델 코드북은 상기 검증 이미지들에서의 모델 코드별 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 정리한 것임 - 을 참조하여 엔트로피 스레시홀드 이상인 에버러지 엔트로피 값들에 대응되는 레퍼런스 모델 코드들을 확인하며, 상기 제1 모델 코드들 내지 상기 제o+1 모델 코드들 중 상기 레퍼런스 모델 코드들에 매칭되는 특정 모델 코드들을 추출하고, 상기 특정 모델 코드들에 대응되는 제2 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 하드 샘플들로 선정하는 프로세스를 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, (IV) 이전 학습용 이미지들, 상기 레어 샘플들, 및 상기 하드 샘플들을 이용하여 상기 오브젝트 디텍터를 재학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, 상기 (II) 프로세스에서, (i) 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 바이너리 변환하여 테스트용 제1 바이너리 피처맵들 내지 테스트용 제m 바이너리 피처맵들을 생성하고, 상기 테스트용 제1 바이너리 피처맵들 내지 상기 테스트용 제m 바이너리 피처맵들을 컨캐이터네이트하여 테스트용 액티베이션 프로바빌리티 맵들을 생성하며, 상기 테스트용 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 바이너리 변환하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 생성하고, 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 바이너리 오브젝트 피처맵들 내지 상기 테스트용 제m 바이너리 오브젝트 피처맵들을 컨캐이터네이트하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, 상기 (I) 프로세스에서, 상기 테스트용 바운딩 박스들 중 오검출된 테스트용 바운딩 박스들은 백그라운드 데이터 코드로 맵핑하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 카운터 스레시홀드는 기설정된 리사이즈된 이미지 개수이거나, 상기 데이터 코드북에서 리사이즈된 이미지 개수가 높은 순으로부터 q - 상기 q는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 데이터 코드에 대응되는 리사이즈된 이미지 개수이며, 상기 엔트로피 스레시홀드는 기설정된 에버러지 엔트로피 값이거나, 상기 모델 코드북에서 에버러지 엔트로피 값이 높은 순으로부터 s - 상기 s는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 모델 코드에 대응되는 에버러지 엔트로피 값인 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, 상기 (I) 프로세스 이전에, (I01) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들 각각에서 오브젝트 영역들을 크롭하여 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t - 상기 t는 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 학습 이미지들 각각에서 백그라운드 영역들을 크롭하여 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u - 상기 u는 1 이상의 정수임 - 크롭된 백그라운드 이미지들을 생성하며, 상기 학습 이미지들과 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 오브젝트 이미지들 내지 상기 학습용 제t 크롭된 오브젝트 이미지들, 및 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 백그라운드 이미지들 내지 상기 학습용 제u 크롭된 백그라운드 이미지들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들, 및 학습용 제1 리사이즈된 백그라운드 이미지들 내지 학습용 제u 리사이즈된 백그라운드 이미지들을 생성하며, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 데이터 오토엔코더의 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 엔코딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들에 대응되는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들에 대응되는 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 출력하도록 하며, 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 상기 데이터 오토엔코더의 데이터 디코더에 입력하여 상기 데이터 디코더로 하여금 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 디코딩하여 학습용 제1 리컨스트럭된 이미지들 내지 제t+1 리컨스트럭된 이미지들을 출력하도록 하고, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들과 상기 학습용 제1 리컨스트럭된 이미지들 내지 상기 학습용 제t+1 리컨스트럭된 이미지들을 참조한 제1 오브젝트 로스들 내지 제t+1 오브젝트 로스들을 이용하여 상기 데이터 디코더와 상기 데이터 엔코더를 학습시키며, 상기 학습용 제1 백그라운드 데이터 코드들 내지 상기 학습용 제u 백그라운드 데이터 코드들을 참조한 백그라운드 로스들을 이용하여 상기 데이터 엔코더를 학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, (I02) 상기 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들 각각에서 오브젝트 영역들을 크롭하여 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v - 상기 v은 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 검증 이미지들과 상기 검증 이미지들 각각에 대응되는 상기 검증용 제1 크롭된 오브젝트 이미지들 내지 상기 검증용 제v 크롭된 오브젝트 이미지들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들을 생성하며, 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 엔코딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들에 대응되는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 출력하도록 하고, 상기 검증용 제1 오브젝트 데이터 코드들 내지 상기 검증용 제v+1 오브젝트 데이터 코드들을 데이터 코드별로 분류하며, 각각의 데이터 코드들에 대응되는 리사이즈된 이미지들의 개수를 카운팅하여 상기 데이터 코드북을 생성하는 프로세스를 더 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, 상기 (I) 프로세스 이전에, (I03) (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습 이미지들 각각에 대응되는 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 생성하도록 하며, 상기 학습용 제1 피처맵들 내지 상기 학습용 제m 피처맵들을 베이시안 출력 임베딩하여 학습용 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x - 상기 x는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들과 상기 학습용 액티베이션 엔트로피 맵들에 대응되는 상기 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 학습 이미지들과 상기 학습 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 학습용 제1 오브젝트 피처맵들 내지 상기 학습용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 출력하도록 하고, 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 상기 모델 오토엔코더의 모델 디코더로 입력하여 상기 모델 디코더로 하여금 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 디코딩하여 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 출력하도록 하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들과 상기 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 상기 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 참조한 제1 엔트로피 로스들 내지 제x+1 엔트로피 로스들을 이용하여 상기 모델 디코더와 상기 모델 엔코더를 학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세스는, (I04) (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증 이미지들 각각에 대응되는 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 생성하도록 하며, 상기 검증용 제1 피처맵들 내지 상기 검증용 제m 피처맵들을 베이시안 출력 임베딩하여 검증용 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y - 상기 y는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들과 상기 검증용 액티베이션 엔트로피 맵들에 대응되는 상기 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 검증 이미지들과 상기 검증 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 검증용 제1 오브젝트 피처맵들 내지 상기 검증용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 출력하도록 하고, 상기 검증용 제1 모델 코드들 내지 상기 검증용 제y+1 모델 코드들을 모델 코드별로 분류하며, 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 참조하여 상기 모델 코드북을 생성하는 프로세스를 더 수행하는 액티브 러닝 디바이스가 제공된다.
일 실시예에서, 상기 프로세서는, 상기 오브젝트 디텍터의 학습 및 재학습이 이루어질 때마다, 상기 모델 엔코더를 학습시키며, 상기 모델 코드북을 생성하는 액티브 러닝 디바이스가 제공된다.
이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명은 액티브 러닝에서 오브젝트 디텍터와 베이시안 듀얼 오토엔코더를 함께 이용하여 피처 스페이스를 맵핑함으로써 오브젝트 유형에 따른 레어 샘플을 용이하게 획득할 수 있게 된다.
본 발명은 액티브 러닝에서 오브젝트 디텍터와 베이시안 듀얼 오토엔코더를 함께 이용하여 피처 스페이스를 맵핑함으로써 특정 유형의 오브젝트의 등장 여부 및 전체 씬의 특성을 반영한 레어 샘플을 획득할 수 있게 된다.
본 발명은 액티브 러닝에서 오브젝트 디텍터와 베이시안 듀얼 오토엔코더를 함께 이용하여 피처 스페이스를 맵핑하며 코드화함으로써 레어 샘플을 선택한 이유를 용이하게 확인 가능하게 된다.
본 발명은 액티브 러닝에서 오브젝트 디텍터와 베이시안 듀얼 오토엔코더를 함께 이용하여 피처 스페이스를 맵핑하며 코드화함으로써 특정 유형의 이미지 샘플 만을 용이하게 선택할 수 있게 된다.
본 발명은 액티브 러닝에서 데이터 분포 관점에서의 레어 샘플과 모델 관점에서의 하드 샘플을 용이하게 획득할 수 있게 된다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하는 액티브 러닝 디바이스를 개략적으로 도시한 것이며,
도 2는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법을 개략적으로 도시한 것이며,
도 3은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 액티베이션 엔트로피 맵(activation entropy map)을 생성하는 과정을 개략적으로 도시한 것이며,
도 4는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 코드북(codebook)을 이용하여 오브젝트 디텍터의 학습을 위한 샘플 이미지를 선정하는 과정을 개략적으로 도시한 것이며,
도 5는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 코드북에 따른 학습 이미지의 선택 이유를 설명하는 상태를 개략적으로 도시한 것이며,
도 6은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 데이터 엔코더를 학습하는 과정을 개략적으로 도시한 것이며,
도 7은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 데이터 코드북을 생성하는 과정을 개략적으로 도시한 것이며,
도 8은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 모델 엔코더를 학습하는 과정을 개략적으로 도시한 것이며,
도 9는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 모델 코드북을 생성하는 과정을 개략적으로 도시한 것이다.
도 1은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하는 액티브 러닝 디바이스를 개략적으로 도시한 것이며,
도 2는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법을 개략적으로 도시한 것이며,
도 3은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 액티베이션 엔트로피 맵(activation entropy map)을 생성하는 과정을 개략적으로 도시한 것이며,
도 4는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 코드북(codebook)을 이용하여 오브젝트 디텍터의 학습을 위한 샘플 이미지를 선정하는 과정을 개략적으로 도시한 것이며,
도 5는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 코드북에 따른 학습 이미지의 선택 이유를 설명하는 상태를 개략적으로 도시한 것이며,
도 6은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 데이터 엔코더를 학습하는 과정을 개략적으로 도시한 것이며,
도 7은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 데이터 코드북을 생성하는 과정을 개략적으로 도시한 것이며,
도 8은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 모델 엔코더를 학습하는 과정을 개략적으로 도시한 것이며,
도 9는 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법에서 모델 코드북을 생성하는 과정을 개략적으로 도시한 것이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, "포함하다"라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하는 액티브 러닝 디바이스를 개략적으로 도시한 것으로, 도 1을 참조하면, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터의 학습에 사용하기 위한 학습 이미지를 샘플링하기 위하여 베이시안 듀얼 오토엔코더를 이용하여 익스플레이너블 액티브 러닝을 수행하기 위한 인스트럭션들이 저장된 메모리(1001)와 메모리(1001)에 저장된 인스트럭션들에 따라 오브젝트 디텍터의 학습에 사용하기 위한 학습 이미지를 샘플링하기 위하여 베이시안 듀얼 오토엔코더를 이용하여 익스플레이너블 액티브 러닝을 수행하는 프로세서(1002)를 포함할 수 있다.
구체적으로, 액티브 러닝 디바이스(1000)는 컴퓨팅 장치(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
또한, 컴퓨팅 장치의 프로세서는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 컴퓨팅 장치는 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
그러나, 컴퓨팅 장치가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 integrated 프로세서를 포함하는 경우를 배제하는 것은 아니다.
이와 같이 구성된 액티브 러닝 디바이스(1000)를 이용하여 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법을 도 2를 참조하여 설명하면 다음과 같다.
먼저, 테스트 이미지들이 획득되면, 액티브 러닝 디바이스(1000)가, 상기 테스트 이미지들을 오브젝트 디텍터(200)로 입력하여 상기 오브젝트 디텍터(200)로 하여금 상기 테스트 이미지들 각각에서의 테스트용 오브젝트들을 검출하여 상기 테스트용 오브젝트들에 대응되는 테스트용 바운딩 박스들을 출력하도록 할 수 있다. 또한, 오브젝트 디텍터(200)는 테스트용 오브젝트들에 대응되는 테스트용 클래스 정보 및 테스트용 오브젝트들과 관련한 다양한 디텍션 정보들을 출력할 수 있다.
이때, 오브젝트 디텍터(200)는 디텍션 스레시홀드(threshold)를 낮게 설정하여, 테스트 이미지들에서의 포어그라운드(foreground0 클래스 스코어가 낮은 바운딩 박스도 포함하여 최대한 많은 테스트용 바운딩 박스를 검출하도록 할 수 있다. 이를 통해, 실제로는 등장하는 오브젝트를 등장하지 않은 것으로 잘못 판단하는 경우를 최대한 방지할 수 있게 되며, 특히, 검출이 어려운 유형의 오브젝트를 검출할 수 있게 된다.
그리고, 오브젝트 디텍터(200)는 입력되는 이미지 상에 위치하는 오브젝트들을 검출하도록 미리 학습된 상태일 수 있다.
또한, 테스트 이미지들은 오브젝트 디텍터(200)가 인스톨된 장치와 연계된 이미지 캡쳐(capture) 장치로부터 획득된 이미지들이거나, 오브젝트 디텍터(200)가 수행하고자 하는 태스크(task)와 관련하여 수집된 이미지들일 수 있으며, 학습 이미지로 이용하기 위한 라벨링이 수행되지 않은 언라벨된 이미지들일 수 있다.
일 예로, 테스트 이미지들은 자동차의 주행 중 카메라, 라이다, 레이더 등을 통해 획득된 주행 이미지들일 수 있다.
다음으로, 액티브 러닝 디바이스(1000)는 테스트 이미지들 각각에서 테스트용 바운딩 박스들에 대응되는 영역들을 크롭(crop)한 테스트용 제1 크롭된 이미지들 내지 테스트용 제n 크롭된 이미지들을 생성하고, 테스트 이미지들과 테스트 이미지들 각각에 대응되는 테스트용 제1 크롭된 이미지들 내지 테스트용 제n 크롭된 이미지들을 동일한 사이즈로 리사이즈(resize)하여 테스트용 제1 리사이즈된(resized) 이미지들(210_1) 내지 테스트용 제n+1 리사이즈된 이미지들(210_(n+1))을 생성할 수 있다. 상기 n은 1 이상의 정수일 수 있다.
다음으로, 액티브 러닝 디바이스(1000)는 테스트용 제1 리사이즈된 이미지들(210_1) 내지 테스트용 제n+1 리사이즈된 이미지들(210_(n+1))을 데이터 엔코더(310)로 입력하여 데이터 엔코더(310)로 하여금 테스트용 제1 리사이즈된 이미지들(210_1) 내지 테스트용 제n+1 리사이즈된 이미지들(210_(n+1))을 엔코딩하여 테스트용 제1 리사이즈된 이미지들(210_1) 내지 테스트용 제n+1 리사이즈된 이미지들(210_(n+1))에 대응되는 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 출력하도록 할 수 있다.
이때, 액티브 러닝 디바이스(1000)는 데이터 엔코더(310)의 출력들에 시그모이드(sigmoid) 등과 같은 액티베이션 함수(activation function)을 적용하여 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 획득할 수도 있다.
그리고, 데이터 코드들은 d-디멘션의 [0,1] 레인지(range)로 표현될 수 있으며, 각각의 리사이즈된 이미지들에 대한 서브 스페이스가 될 수 있다. 그리고, 백그라운드(background) 영역에 대응되는 데이터 코드는 all zero로 표현될 수 있다. 또한, 오검출된 테스트용 바운딩 박스에 대응되는 리사이즈된 이미지들에 대한 데이터 코드는 백그라운드 코드, 즉, all zero로 맵핑될 수 있다.
다음으로, 액티브 러닝 디바이스(1000)는, 테스트 이미지들을 오브젝트 디텍터(200)로 입력하여 오브젝트 디텍터(200)로 하여금 테스트 이미지들 각각을 m회 몬테 카를로 드롭아웃(Monte Carlo dropout)을 수행하여 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 생성하도록 하며, 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 베이시안 아웃풋 임베딩(embedding)하여 테스트용 액티베이션 엔트로피 맵들을 생성할 수 있다. 상기 m은 2 이상의 정수일 수 있다.
즉, 도 3을 참조하면, 액티브 러닝 디바이스(1000)는 테스트 이미지들을 오브젝트 디텍터(200)에 입력하여 오브젝트 디텍터(200)가 테스트 이미지들에 대한 인퍼런스(inference)를 수행하도록 하며, 오브젝트 디텍터(200)에서의 특정 레이어(layer)들에 대해 드롭아웃을 수행할 수 있다. 보다 바람직하게는, 오브젝트 디텍터(200)의 컨볼루션 블록들에서의 특정 레이어들에 대해 드롭아웃을 수행할 수 있다.
이때, 각각의 특정 레이어들에서의 드롭아웃은 일 예로 몬테 카를로 드롭아웃을 이용할 수 있으며, 다음의 수학식과 같이 나타내어질 수 있다.
상기 수학식에서 i는 테스트 이미지의 높이(height) 방향의 픽셀 위치를 나타내며, j는 테스트 이미지의 넓이(width) 방향의 픽셀 위치를 나타내며, k는 테스트 이미지의 채널을 나타내는 것일 수 있다.
한편, 오브젝트 디텍터(200)가 드롭아웃을 포함하여 학습되지 않았을 경우에는 드롭아웃 확률을 충분히 낮게, 일 예로, 0.01 내지 0.1로 설정할 수 있다.
따라서, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터(200)에 m회의 드롭아웃을 수행하여 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들(F1) 내지 테스트용 제m 피처맵들(Fm)을 출력하도록 한 다음, 테스트용 제1 피처맵들(F1) 내지 테스트용 제m 피처맵들(Fm)에 대응되는 테스트용 액티베이션 프로바빌리티(probability) 맵들을 생성하고, 테스트용 액티베이션 프로바빌리티 맵들에서의 엔트로피들을 계산함으로써 테스트용 액티베이션 엔트로피 맵들을 생성할 수 있다.
즉, 액티브 러닝 디바이스(1000)는 테스트용 제1 피처맵들(F1) 내지 테스트용 제m 피처맵들(Fm)을 바이너리(binary) 변환하여 테스트용 제1 바이너리 피처맵들(B1) 내지 테스트용 제m 바이너리 피처맵들(Bm)을 생성하고, 테스트용 제1 바이너리 피처맵들(B1) 내지 테스트용 제m 바이너리 피처맵들(Bm)을 컨캐이터네이트(concatenate)하여 테스트용 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 액티베이션 프로바빌리티 맵들을 참조하여 테스트용 액티베이션 엔트로피 맵들을 생성할 수 있다.
이를 좀 더 상세히 설명하면, 액티브 러닝 디바이스(1000)는 테스트용 제1 피처맵들(F1) 내지 테스트용 제m 피처맵들(Fm) 각각에 다음의 수학식과 같은 바이너리 함수를 적용하여 테스트용 제1 바이너리 피처맵들(B1) 내지 테스트용 제m 바이너리 피처맵들(Bm)을 생성한다.
그리고, 액티브 러닝 디바이스(1000)는 테스트용 제1 바이너리 피처맵들(B1) 내지 테스트용 제m 바이너리 피처맵들(Bm)의 프로바빌리티들을 참조하여 다음의 수학식에 의해 테스트 이미지들에 대응되는 테스트용 액티베이션 프로바빌리티 맵들을 생성한다.
이후, 액티브 러닝 디바이스(1000)는 테스트용 액티베이션 프로바빌리티 맵들에서 다음의 수학식에 의한 엔트로피들을 연산함으로써 테스트용 액티베이션 엔트로피 맵들을 생성할 수 있다.
즉, 액티브 러닝 디바이스(1000)는 테스트 이미지들에 대하여 드롭아웃을 m회 수행한 다음, 피처맵들의 엔트로피들을 계산할 수 있다.
이때, 엔트로피는 피처가 액티베이션 되었는지 아닌지의 2 클래스로 계산할 수 있다. 이는 일반적으로 액티베이션 값의 크기 차이보다는 액티베이션이 되고 안되고 여부가 오브젝트 디텍터(200)의 최종 출력에 더 큰 영향을 주기 때문이다.
그리고, 오브젝트 디텍터(200) 자체에 퍼터베이션(perturbation)을 적용하여 타겟 모델의 언스테이블(unstable)한 서브 스페이스를 효과적으로 감지할 수 있게 된다. 이때, 오브젝트 디텍터(200) 자체에 퍼터베이션을 적용함으로써 오브젝트 디텍터(200)에서 일부 출력으로의 연결을 강제적으로 절단하는 효과가 있을 수 있다.
즉, 일반적으로 서브 스페이스가 스테이블하게 학습된 경우에는 약간의 컨넥션(connection) 절단으로는 피처에 유의미한 영향을 주지 않는다.
하지만, 서브 스페이스가 언스테이블한 상황, 일 예로 오버피팅 또는 언더피팅인 경우에는 약간의 퍼터베이션도 피처에 큰 영향을 줄 수 있다.
따라서, 인풋을 다양하게 변환(transform)하는 방법, 일 예로 데이터 어그멘테이션(augmentation)를 쓰는 경우, 서브 스페이스 자체가 달라질 수 있으므로, 본 발명에서는 오브젝트 디텍터(200)에 퍼터베이션을 주는 베이시안 방법(Bayesian method)을 사용하여 서브 스페이스 자체가 달라지는 것을 방지할 수 있게 된다.
다시 도 2를 참조하면, 액티브 러닝 디바이스(1000)는 테스트용 액티베이션 엔트로피 맵들 각각에서 테스트용 바운딩 박스들 중 오브젝트로 판별된 테스트용 특정 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 생성하고, 테스트용 액티베이션 엔트로피 맵들과 테스트용 액티베이션 엔트로피 맵들에 대응되는 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들(220_1) 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들(220_(o+1))을 생성할 수 있다. 상기 o는 n 이하의 정수일 수 있다.
이때, 액티베이션 엔트로피 맵은 테스트 이미지보다 크기가 작으므로, 리사이즈된 액티베이션 엔트로피 맵의 크기를 리사이즈된 이미지보다 크게 할 수 있다.
한편, 상기에서는 테스트용 액티베이션 엔트로피 맵들을 생성한 다음 오브젝트 영역들을 크롭하였으나, 이와는 달리, 오브젝트 영역들을 크롭한 다음 크롭된 이미지들을 액티베이션 엔트로피 맵들로 생성할 수도 있다.
즉, 액티브 러닝 디바이스(1000)는 테스트용 제1 리사이즈된 이미지들 내지 테스트용 제n+1 리사이즈된 이미지들 중에서 오브젝트로 판별된 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 오브젝트 디텍터(200)로 입력하여 오브젝트 디텍터(200)로 하여금 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 생성하도록 할 수 있다. 그리고, 액티브 러닝 디바이스(1000)는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들(220_1) 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들(220_(o+1))을 생성할 수 있다.
이를 좀 더 상세히 설명하면, 액티브 러닝 디바이스(1000)는 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 바이너리 변환하여 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 생성할 수 있다. 그리고, 액티브 러닝 디바이스(1000)는 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 컨캐이터네이트하여 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 참조하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성할 수 있다.
다음으로, 액티브 러닝 디바이스(1000)는 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들(220_1) 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들(220_(o+1))을 모델 엔코더(410)로 입력하여 모델 엔코더(410)로 하여금 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들(210_1) 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들(210_(o+1))을 엔코딩하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들(210_1) 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들(210_(o+1))에 대응되는 테스트용 제1 모델 코드들 내지 테스트용 제o+1 모델 코드들을 출력하도록 할 수 있다.
이때, 모델 코드들은 d-디멘션의 [0,1] 레인지로 표현될 수 있으며, 각각의 모델 코드들은 오브젝트 디텍터(200)의 스테빌리티(stability)의 유형을 나타내는 것일 수 있다.
다음으로, 도 4를 참조하면, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터(200)의 이전 학습에 사용된 이전 학습용 이미지들에 의해 생성된 데이터 코드북(510)을 참조하여 카운터 스레시홀드 이하인 리사이즈된 이미지 개수들에 대응되는 레퍼런스(reference) 데이터 코드들을 확인하며, 제1 데이터 코드들 내지 제n+1 데이터 코드들 중 레퍼런스 데이터 코드들에 매칭되는 제1 특정 데이터 코드들을 추출하고, 제1 특정 데이터 코드들에 대응되는 제1 특정 테스트 이미지들을 오브젝트 디텍터(200)의 재학습을 위한 레어 샘플들로 선정하며, 레어 샘플들에 대응되는 제2 특정 데이터 코드들을 참조하여 데이터 코드북(510)을 업데이트할 수 있다. 상기 데이터 코드북(510)을 생성하는 과정에 대해서는 다음에 설명하기로 한다.
이때, 카운터 스레시홀드는 기설정된 리사이즈된 이미지 개수이거나, 데이터 코드북(510)에서 리사이즈된 이미지 개수가 높은 순으로부터 q 번째에 해당되는 스레시홀드 데이터 코드에 대응되는 리사이즈된 이미지 개수일 수 있다. 상기 q는 1 이상의 정수일 수 있다.
즉, 데이터 코드인 서브 스페이스에 대응하는 이미지수의 개수가 적을수록 오브젝트 디텍터(200)의 이전 학습에서 충분히 학습되지 않은 레어 서브 스페이스로 판단할 수 있으며, 그에 따라 데이터 코드북을 이용하여 오브젝트 디텍터(200)의 이전 학습에서 충분히 학습되지 않은 제1 특정 데이터 코드들에 대응되는 테스트 이미지들을 레어 샘플, 즉, 레어 이미지로 샘플링할 수 있으며, 샘플링된 특정 테스트 이미지들에 대응되는 제2 특정 데이터 코드들을 이용하여 데이터 코드북(510)을 업데이트함으로써 오브젝트 디텍터(200)의 재학습 이후, 새로운 테스트 이미지들로부터 새로운 레어 이미지를 샘플링하기 위한 기준으로 사용할 수 있도록 할 수 있다.
그리고, 데이터 코드북(510)은 오브젝트 디텍터(200)의 재학습이 이루어질 때마다 계속하여 업데이트할 수 있다.
또한, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터(200)의 재학습 이전에 검증(evaluation) 이미지들에 의해 생성된 모델 코드북(520)을 참조하여 엔트로피 스레시홀드 이상인 에버러지(average) 엔트리피 값들에 대응되는 레퍼런스 모델 코드들을 확인하며, 제1 모델 코드들 내지 제o+1 모델 코드들 중 레퍼런스 모델 코드들에 매칭되는 특정 모델 코드들을 추출하고, 특정 모델 코드들에 대응되는 제2 특정 테스트 이미지들을 오브젝트 디텍터의 재학습을 위한 하드 샘플들로 선정할 수 있다. 상기 모델 코드북(520)을 생성하는 과정에 대해서는 다음에 설명하기로 한다.
이때, 엔트로피 스레시홀드는 기설정된 에버러지 엔트로피 값이거나, 모델 코드북(520)에서 에버러지 엔트로피 값이 높은 순으로부터 s 번째에 해당되는 스레시홀드 모델 코드에 대응되는 에버러지 엔트로피 값일 수 있다. 상기 s는 1 이상의 정수일 수 있다.
즉, 모델 코드인 스테빌리티의 유형에 대응되는 에버러지 엔트로피가 클수록 현재 학습된 상태의 오브젝트 디텍터(200)에게 어려운 유형일 수 있으므로, 그에 따라 모델 코드북(520)을 이용하여 오브젝트 디텍터(200)에게 어려운 유형에 대응되는 모델 코드들을 포함하는 테스트 이미지들을 하드 샘플들로 판단할 수 있다.
한편, 오브젝트 디텍터(200)의 재학습에 따라 업데이트되는 데이터 코드북(510)과는 달리, 모델 코드북(520)은 오브젝트 디텍터(200)의 재학습을 수행하기 이전에 새롭게 생성할 수 있다.
즉, 오브젝트 디텍터(200)가 재학습 되면, 이전에는 어려웠던 유형에 대하여 성능이 좋아지거나, 유형 자체가 다르게 분류될 수 있다. 즉, 쉬운 유형들은 더 큰 범주로 묶이고, 어려운 유형들은 더 세분화될 수 있다. 따라서, 오브젝트 디텍터(200)의 재학습 이후 모델 코드북(520)을 새롭게 생성함으로써, 현재 학습된 오브젝트 디텍터(200)의 상태를 반영할 수 있도록 할 수 있다.
다음으로, 도 5를 참조하면, 상기에서와 같은 방법에 의해 생성된 데이터 코드북들을 통해 특정 테스트 이미지들이 레어 샘플로 선택된 이유를 확인할 수 있다.
즉, 데이터 코드북을 통해 테스트 이미지들을 씬 레벨과 오브젝트 레벨로 설명 가능하며, 씬 레벨과 오브젝트 레벨을 통해 레어 샘플로 선택된 이유를 확인할 수 있게 된다.
일 예로, 자동차가 day road 주행하는 상태, 즉, 테스트 이미지의 씬이 day road인 상태에서 스탑 사인은 레어하게 나타남을 알 수 있다.
또한, heavy rain인 씬에서 검출되는 자동차는 같은 자동차라도 비 때문에 얼룩 및 번짐이 심한 형태이므로 day highway인 씬에서 검출되는 자동차보다 오브젝트 레벨에서 레어함을 알 수 있다.
다음으로, 액티브 러닝 디바이스는, 이전 학습용 이미지들, 레어 샘플들, 및 하드 샘플들을 이용하여 오브젝트 디텍터(200)를 재학습시킬 수 있다.
한편, 데이터 엔코더와 모델 엔코더를 학습시키는 방법, 및 데이터 코드북과 모델 코드북을 생성하는 과정을 설명하면 다음과 같다.
먼저, 도 6을 참조하여 데이터 엔코더(310)를 학습시키는 방법을 설명하면 다음과 같다.
액티브 러닝 디바이스(1000)는 타겟 모델, 즉, 오브젝트 디텍터의 학습을 위한 학습 이미지들을 저장하고 있는 학습 이미지 데이터베이스로부터 데이터 엔코더(310)의 학습에 이용하기 위한 학습 이미지들을 샘플링할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들 각각에서 오브젝트 영역들을 크롭하여 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t 크롭된 오브젝트 이미지들을 생성하고, 학습 이미지들 각각에서 백그라운드 영역들을 크롭하여 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u 크롭된 백그라운드 이미지들을 생성할 수 있다. 상기 t와 u는 1 이상의 정수일 수 있다.
이때, 크롭된 백그라운드 이미지들의 개수가 크롭된 오브젝트 이미지들의 개수에 비하여 1배 내지 3배가 되도록 백그라운드 영역들을 랜덤 크롭할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 학습 이미지들과 학습 이미지들 각각에 대응되는 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t 크롭된 오브젝트 이미지들, 및 학습 이미지들 각각에 대응되는 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u 크롭된 백그라운드 이미지들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 오브젝트 이미지들(20_1) 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들(20_(t+1)), 및 학습용 제1 리사이즈된 백그라운드 이미지들(30_1) 내지 학습용 제u 리사이즈된 백그라운드 이미지들(30_u)을 생성할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 학습용 제1 리사이즈된 오브젝트 이미지들(20_1) 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들(20_(t+1)) 및 학습용 제1 리사이즈된 백그라운드 이미지들(30_1) 내지 학습용 제u 리사이즈된 백그라운드 이미지들(30_u)을 데이터 오토엔코더의 데이터 엔코더(310)로 입력하여 데이터 엔코더(310)로 하여금 학습용 제1 리사이즈된 오브젝트 이미지들(20_1) 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들(20_(t+1)) 및 학습용 제1 리사이즈된 백그라운드 이미지들(30_1) 내지 학습용 제u 리사이즈된 백그라운드 이미지들(30_u)을 엔코딩하여 학습용 제1 리사이즈된 오브젝트 이미지들(20_1) 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들(30_(t+1))에 대응되는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들 및 학습용 제1 리사이즈된 백그라운드 이미지들(30_1) 내지 학습용 제u 리사이즈된 백그라운드 이미지들(30_u)에 대응되는 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 출력하도록 할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들을 상기 데이터 오토엔코더의 데이터 디코더(320)에 입력하여 데이터 디코더(320)로 하여금 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들을 디코딩하여 학습용 제1 리컨스트럭된(reconstructed) 이미지들 내지 제t+1 리컨스트럭된 이미지들을 출력하도록 할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들과 학습용 제1 리컨스트럭된 이미지들 내지 학습용 제t+1 리컨스트럭된 이미지들을 참조한 제1 오브젝트 로스들 내지 제t+1 오브젝트 로스들을 이용하여 데이터 디코더(320)와 데이터 엔코더(310)를 학습시키며, 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 참조한 백그라운드 로스들을 이용하여 데이터 엔코더(310)를 학습시킬 수 있다.
이때, 오브젝트 로스들은 다음과 같이 나타내어질 수 있다.
또한, 백그라운드 로스들은 다음과 같이 나타내어질 수 있다.
즉, 액티브 러닝 디바이스(1000)는 전체 이미지(10)와 오브젝트들은 리컨스트럭션(reconstruction) 로스에 반영하여 데이터 디코더(320)와 데이터 엔코더(310)의 학습에 이용하며, 백그라운드는 리컨스트럭션 로스에는 반영하지 않고 데이터 코드가 all zero가 되도록 데이터 코드에만 로스를 반영하여 데이터 엔코더(310)의 학습에 이용할 수 있다.
한편, 상기에서는 액티브 러닝 디바이스(1000)가 데이터 엔코더(310)를 학습시켰으나, 이와는 달리, 별도의 학습 장치를 통해 데이터 엔코더(310)를 학습시킬 수 도 있다.
다음으로, 도 7을 참조하여 데이터 코드북을 생성하는 방법을 설명하면 다음과 같다.
액티브 러닝 디바이스(1000)는 타겟 모델, 즉, 오브젝트 디텍터의 학습을 위한 학습 이미지들을 저장하고 있는 학습 이미지 데이터베이스로부터 데이터 코드북 생성에 이용하기 의한 검증(evaluation) 이미지들을 샘플링할 수 있다.
이때, 액티브 러닝 디바이스(1000)는 학습 이미지 데이터베이스로부터 학습 이미지들을 샘플링하며, 샘플링된 학습 이미지를 데이터 엔코더(310)의 학습에 이용하기 위한 학습 이미지들과 데이터 코드북 생성을 위한 검증 이미지들로 분할할 수 있다. 그리고, 학습 이미지들과 검증 이미지들의 분할은 유니폼(uniform) 랜덤 샘플링을 이용하여 수행할 수 있으며, 이를 통해 학습 이미지들과 검증 이미지들의 분포 특성, 즉, 서브 스페이스의 레어네스(rareness)가 서로 상이하지 않도록 할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들 각각에서 오브젝트 영역들을 크롭하여 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v 크롭된 오브젝트 이미지들을 생성하고, 검증 이미지들과 검증 이미지들 각각에 대응되는 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v 크롭된 오브젝트 이미지들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 오브젝트 이미지들(40_1) 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들(40_(v+1))을 생성할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 검증용 제1 리사이즈된 오브젝트 이미지들(40_1) 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들(40_(v+1))을 데이터 엔코더(310)로 입력하여 데이터 엔코더(310)로 하여금 검증용 제1 리사이즈된 오브젝트 이미지들(40_1) 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들(40_(v+1))을 엔코딩하여 검증용 제1 리사이즈된 오브젝트 이미지들(40_1) 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들(40_(v+1))에 대응되는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 출력하도록 할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 데이터 코드별로 분류(sort)하며, 각각의 데이터 코드들에 대응되는 리사이즈된 이미지들의 개수를 카운팅하여 데이터 코드북(510)을 생성할 수 있다. 즉, 데이터 코드별 리사이즈된 이미지들의 개수를 각각의 데이터 코드들에 맵핑하여 데이터 코드북(510)을 생성할 수 있다. 이때, 데이터 코드북(510)에는 이미지 ID가 추가적으로 맵핑될 수 있다.
한편, 상기에서는 액티브 러닝 디바이스(1000)가 데이터 코드북(510)을 생성하였으나, 이와는 달리, 별도의 학습 장치나 데이터 코드북 생성 장치를 통해 데이터 코드북(510)을 생성하도록 할 수도 있다.
다음으로, 도 8을 참조하여 모델 엔코더(410)를 학습시키는 방법을 설명하면 다음과 같다.
액티브 러닝 디바이스(1000)는 타겟 모델, 즉, 오브젝트 디텍터의 학습을 위한 학습 이미지들을 저장하고 있는 학습 이미지 데이터베이스로부터 데이터 엔코더(310)의 학습에 이용하기 위한 학습 이미지들을 샘플링할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들을 오브젝트 디텍터로 입력하여 오브젝트 디텍터로 하여금 학습용 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 학습용 이미지들 각각에 대응되는 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 생성하도록 하며, 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 베이시안 출력 임베딩하여 학습용 액티베이션 엔트로피 맵들을 생성할 수 있다.
이때, 모델 엔코더(410)의 학습에서는, 데이터 엔코더(310)의 학습과는 달리 백그라운드 영역은 사용하지 않는다. 이는 백그라운드 영역은 액티베이션 엔트로피를 통해 판별하기 보다는, 데이터 엔코더에서 이미지 기반으로 판별하는 것이 훨씬 정확하기 때문일 수 있다.
이후, 액티브 러닝 디바이스(1000)는 학습용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 생성하고, 학습용 액티베이션 엔트로피 맵들과 학습용 액티베이션 엔트로피 맵들에 대응되는 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들(50_1) 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들(50_(x+1))을 생성할 수 있다. 상기 x는 1 이상의 정수일 수 있다.
한편, 상기에서는 학습용 액티베이션 엔트로피 맵들을 생성한 다음 오브젝트 영역들을 크롭하였으나, 이와는 달리, 오브젝트 영역들을 크롭한 다음 크롭된 이미지들을 액티베이션 엔트로피 맵들로 생성할 수도 있다.
즉, 액티브 러닝 디바이스(1000)는 학습용 이미지들과 학습용 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 오브젝트 디텍터로 입력하여 오브젝트 디텍터로 하여금 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 생성하도록 할 수 있다. 그리고, 액티브 러닝 디바이스(1000)는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들(50_1) 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들(50_(x+1))을 생성할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들(50_1) 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들(50_(x+1))을 모델 오토엔코더의 모델 엔코더(410)로 입력하여 모델 엔코더(410)로 하여금 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들(50_1) 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들(50_(x+1))을 엔코딩하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들(50_1) 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들(50_(x+1))에 대응되는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 출력하도록 할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 모델 오토엔코더의 모델 디코더(420)로 입력하여 모델 디코더(420)로 하여금 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 디코딩하여 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 출력하도록 할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들과 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 참조한 제1 엔트로피 로스들 내지 제x+1 엔트로피 로스들을 이용하여 모델 디코더(420)와 모델 엔코더(410)를 학습시킬 수 있다.
이때, 엔트로피 로스들은 다음과 같이 나타내어질 수 있다.
한편, 액티베이션 엔트로피 맵은 학습 이미지보다 크기가 작기 때문에, 전체 이미지 및 크롭된 이미지들을 동일한 사이즈가 되도록 리사이즈할 경우, 데이터 엔코더(310)의 학습에서 보다 큰 사이즈를 가지도록 리사이즈할 수 있다.
이때, 모델 엔코더(410)의 학습은 오브젝트 디텍터의 학습 및 재학습이 이루어질 때마다 수행될 수 있다.
또한, 액티브 러닝 디바이스(1000)가 모델 엔코더(410)를 학습시키는 것으로 설명하였으나, 이와는 달리, 별도의 학습 장치를 통해 모델 엔코더(410)를 학습시킬 수도 있다.
다음으로, 도 9를 참조하여 모델 코드북을 생성하는 방법을 설명하면 다음과 같다.
액티브 러닝 디바이스(1000)는 타겟 모델, 즉, 오브젝트 디텍터의 학습을 위한 학습 이미지들을 저장하고 있는 학습 이미지 데이터베이스로부터 모델 코드북 생성에 이용하기 의한 검증 이미지들을 샘플링할 수 있다.
이때, 액티브 러닝 디바이스(1000)는 학습용 이미지 데이터베이스로부터 학습 이미지들을 샘플링하며, 샘플링된 학습 이미지를 모델 엔코더(410)의 학습에 이용하기 위한 학습 이미지들과 모델 코드북 생성을 위한 검증 이미지들로 분할할 수 있다. 그리고, 학습 이미지들과 검증 이미지들의 분할은 유니폼 랜덤 샘플링을 이용하여 수행할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들을 오브젝트 디텍터로 입력하여 오브젝트 디텍터로 하여금 검증 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 검증 이미지들 각각에 대응되는 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 생성하도록 하며, 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 베이시안 출력 임베딩하여 검증용 액티베이션 엔트로피 맵들을 생성할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 검증용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 생성하고, 검증용 액티베이션 엔트로피 맵들과 검증용 액티베이션 엔트로피 맵들에 대응되는 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들(60_1) 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들(60_(y+1))을 생성할 수 있다. 상기 y는 1 이상의 정수일 수 있다.
한편, 상기에서는 검증용 액티베이션 엔트로피 맵들을 생성한 후 오브젝트 영역들을 크롭하였으나, 이와는 달리, 오브젝트 영역들을 크롭한 후 크롭된 이미지들에 대응되는 액티베이션 엔트로피 맵들을 생성할 수도 있다.
즉, 액티브 러닝 디바이스(1000)는 검증 이미지들과 검증 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 오브젝트 디텍터로 입력하여 오브젝트 디텍터로 하여금 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 생성하도록 할 수 있다. 그리고, 액티브 러닝 디바이스(1000)는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들(60_1) 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들(60_(y+1))을 생성할 수 있다.
그리고, 액티브 러닝 디바이스(1000)는 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들(60_1) 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들(60_(y+1))을 모델 오토엔코더의 모델 엔코더(410)로 입력하여 모델 엔코더(410)로 하여금 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들(60_1) 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들(60_(y+1))을 엔코딩하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들(60_1) 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들(60_(y+1))에 대응되는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 출력하도록 할 수 있다.
이후, 액티브 러닝 디바이스(1000)는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 모델 코드별로 분류하며, 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 참조하여 모델 코드북(520)을 생성할 수 있다.
즉, 액티브 러닝 디바이스(1000)는 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 엔트로피 값들을 평균하여 에버러지 엔트로피 값들을 생성하고, 에버러지 엔트로피 값들을 코드별로 매칭하여 모델 코드북(520)을 생성할 수 있다. 이때, 모델 코드북(520)에는 이미지 ID가 추가적으로 맵핑될 수 있다.
그리고, 상기에서는 액티브 러닝 디바이스(1000)가 모델 코드북(520)을 생성하였으나, 이와는 달리, 별도의 학습 장치나 모델 코드북 생성 장치를 통해 모델 코드북(520)을 생성하도록 할 수도 있다.
또한, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
Claims (20)
- 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더(Bayesian dual encoder)를 이용한 익스플레이너블(explainable) 액티브 러닝 방법에 있어서,
(a) 테스트 이미지들이 획득되면, 액티브 러닝 디바이스가, 상기 테스트 이미지들을 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각에서의 테스트용 오브젝트들을 검출하여 상기 테스트용 오브젝트들에 대응되는 테스트용 바운딩 박스들을 출력하도록 하며, 상기 테스트 이미지들 각각에서 상기 테스트용 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 이미지들 내지 테스트용 제n - 상기 n은 1 이상의 정수임 - 크롭된 이미지들을 생성하고, 상기 테스트 이미지들과 상기 테스트 이미지들 각각에 대응되는 상기 테스트용 제1 크롭된 이미지들 내지 상기 테스트용 제n 크롭된 이미지들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 이미지들 내지 테스트용 제n+1 리사이즈된 이미지들을 생성하며, 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 엔코딩하여 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들에 대응되는 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 출력하도록 하는 단계;
(b) 상기 액티브 러닝 디바이스가, (i) 상기 테스트 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각을 m - 상기 m은 2 이상의 정수임 - 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 테스트용 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들 각각에서 상기 테스트용 바운딩 박스들 중 오브젝트로 판별된 테스트용 특정 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o - 상기 o는 n 이하의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들과 상기 테스트용 액티베이션 엔트로피 맵들에 대응되는 상기 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들 중에서 오브젝트로 판별된 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 테스트용 제1 모델 코드들 내지 테스트용 제o+1 모델 코드들을 출력하도록 하는 단계; 및
(c) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 이전 학습에 사용된 이전 학습 이미지들에 의해 생성된 데이터 코드북 - 상기 데이터 코드북은 상기 이전 학습 이미지들에서의 데이터 코드별 리사이즈된 이미지 개수들을 정리한 것임 - 을 참조하여 카운터 스레시홀드 이하인 리사이즈된 이미지 개수들에 대응되는 레퍼런스 데이터 코드들을 확인하며, 상기 제1 데이터 코드들 내지 상기 제n+1 데이터 코드들 중 상기 레퍼런스 데이터 코드들에 매칭되는 제1 특정 데이터 코드들을 추출하고, 상기 제1 특정 데이터 코드들에 대응되는 제1 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 레어 샘플들로 선정하며, 상기 레어 샘플들에 대응되는 제2 특정 데이터 코드들을 참조하여 상기 데이터 코드북을 업데이트하고, (ii) 상기 오브젝트 디텍터의 재학습 이전에 검증 이미지들에 의해 생성된 모델 코드북 - 상기 모델 코드북은 상기 검증 이미지들에서의 모델 코드별 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 정리한 것임 - 을 참조하여 엔트로피 스레시홀드 이상인 에버러지 엔트로피 값들에 대응되는 레퍼런스 모델 코드들을 확인하며, 상기 제1 모델 코드들 내지 상기 제o+1 모델 코드들 중 상기 레퍼런스 모델 코드들에 매칭되는 특정 모델 코드들을 추출하고, 상기 특정 모델 코드들에 대응되는 제2 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 하드 샘플들로 선정하는 단계;
를 포함하는 방법. - 제1항에 있어서,
(d) 상기 액티브 러닝 디바이스는, 이전 학습용 이미지들, 상기 레어 샘플들, 및 상기 하드 샘플들을 이용하여 상기 오브젝트 디텍터를 재학습시키는 단계;
를 더 포함하는 방법. - 제1항에 있어서,
상기 (b) 단계에서,
상기 액티브 러닝 디바이스는, (i) 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 바이너리 변환하여 테스트용 제1 바이너리 피처맵들 내지 테스트용 제m 바이너리 피처맵들을 생성하고, 상기 테스트용 제1 바이너리 피처맵들 내지 상기 테스트용 제m 바이너리 피처맵들을 컨캐이터네이트하여 테스트용 액티베이션 프로바빌리티 맵들을 생성하며, 상기 테스트용 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 바이너리 변환하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 생성하고, 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 바이너리 오브젝트 피처맵들 내지 상기 테스트용 제m 바이너리 오브젝트 피처맵들을 컨캐이터네이트하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하는 방법. - 제1항에 있어서,
상기 (a) 단계에서,
상기 액티브 러닝 디바이스는, 상기 테스트용 바운딩 박스들 중 오검출된 테스트용 바운딩 박스들은 백그라운드 데이터 코드로 맵핑하는 방법. - 제1항에 있어서,
상기 (c) 단계에서,
상기 카운터 스레시홀드는 기설정된 리사이즈된 이미지 개수이거나, 상기 데이터 코드북에서 리사이즈된 이미지 개수가 높은 순으로부터 q - 상기 q는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 데이터 코드에 대응되는 리사이즈된 이미지 개수이며,
상기 엔트로피 스레시홀드는 기설정된 에버러지 엔트로피 값이거나, 상기 모델 코드북에서 에버러지 엔트로피 값이 높은 순으로부터 s - 상기 s는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 모델 코드에 대응되는 에버러지 엔트로피 값인 방법. - 제1항에 있어서,
상기 (a) 단계 이전에,
(a1) 상기 액티브 러닝 디바이스가, 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들 각각에서 오브젝트 영역들을 크롭하여 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t - 상기 t는 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 학습 이미지들 각각에서 백그라운드 영역들을 크롭하여 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u - 상기 u는 1 이상의 정수임 - 크롭된 백그라운드 이미지들을 생성하며, 상기 학습 이미지들과 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 오브젝트 이미지들 내지 상기 학습용 제t 크롭된 오브젝트 이미지들, 및 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 백그라운드 이미지들 내지 상기 학습용 제u 크롭된 백그라운드 이미지들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들, 및 학습용 제1 리사이즈된 백그라운드 이미지들 내지 학습용 제u 리사이즈된 백그라운드 이미지들을 생성하며, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 데이터 오토엔코더의 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 엔코딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들에 대응되는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들에 대응되는 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 출력하도록 하며, 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 상기 데이터 오토엔코더의 데이터 디코더에 입력하여 상기 데이터 디코더로 하여금 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 디코딩하여 학습용 제1 리컨스트럭된 이미지들 내지 제t+1 리컨스트럭된 이미지들을 출력하도록 하고, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들과 상기 학습용 제1 리컨스트럭된 이미지들 내지 상기 학습용 제t+1 리컨스트럭된 이미지들을 참조한 제1 오브젝트 로스들 내지 제t+1 오브젝트 로스들을 이용하여 상기 데이터 디코더와 상기 데이터 엔코더를 학습시키며, 상기 학습용 제1 백그라운드 데이터 코드들 내지 상기 학습용 제u 백그라운드 데이터 코드들을 참조한 백그라운드 로스들을 이용하여 상기 데이터 엔코더를 학습시키는 단계;
를 더 포함하는 방법. - 제6항에 있어서,
(a2) 상기 액티브 러닝 디바이스가, 상기 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들 각각에서 오브젝트 영역들을 크롭하여 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v - 상기 v은 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 검증 이미지들과 상기 검증 이미지들 각각에 대응되는 상기 검증용 제1 크롭된 오브젝트 이미지들 내지 상기 검증용 제v 크롭된 오브젝트 이미지들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들을 생성하며, 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 엔코딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들에 대응되는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 출력하도록 하고, 상기 검증용 제1 오브젝트 데이터 코드들 내지 상기 검증용 제v+1 오브젝트 데이터 코드들을 데이터 코드별로 분류하며, 각각의 데이터 코드들에 대응되는 리사이즈된 이미지들의 개수를 카운팅하여 상기 데이터 코드북을 생성하는 단계;
를 더 포함하는 방법. - 제1항에 있어서,
상기 (a) 단계 이전에,
(a3) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습 이미지들 각각에 대응되는 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 생성하도록 하며, 상기 학습용 제1 피처맵들 내지 상기 학습용 제m 피처맵들을 베이시안 출력 임베딩하여 학습용 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x - 상기 x는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들과 상기 학습용 액티베이션 엔트로피 맵들에 대응되는 상기 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 학습 이미지들과 상기 학습 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 학습용 제1 오브젝트 피처맵들 내지 상기 학습용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 출력하도록 하고, 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 상기 모델 오토엔코더의 모델 디코더로 입력하여 상기 모델 디코더로 하여금 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 디코딩하여 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 출력하도록 하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들과 상기 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 상기 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 참조한 제1 엔트로피 로스들 내지 제x+1 엔트로피 로스들을 이용하여 상기 모델 디코더와 상기 모델 엔코더를 학습시키는 단계;
를 더 포함하는 방법. - 제8항에 있어서,
(a4) 상기 액티브 러닝 디바이스가, (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증 이미지들 각각에 대응되는 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 생성하도록 하며, 상기 검증용 제1 피처맵들 내지 상기 검증용 제m 피처맵들을 베이시안 출력 임베딩하여 검증용 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y - 상기 y는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들과 상기 검증용 액티베이션 엔트로피 맵들에 대응되는 상기 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 검증 이미지들과 상기 검증 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 검증용 제1 오브젝트 피처맵들 내지 상기 검증용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 출력하도록 하고, 상기 검증용 제1 모델 코드들 내지 상기 검증용 제y+1 모델 코드들을 모델 코드별로 분류하며, 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 참조하여 상기 모델 코드북을 생성하는 단계;
를 더 포함하는 방법. - 제9항에 있어서,
상기 액티브 러닝 디바이스는, 상기 오브젝트 디텍터의 학습 및 재학습이 이루어질 때마다, 상기 모델 엔코더를 학습시키며, 상기 모델 코드북을 생성하는 방법. - 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더(Bayesian dual encoder)를 이용한 익스플레이너블(explainable) 액티브 러닝을 수행하는 액티브 러닝 디바이스에 있어서,
오브젝트 디텍터를 위한 베이시안 듀얼 엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하기 위한 인스트럭션들이 저장된 메모리; 및
상기 메모리에 저장된 인스트럭션들에 따라 오브젝트 디텍터를 위한 베이시안 듀얼 엔코더를 이용한 익스플레이너블 액티브 러닝을 수행하는 프로세서;
를 포함하며,
상기 프로세서는, (I) 테스트 이미지들이 획득되면, 상기 테스트 이미지들을 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각에서의 테스트용 오브젝트들을 검출하여 상기 테스트용 오브젝트들에 대응되는 테스트용 바운딩 박스들을 출력하도록 하며, 상기 테스트 이미지들 각각에서 상기 테스트용 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 이미지들 내지 테스트용 제n - 상기 n은 1 이상의 정수임 - 크롭된 이미지들을 생성하고, 상기 테스트 이미지들과 상기 테스트 이미지들 각각에 대응되는 상기 테스트용 제1 크롭된 이미지들 내지 상기 테스트용 제n 크롭된 이미지들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 이미지들 내지 테스트용 제n+1 리사이즈된 이미지들을 생성하며, 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들을 엔코딩하여 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들에 대응되는 테스트용 제1 데이터 코드들 내지 테스트용 제n+1 데이터 코드들을 출력하도록 하는 프로세스, (II) (i) 상기 테스트 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트 이미지들 각각을 m - 상기 m은 2 이상의 정수임 - 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트 이미지들 각각에 대응되는 테스트용 제1 피처맵들 내지 테스트용 제m 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 테스트용 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들 각각에서 상기 테스트용 바운딩 박스들 중 오브젝트로 판별된 테스트용 특정 바운딩 박스들에 대응되는 영역들을 크롭한 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 테스트용 제o - 상기 o는 n 이하의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 테스트용 액티베이션 엔트로피 맵들과 상기 테스트용 액티베이션 엔트로피 맵들에 대응되는 상기 테스트용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 이미지들 내지 상기 테스트용 제n+1 리사이즈된 이미지들 중에서 오브젝트로 판별된 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 베이시안 출력 임베딩하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 테스트용 제1 모델 코드들 내지 테스트용 제o+1 모델 코드들을 출력하도록 하는 프로세스, 및 (III) (i) 상기 오브젝트 디텍터의 이전 학습에 사용된 이전 학습 이미지들에 의해 생성된 데이터 코드북 - 상기 데이터 코드북은 상기 이전 학습 이미지들에서의 데이터 코드별 리사이즈된 이미지 개수들을 정리한 것임 - 을 참조하여 카운터 스레시홀드 이하인 리사이즈된 이미지 개수들에 대응되는 레퍼런스 데이터 코드들을 확인하며, 상기 제1 데이터 코드들 내지 상기 제n+1 데이터 코드들 중 상기 레퍼런스 데이터 코드들에 매칭되는 제1 특정 데이터 코드들을 추출하고, 상기 제1 특정 데이터 코드들에 대응되는 제1 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 레어 샘플들로 선정하며, 상기 레어 샘플들에 대응되는 제2 특정 데이터 코드들을 참조하여 상기 데이터 코드북을 업데이트하고, (ii) 상기 오브젝트 디텍터의 재학습 이전에 검증 이미지들에 의해 생성된 모델 코드북 - 상기 모델 코드북은 상기 검증 이미지들에서의 모델 코드별 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 정리한 것임 - 을 참조하여 엔트로피 스레시홀드 이상인 에버러지 엔트로피 값들에 대응되는 레퍼런스 모델 코드들을 확인하며, 상기 제1 모델 코드들 내지 상기 제o+1 모델 코드들 중 상기 레퍼런스 모델 코드들에 매칭되는 특정 모델 코드들을 추출하고, 상기 특정 모델 코드들에 대응되는 제2 특정 테스트 이미지들을 상기 오브젝트 디텍터의 재학습을 위한 하드 샘플들로 선정하는 프로세스를 수행하는 액티브 러닝 디바이스. - 제11항에 있어서,
상기 프로세서는, (IV) 이전 학습용 이미지들, 상기 레어 샘플들, 및 상기 하드 샘플들을 이용하여 상기 오브젝트 디텍터를 재학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스. - 제11항에 있어서,
상기 프로세서는, 상기 (II) 프로세스에서, (i) 상기 테스트용 제1 피처맵들 내지 상기 테스트용 제m 피처맵들을 바이너리 변환하여 테스트용 제1 바이너리 피처맵들 내지 테스트용 제m 바이너리 피처맵들을 생성하고, 상기 테스트용 제1 바이너리 피처맵들 내지 상기 테스트용 제m 바이너리 피처맵들을 컨캐이터네이트하여 테스트용 액티베이션 프로바빌리티 맵들을 생성하며, 상기 테스트용 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 피처맵들 내지 테스트용 제m 오브젝트 피처맵들을 바이너리 변환하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 바이너리 오브젝트 피처맵들 내지 테스트용 제m 바이너리 오브젝트 피처맵들을 생성하고, 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 테스트용 제1 바이너리 오브젝트 피처맵들 내지 상기 테스트용 제m 바이너리 오브젝트 피처맵들을 컨캐이터네이트하여 상기 테스트용 제1 리사이즈된 오브젝트 이미지들 내지 상기 테스트용 제o+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 생성하며, 테스트용 제1 오브젝트 액티베이션 프로바빌리티 맵들 내지 테스트용 제o+1 오브젝트 액티베이션 프로바빌리티 맵들을 참조하여 상기 테스트용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 테스트용 제o+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하는 액티브 러닝 디바이스. - 제11항에 있어서,
상기 프로세서는, 상기 (I) 프로세스에서, 상기 테스트용 바운딩 박스들 중 오검출된 테스트용 바운딩 박스들은 백그라운드 데이터 코드로 맵핑하는 액티브 러닝 디바이스. - 제11항에 있어서,
상기 카운터 스레시홀드는 기설정된 리사이즈된 이미지 개수이거나, 상기 데이터 코드북에서 리사이즈된 이미지 개수가 높은 순으로부터 q - 상기 q는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 데이터 코드에 대응되는 리사이즈된 이미지 개수이며,
상기 엔트로피 스레시홀드는 기설정된 에버러지 엔트로피 값이거나, 상기 모델 코드북에서 에버러지 엔트로피 값이 높은 순으로부터 s - 상기 s는 1 이상의 정수임 - 번째에 해당되는 스레시홀드 모델 코드에 대응되는 에버러지 엔트로피 값인 액티브 러닝 디바이스. - 제11항에 있어서,
상기 프로세서는, 상기 (I) 프로세스 이전에, (I01) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들 각각에서 오브젝트 영역들을 크롭하여 학습용 제1 크롭된 오브젝트 이미지들 내지 학습용 제t - 상기 t는 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 학습 이미지들 각각에서 백그라운드 영역들을 크롭하여 학습용 제1 크롭된 백그라운드 이미지들 내지 학습용 제u - 상기 u는 1 이상의 정수임 - 크롭된 백그라운드 이미지들을 생성하며, 상기 학습 이미지들과 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 오브젝트 이미지들 내지 상기 학습용 제t 크롭된 오브젝트 이미지들, 및 상기 학습 이미지들 각각에 대응되는 상기 학습용 제1 크롭된 백그라운드 이미지들 내지 상기 학습용 제u 크롭된 백그라운드 이미지들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제t+1 리사이즈된 오브젝트 이미지들, 및 학습용 제1 리사이즈된 백그라운드 이미지들 내지 학습용 제u 리사이즈된 백그라운드 이미지들을 생성하며, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 데이터 오토엔코더의 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들을 엔코딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들에 대응되는 학습용 제1 오브젝트 데이터 코드들 내지 학습용 제t+1 오브젝트 데이터 코드들 및 상기 학습용 제1 리사이즈된 백그라운드 이미지들 내지 상기 학습용 제u 리사이즈된 백그라운드 이미지들에 대응되는 학습용 제1 백그라운드 데이터 코드들 내지 학습용 제u 백그라운드 데이터 코드들을 출력하도록 하며, 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 상기 데이터 오토엔코더의 데이터 디코더에 입력하여 상기 데이터 디코더로 하여금 상기 학습용 제1 오브젝트 데이터 코드들 내지 상기 학습용 제t+1 오브젝트 데이터 코드들을 디코딩하여 학습용 제1 리컨스트럭된 이미지들 내지 제t+1 리컨스트럭된 이미지들을 출력하도록 하고, 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제t+1 리사이즈된 오브젝트 이미지들과 상기 학습용 제1 리컨스트럭된 이미지들 내지 상기 학습용 제t+1 리컨스트럭된 이미지들을 참조한 제1 오브젝트 로스들 내지 제t+1 오브젝트 로스들을 이용하여 상기 데이터 디코더와 상기 데이터 엔코더를 학습시키며, 상기 학습용 제1 백그라운드 데이터 코드들 내지 상기 학습용 제u 백그라운드 데이터 코드들을 참조한 백그라운드 로스들을 이용하여 상기 데이터 엔코더를 학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스. - 제16항에 있어서,
상기 프로세서는, (I02) 상기 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들 각각에서 오브젝트 영역들을 크롭하여 검증용 제1 크롭된 오브젝트 이미지들 내지 검증용 제v - 상기 v은 1 이상의 정수임 - 크롭된 오브젝트 이미지들을 생성하고, 상기 검증 이미지들과 상기 검증 이미지들 각각에 대응되는 상기 검증용 제1 크롭된 오브젝트 이미지들 내지 상기 검증용 제v 크롭된 오브젝트 이미지들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제v+1 리사이즈된 오브젝트 이미지들을 생성하며, 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 상기 데이터 엔코더로 입력하여 상기 데이터 엔코더로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들을 엔코딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제v+1 리사이즈된 오브젝트 이미지들에 대응되는 검증용 제1 오브젝트 데이터 코드들 내지 검증용 제v+1 오브젝트 데이터 코드들을 출력하도록 하고, 상기 검증용 제1 오브젝트 데이터 코드들 내지 상기 검증용 제v+1 오브젝트 데이터 코드들을 데이터 코드별로 분류하며, 각각의 데이터 코드들에 대응되는 리사이즈된 이미지들의 개수를 카운팅하여 상기 데이터 코드북을 생성하는 프로세스를 더 수행하는 액티브 러닝 디바이스. - 제11항에 있어서,
상기 프로세서는, 상기 (I) 프로세스 이전에, (I03) (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 학습 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습 이미지들 각각에 대응되는 학습용 제1 피처맵들 내지 학습용 제m 피처맵들을 생성하도록 하며, 상기 학습용 제1 피처맵들 내지 상기 학습용 제m 피처맵들을 베이시안 출력 임베딩하여 학습용 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 학습용 제x - 상기 x는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 학습용 액티베이션 엔트로피 맵들과 상기 학습용 액티베이션 엔트로피 맵들에 대응되는 상기 학습용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 학습 이미지들과 상기 학습 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 학습용 제1 리사이즈된 오브젝트 이미지들 내지 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 학습용 제1 오브젝트 피처맵들 내지 학습용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 학습용 제1 오브젝트 피처맵들 내지 상기 학습용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 학습용 제1 리사이즈된 오브젝트 이미지들 내지 상기 학습용 제x+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 학습용 제1 모델 코드들 내지 학습용 제x+1 모델 코드들을 출력하도록 하고, 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 상기 모델 오토엔코더의 모델 디코더로 입력하여 상기 모델 디코더로 하여금 상기 학습용 제1 모델 코드들 내지 상기 학습용 제x+1 모델 코드들을 디코딩하여 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 출력하도록 하며, 상기 학습용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 학습용 제x+1 리사이즈된 액티베이션 엔트로피 맵들과 상기 학습용 제1 리컨스트럭된 엔트로피 맵들 내지 상기 학습용 제x+1 리컨스트럭된 엔트로피 맵들을 참조한 제1 엔트로피 로스들 내지 제x+1 엔트로피 로스들을 이용하여 상기 모델 디코더와 상기 모델 엔코더를 학습시키는 프로세스를 더 수행하는 액티브 러닝 디바이스. - 제18항에 있어서,
상기 프로세스는, (I04) (i) 상기 오브젝트 디텍터의 학습을 위한 학습 이미지 데이터베이스로부터 샘플링한 검증 이미지들을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증 이미지들 각각에 대응되는 검증용 제1 피처맵들 내지 검증용 제m 피처맵들을 생성하도록 하며, 상기 검증용 제1 피처맵들 내지 상기 검증용 제m 피처맵들을 베이시안 출력 임베딩하여 검증용 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들 각각에서 오브젝트들에 대응되는 영역들을 크롭한 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 검증용 제y - 상기 y는 1 이상의 정수임 - 크롭된 액티베이션 엔트로피 맵들을 생성하고, 상기 검증용 액티베이션 엔트로피 맵들과 상기 검증용 액티베이션 엔트로피 맵들에 대응되는 상기 검증용 제1 크롭된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y 크롭된 액티베이션 엔트로피 맵들을 동일한 사이즈로 리사이즈하여 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하거나, (ii) 상기 검증 이미지들과 상기 검증 이미지들에서 오브젝트 영역들을 크롭한 오브젝트 이미지들을 동일 사이즈로 리사이즈한 검증용 제1 리사이즈된 오브젝트 이미지들 내지 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 상기 오브젝트 디텍터로 입력하여 상기 오브젝트 디텍터로 하여금 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각을 m 회 몬테 카를로 드롭아웃을 수행하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 검증용 제1 오브젝트 피처맵들 내지 검증용 제m 오브젝트 피처맵들을 생성하도록 하며, 상기 검증용 제1 오브젝트 피처맵들 내지 상기 검증용 제m 오브젝트 피처맵들을 베이시안 출력 임베딩하여 상기 검증용 제1 리사이즈된 오브젝트 이미지들 내지 상기 검증용 제y+1 리사이즈된 오브젝트 이미지들 각각에 대응되는 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 생성하며, 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 모델 오토엔코더의 상기 모델 엔코더로 입력하여 상기 모델 엔코더로 하여금 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들을 엔코딩하여 상기 검증용 제1 리사이즈된 액티베이션 엔트로피 맵들 내지 상기 검증용 제y+1 리사이즈된 액티베이션 엔트로피 맵들에 대응되는 검증용 제1 모델 코드들 내지 검증용 제y+1 모델 코드들을 출력하도록 하고, 상기 검증용 제1 모델 코드들 내지 상기 검증용 제y+1 모델 코드들을 모델 코드별로 분류하며, 각각의 모델 코드들에 대응되는 리사이즈된 액티베이션 엔트로피 맵들의 에버러지 엔트로피 값들을 참조하여 상기 모델 코드북을 생성하는 프로세스를 더 수행하는 액티브 러닝 디바이스. - 제19항에 있어서,
상기 프로세서는, 상기 오브젝트 디텍터의 학습 및 재학습이 이루어질 때마다, 상기 모델 엔코더를 학습시키며, 상기 모델 코드북을 생성하는 액티브 러닝 디바이스.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063021809P | 2020-05-08 | 2020-05-08 | |
US63/021,809 | 2020-05-08 | ||
US17/135,033 | 2020-12-28 | ||
US17/135,033 US10970645B1 (en) | 2020-05-08 | 2020-12-28 | Method for explainable active learning, to be used for object detector, by using Bayesian dual autoencoder and active learning device using the same |
PCT/KR2021/003824 WO2021225279A1 (en) | 2020-05-08 | 2021-03-29 | Method for explainable active learning, to be used for object detector, by using bayesian dual autoencoder and active learning device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220000946A KR20220000946A (ko) | 2022-01-04 |
KR102638370B1 true KR102638370B1 (ko) | 2024-02-21 |
Family
ID=75275537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217042549A KR102638370B1 (ko) | 2020-05-08 | 2021-03-29 | 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10970645B1 (ko) |
EP (1) | EP3907654A1 (ko) |
JP (1) | JP7303392B2 (ko) |
KR (1) | KR102638370B1 (ko) |
CN (1) | CN115443471A (ko) |
WO (1) | WO2021225279A1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963792B1 (en) * | 2020-03-26 | 2021-03-30 | StradVision, Inc. | Method for training deep learning network based on artificial intelligence and learning device using the same |
US11132607B1 (en) * | 2020-05-05 | 2021-09-28 | StradVision, Inc. | Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same |
US11404055B2 (en) * | 2020-10-16 | 2022-08-02 | Agora Lab, Inc. | Simultaneous dereverberation and denoising via low latency deep learning |
KR20230042994A (ko) | 2021-09-23 | 2023-03-30 | 연세대학교 산학협력단 | Cam 기반의 약한 지도학습 물체탐지 장치 및 방법 |
WO2024049670A1 (en) * | 2022-08-29 | 2024-03-07 | NetraDyne, Inc. | Real-time object detection from decompressed images |
US20240119706A1 (en) * | 2022-09-30 | 2024-04-11 | Samsung Electronics Co., Ltd. | Generating images with small objects for training a pruned super-resolution network |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019160317A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 画像モデル訓練方法と装置及び分類予測方法と装置 |
US10423860B1 (en) | 2019-01-22 | 2019-09-24 | StradVision, Inc. | Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same |
US20190304067A1 (en) | 2018-03-29 | 2019-10-03 | Pixar | Temporal techniques of denoising monte carlo renderings using neural networks |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720257B2 (en) * | 2005-06-16 | 2010-05-18 | Honeywell International Inc. | Object tracking system |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
WO2019023324A1 (en) * | 2017-07-26 | 2019-01-31 | Via Transportation, Inc. | SYSTEMS AND METHODS FOR MANAGING AND ROUTING COOPERATING VEHICLES |
US10438371B2 (en) * | 2017-09-22 | 2019-10-08 | Zoox, Inc. | Three-dimensional bounding box from two-dimensional image and point cloud data |
WO2019074545A1 (en) * | 2017-10-13 | 2019-04-18 | iHealthScreen Inc. | IMAGE-BASED SCREENING SYSTEM FOR PREDICTING AN INDIVIDUAL TO HAVE THE RISK OF AGE-RELATED MACULAR DEGENERATION (AMD) |
US10713769B2 (en) * | 2018-06-05 | 2020-07-14 | Kla-Tencor Corp. | Active learning for defect classifier training |
KR102615196B1 (ko) * | 2018-08-21 | 2023-12-18 | 삼성전자주식회사 | 객체 검출 모델 트레이닝 장치 및 방법 |
KR20200040550A (ko) * | 2018-10-10 | 2020-04-20 | 삼성전자주식회사 | 뉴럴 네트워크 연산을 수행하는 장치 및 이의 동작 방법 |
US10783632B2 (en) * | 2018-12-14 | 2020-09-22 | Spectral Md, Inc. | Machine learning systems and method for assessment, healing prediction, and treatment of wounds |
US10905337B2 (en) * | 2019-02-26 | 2021-02-02 | Bao Tran | Hearing and monitoring system |
US11436506B2 (en) * | 2019-03-06 | 2022-09-06 | Carl Zeiss Smt Gmbh | Method and devices for determining metrology sites |
CN110097611B (zh) * | 2019-04-28 | 2023-09-22 | 上海联影智能医疗科技有限公司 | 图像重建方法、装置、设备及存储介质 |
US11386671B2 (en) * | 2019-06-25 | 2022-07-12 | Zoox, Inc. | Refining depth from an image |
US11983625B2 (en) * | 2020-06-24 | 2024-05-14 | Intel Corporation | Robust multimodal sensor fusion for autonomous driving vehicles |
-
2020
- 2020-12-28 US US17/135,033 patent/US10970645B1/en active Active
-
2021
- 2021-01-25 EP EP21153164.5A patent/EP3907654A1/en active Pending
- 2021-03-29 WO PCT/KR2021/003824 patent/WO2021225279A1/en active Application Filing
- 2021-03-29 KR KR1020217042549A patent/KR102638370B1/ko active IP Right Grant
- 2021-03-29 JP JP2022549370A patent/JP7303392B2/ja active Active
- 2021-03-29 CN CN202180027837.3A patent/CN115443471A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019160317A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 画像モデル訓練方法と装置及び分類予測方法と装置 |
US20190304067A1 (en) | 2018-03-29 | 2019-10-03 | Pixar | Temporal techniques of denoising monte carlo renderings using neural networks |
US10423860B1 (en) | 2019-01-22 | 2019-09-24 | StradVision, Inc. | Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same |
Also Published As
Publication number | Publication date |
---|---|
KR20220000946A (ko) | 2022-01-04 |
CN115443471A (zh) | 2022-12-06 |
JP7303392B2 (ja) | 2023-07-04 |
WO2021225279A1 (en) | 2021-11-11 |
EP3907654A1 (en) | 2021-11-10 |
JP2023514294A (ja) | 2023-04-05 |
US10970645B1 (en) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102638370B1 (ko) | 오브젝트 디텍터를 위한 베이시안 듀얼 오토엔코더를 이용한 익스플레이너블 액티브 러닝 방법 및 이를 이용한 액티브 러닝 디바이스 | |
US11715014B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
Khodabandeh et al. | A robust learning approach to domain adaptive object detection | |
Weinman et al. | Scene text recognition using similarity and a lexicon with sparse belief propagation | |
US10635949B2 (en) | Latent embeddings for word images and their semantics | |
JP7282250B2 (ja) | オブジェクトデテクターのためのディープエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びこれを利用したアクティブラーニングデバイス | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
Sheng et al. | Learning-based road crack detection using gradient boost decision tree | |
CN104850865A (zh) | 一种多特征迁移学习的实时压缩跟踪方法 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN113822368A (zh) | 一种基于无锚的增量式目标检测方法 | |
CN110942057A (zh) | 一种集装箱箱号识别方法、装置和计算机设备 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN111860823A (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
Favata | Off-line general handwritten word recognition using an approximate beam matching algorithm | |
Daraee et al. | Handwritten keyword spotting using deep neural networks and certainty prediction | |
Sankaranarayanan et al. | Pre-processing framework with virtual mono-layer sequence of boxes for video based vehicle detection applications | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
Wang et al. | Extraction of main urban roads from high resolution satellite images by machine learning | |
Smith et al. | Openscenevlad: Appearance invariant, open set scene classification | |
CN115273100A (zh) | 一种基于语义引导鉴别器的半监督汉字图像生成方法 | |
CN114202765A (zh) | 一种图像文本识别方法和存储介质 | |
CN112906588A (zh) | 基于深度学习的暴恐图片安全检测系统 | |
Pandya et al. | A novel approach for vehicle detection and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |