KR20210078539A - 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기 그리고 저장 매체 - Google Patents
타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기 그리고 저장 매체 Download PDFInfo
- Publication number
- KR20210078539A KR20210078539A KR1020217015320A KR20217015320A KR20210078539A KR 20210078539 A KR20210078539 A KR 20210078539A KR 1020217015320 A KR1020217015320 A KR 1020217015320A KR 20217015320 A KR20217015320 A KR 20217015320A KR 20210078539 A KR20210078539 A KR 20210078539A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- training
- target
- detection
- loss function
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 580
- 238000001514 detection method Methods 0.000 title claims abstract description 445
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012360 testing method Methods 0.000 claims abstract description 349
- 230000004807 localization Effects 0.000 claims abstract description 188
- 230000006870 function Effects 0.000 claims description 302
- 238000004364 calculation method Methods 0.000 claims description 40
- 230000001131 transforming effect Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 26
- 238000006243 chemical reaction Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 40
- 238000009826 distribution Methods 0.000 description 19
- 230000009466 transformation Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000844 transformation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G06K9/32—
-
- G06K9/62—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G06N3/0472—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G06N7/005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
본 출원은 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기, 그리고 저장 매체를 개시한다. 상기 타깃 검출 방법은 제1 검출 대상 이미지를 획득하는 단계; 상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 단계 - 상기 제2 검출 대상 이미지는 제2 영역에 속함 -; 및 교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 단계 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용됨 -를 포함한다. 본 출원에서는 교차 영역 이미지 검출 모델을 통해 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행하여, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
Description
본 출원은 2019년 3월 21일에 출원되고 "IMAGE-BASED TARGET DETECTION METHOD AND APPARATUS, AND MODEL TRAINING METHOD AND APPARATUS(이미지 기반 타깃 검출 방법 및 장치, 그리고 모델 훈련 방법 및 장치)"라는 명칭의 중국 특허출원 제201910218444.5호에 대해 우선권을 주장하며, 그 내용 전체가 원용에 의해 본원에 통합된다.
본 출원은 인공 지능 분야에 관한 것으로, 특히 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기 그리고 저장 매체에 관한 것이다.
기계 학습 분야에서, 샘플은 일반적으로 각각 훈련 세트와 시험 세트인 두 개의 독립적인 부분으로 나뉠 필요가 있으며, 훈련 세트는 감독형 학습(supervised learning)에 사용되며, 감독 학습(supervision learning)은 분류기(classifier)로 하여금 필요한 성능을 달성하도록 하기 위해, 알려진 클래스의 샘플 그룹을 사용하여 분류기의 파라미터를 조정하는 프로세스를 의미하며, 감독형 훈련(supervised training)이라고도 한다. 시험 세트는 최종적으로 선택된 모델의 성능을 평가하는 데 사용된다. 이미지 처리 분야에서는 훈련 이미지와 테스트 이미지의 영역 차이가 비교적 큰 경우가 발생하기 쉽다.
현재, 훈련 세트 이미지와 시험 세트 이미지가 서로 다른 영역에서 오는 경우, 네트워크 모델에 의해 추출된 특징은 일반적으로 대립 손실 함수(adversarial loss function)에 의존하여 제약을 받게 되므로, 네트워크 모델은 훈련 세트 이미지의 출처가 되는 영역(domain)을 식별할 수 없어, 특징 분포 영역(feature distribution domain)에 민감하지 않다.
그러나 훈련 세트 이미지와 시험 세트 이미지는 자연스러운 영역 분포 차이를 갖는다. 따라서, 네트워크 모델이 훈련 세트 이미지와 시험 세트 이미지의 특징을 흐리게 하도록 하는 것은 매우 어렵다. 그 결과, 영역 A의 훈련 세트 이미지로 훈련을 통해 획득한 네트워크 모델을 사용하여 영역 B의 시험 세트 이미지를 예측하는 것은 예측 효과가 비교적 좋지 않다.
본 출원의 실시예는 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기, 그리고 저장 매체를 제공하여, 시험 세트 이미지의 스타일과 동일한 스타일의 검출 대상 이미지(to-be-detected image)를 의도적으로 사용하지 않고 타깃 위치추정(taget localization)을 수행하지만, 교차 영역 이미지 검출 모델을 사용하여 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행하여, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
이를 고려하여, 본 출원의 제1 측면은 다음을 포함하는 이미지 기반의 타깃 검출 방법을 제공하며, 상기 타깃 검출 방법은,
제1 검출 대상 이미지를 획득하는 단계 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 단계 - 상기 제2 검출 대상 이미지는 제2 영역에 속하고, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 단계 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용됨 -를 포함한다.
본 출원의 제2 측면은 모델 훈련 방법을 제공하며, 상기 모델 훈련 방법은,
훈련 대상 이미지(to-be-trained image) 및 시험 대상 이미지(to-be-tested image)를 획득하는 단계 - 상기 훈련 대상 이미지는 제1 영역(domain)에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 단계 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역(candidate region)에 대응하는 예측된 확률 값을 획득하는 단계 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자(candidate bounding box)임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값(prediction class probability value), 제1 예측 위치추정 값(prediction localization value), 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 단계; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델(cross-domain image detection model)을 획득하는 단계를 포함한다.
본 출원의 제3 측면은 타깃 검출 장치를 제공하며, 상기 타깃 검출 장치는, 획득 모듈 및 검출 모듈을 포함하고,
상기 획득 모듈은 제1 검출 대상 이미지를 획득하도록 구성되고, 상기 제1 검출 대상 이미지는 제1 영역에 속하며;
상기 획득 모듈은 추가로, 상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하도록 구성되고, 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역이고;
상기 검출 모듈은 교차 영역 이미지 검출 모델을 통해, 상기 획득 모듈에 의해 획득되는 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하도록 구성되고, 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하며, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델과 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되고, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용된다.
본 출원의 제4 측면은 모델 훈련 장치를 제공하며, 상기 모델 훈련 장치는 획득 모듈 및 훈련 모듈을 포함하고,
상기 획득 모듈은 훈련 대상 이미지 및 시험 대상 이미지를 획득하도록 구성되고, 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역이고;
상기 획득 모듈은 추가로, 제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하도록 구성되고, 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속하며;
상기 획득 모듈은 추가로, 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하도록 구성되고, 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자이고;
상기 획득 모듈은 추가로, 상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하도록 구성되고;
상기 훈련 모듈은 상기 획득 모듈에 의해 획득되는 상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득하도록 구성된다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제1 구현예에서,
상기 훈련 모듈은 구체적으로, 상기 시험 스타일 이미지 및 상기 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하고;
상기 예측된 확률 값에 따라 제2 손실 함수를 결정하고;
상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하고;
상기 제1 손실 함수, 상기 제2 손실 함수 및 상기 제3 손실 함수에 따라 상기 타깃 손실 함수를 생성하고;
상기 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델과 상기 제2 훈련 대상 네트워크 모델을 훈련하도록 구성된다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제2 구현예에서,
상기 훈련 모듈은 구체적으로,
여기서 는 상기 제1 손실 함수를 나타내고, 는 상기 시험 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 상기 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 시험 대상 이미지를 상기 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 훈련 스타일 이미지를 나타내고, 는 상기 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타낸다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제3 구현예에서, 상기 모델 훈련 장치는 추가로 검출 모듈을 더 포함하고,
상기 검출 모듈은, 상기 획득 모듈이 상기 제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득한 후, 제1 판별기(discriminator)를 통해 상기 시험 스타일 이미지에 대해 진실성 검출(reality detection)을 수행하도록 구성되고, 상기 제1 판별기는 제1 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득되며;
상기 검출 모듈은 추가로, 상기 획득 모듈이 상기 제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득한 후, 제2 판별기를 통해 상기 훈련 스타일 이미지에 대해 진실성 검출을 수행하도록 구성되고, 상기 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득된다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제4 구현예에서,
상기 획득 모듈은 추가로, 상기 검출 모듈이 상기 제1 판별기를 통해 상기 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에,
여기서 는 상기 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제1 판별기를 나타내고, 는 상기 제1 영역의 이미지를 나타내고, 는 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제5 구현예에서,
상기 획득 모듈은 추가로, 상기 검출 모듈이 상기 제1 판별기를 통해 상기 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에,
여기서 는 상기 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제2 판별기를 나타내고, 는 상기 제2 영역의 이미지를 나타내고, 는 상기 제2 영역의 이미지를 상기 제1 영역의 이미지로 변환하는 네트워크를 나타내며, 는 입력된 이미지를 나타낸다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제6 구현예에서,
상기 훈련 모듈은 구체적으로,
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제7 구현예에서,
상기 훈련 모듈은 구체적으로,
여기서 는 상기 제3 손실 함수를 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(region proposal network, RPN)의 분류 손실 함수(classification loss function)를 나타내고, 은 상기 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 상기 RPN의 제1 실제 클래스 확률 값(real class probability value)을 나타내고, 은 상기 제2 훈련 대상 네트워크 모델에서의 상기 RPN의 위치추정 손실 함수를 나타내고, 은 상기 RPN의 제1 예측 위치추정 값을 나타내고, 은 상기 RPN의 실제 위치추정 값을 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 상기 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 상기 타깃 검출 네트워크의 상기 제2 예측 클래스 확률 값을 나타내고, 는 상기 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 상기 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 상기 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 상기 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타낸다.
가능한 설계에서, 본 출원의 실시예의 제4 측면의 제8 구현예에서,
상기 훈련 모듈은 구체적으로,
본 출원 제5 측면은 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 단말 기기를 제공하며,
상기 메모리는 프그램을 저장하도록 구성되고;
상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여, 다음 작업:
제1 검출 대상 이미지를 획득하는 작업 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 작업 - 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 작업 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용됨 - 을 수행하도록 구성되고;
상기 버스 시스템은 상기 메모리와 상기 프로세서로 하여금 통신을 수행하게 하기 위해 상기 메모리와 상기 프로세서를 연결하도록 구성된다.
본 출원의 제6 측면은 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 서버를 제공하며,
상기 메모리는 프로그램을 저장하도록 구성되고;
상기 프로세서는 상기 메모리 내의 프로그램을 실행하여, 다음 작업:
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 작업 - 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 작업 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 작업 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 작업; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 작업을 수행하도록 구성되고;
상기 버스 시스템은 상기 메모리와 상기 프로세서를 연결하여 상기 메모리와 상기 프로세서가 통신을 수행하게 하도록 구성된다.
본 출원의 제7 측면은 컴퓨터로 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터로 판독 가능한 저장 매체는 프로그램 코드를 저장하고, 상기 프로그램 코드는 컴퓨터에서 실행될 때, 상기 컴퓨터로 하여금 다음의 모델 훈련 작업:
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 작업 - 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 작업 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 작업 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 작업; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 작업을 수행하도록 하거나; 또는
상기 컴퓨터로 하여금 다음 타깃 검출 작업:
제1 검출 대상 이미지를 획득하는 작업 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 작업 - 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 작업 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용됨 -을 수행하도록 하한다.
전술한 기술 방안으로부터 본 출원의 실시예가 다음과 같은 이점을 갖는다는 것을 알 수 있다:
본 출원의 실시예에서, 이미지 기반의 타깃 검출 방법이 제공된다.
제1 검출 대상 이미지가 먼저 획득되고 - 제1 검출 대상 이미지는 제1 영역에 속함 -, 그런 다음 교차 영역 이미지 검출 모델을 통해 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지가 획득되고 - 제2 검출 대상 이미지는 제2 영역에 속함 -, 교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과가 최종적으로 획득되며, 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에 속한다. 전술한 방식을 통해, 시험 세트 이미지의 스타일과 동일한 스타일의 검출 대상 이미지를 의도적으로 사용하지 않고 타깃 위치추정을 수행하지만, 교차 영역 이미지 검출 모델을 사용하여 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행함으로써, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
도 1은 본 출원의 일 실시예에 따른 교차 영역 타깃 검출의 개략적인 비교 도면이다.
도 2는 본 출원의 일 실시예에 따른 타깃 검출 시스템의 개략적인 아키텍처 도면이다.
도 3은 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 타깃 검출 효과의 개략도이다.
도 4는 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 다른 타깃 검출 효과의 개략도이다.
도 5는 본 출원의 실시예에 따른 이미지 기반의 타깃 검출 방법의 일 실시예의 개략도이다.
도 6은 본 출원의 일 실시예에 따른 제1 검출 대상 이미지의 일 실시예의 개략도이다.
도 7은 본 출원의 일 실시예에 따른 제2 검출 대상 이미지의 일 실시예의 개략도이다.
도 8은 본 출원의 일 실시예에 따라 타깃 위치추정이 수행될 이미지의 일 실시예의 개략도이다.
도 9는 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 배치에 대한 개략 흐름도이다.
도 10은 본 출원의 일 실시예에 따른 모델 훈련 방법의 일 실시예의 개략도이다.
도 11은 본 출원의 일 실시예에 따라 서로 다른 영역의 이미지를 비교하는 개략도이다.
도 12는 본 출원의 일 실시예에 따라 교차 영역 이미지 검출 모델을 훈련하는 데 사용될 수 있는 이미지의 두 클래스를 비교하는 개략도이다.
도 13은 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 개략 인 구성도이다.
도 14는 본 출원의 일 실시예에 따른 실험 결과에서 검출된 이미지 비교의 개략도이다.
도 15는 본 출원에 따른 실험 결과에서 검출된 다른 이미지 비교의 개략도이다.
도 16은 본 출원에 따른 실험 결과에서 Sim10k 데이터세트에서 Kitti 데이터세트로의 변환 효과의 개략도이다.
도 17은 본 출원에 따른 실험 결과에서 Cityscapes 데이터세트에서 Foggy-Cityscapes 데이터세트로의 변환 효과의 개략도이다.
도 18은 본 출원의 일 실시예에 따른 타깃 검출 장치의 일 실시예의 개략도이다.
도 19는 본 출원의 일 실시예에 따른 모델 훈련 장치의 일 실시예의 개략도이다.
도 20은 본 출원의 일 실시예에 따른 모델 훈련 장치의 다른 실시예의 개략도이다.
도 21은 본 출원의 일 실시예에 따른 단말 기기의 개략 구성도이다.
도 22는 본 출원의 일 실시예에 따른 서버의 개략 구성도이다.
도 2는 본 출원의 일 실시예에 따른 타깃 검출 시스템의 개략적인 아키텍처 도면이다.
도 3은 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 타깃 검출 효과의 개략도이다.
도 4는 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 다른 타깃 검출 효과의 개략도이다.
도 5는 본 출원의 실시예에 따른 이미지 기반의 타깃 검출 방법의 일 실시예의 개략도이다.
도 6은 본 출원의 일 실시예에 따른 제1 검출 대상 이미지의 일 실시예의 개략도이다.
도 7은 본 출원의 일 실시예에 따른 제2 검출 대상 이미지의 일 실시예의 개략도이다.
도 8은 본 출원의 일 실시예에 따라 타깃 위치추정이 수행될 이미지의 일 실시예의 개략도이다.
도 9는 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 배치에 대한 개략 흐름도이다.
도 10은 본 출원의 일 실시예에 따른 모델 훈련 방법의 일 실시예의 개략도이다.
도 11은 본 출원의 일 실시예에 따라 서로 다른 영역의 이미지를 비교하는 개략도이다.
도 12는 본 출원의 일 실시예에 따라 교차 영역 이미지 검출 모델을 훈련하는 데 사용될 수 있는 이미지의 두 클래스를 비교하는 개략도이다.
도 13은 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 개략 인 구성도이다.
도 14는 본 출원의 일 실시예에 따른 실험 결과에서 검출된 이미지 비교의 개략도이다.
도 15는 본 출원에 따른 실험 결과에서 검출된 다른 이미지 비교의 개략도이다.
도 16은 본 출원에 따른 실험 결과에서 Sim10k 데이터세트에서 Kitti 데이터세트로의 변환 효과의 개략도이다.
도 17은 본 출원에 따른 실험 결과에서 Cityscapes 데이터세트에서 Foggy-Cityscapes 데이터세트로의 변환 효과의 개략도이다.
도 18은 본 출원의 일 실시예에 따른 타깃 검출 장치의 일 실시예의 개략도이다.
도 19는 본 출원의 일 실시예에 따른 모델 훈련 장치의 일 실시예의 개략도이다.
도 20은 본 출원의 일 실시예에 따른 모델 훈련 장치의 다른 실시예의 개략도이다.
도 21은 본 출원의 일 실시예에 따른 단말 기기의 개략 구성도이다.
도 22는 본 출원의 일 실시예에 따른 서버의 개략 구성도이다.
본 출원의 실시예는 시험 세트 이미지의 스타일과 동일한 스타일의 검출 대상 이미지를 의도적으로 사용하지 않고 타깃 위치추정을 수행하지만, 교차 영역 이미지 검출 모델을 사용하여 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행하도록, 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기, 그리고 저장 매체를 제공하여, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
본 출원의 명세서 및 청구 범위 및 전술한 첨부 도면에서 "제1", "제2", "제3", "제4" 등(있는 경우)의 용어는 유사한 대상을 구별하기 위해 사용되며, 반드시 특정 시퀀스나 순서를 설명하는 데 사용되는 것은 아니다. 이러한 방식으로 명명된 데이터는 적절한 상황에서 상호 교환 가능하므로, 예를 들어 본 명세서에 기재된 본 출원의 실시예는 본 명세서에 예시되거나 기재된 순서와 다른 순서로 구현될 수 있음을 이해할 수 있다. 또한, 용어 "포함하다", "~에 대응하는" 및 기타 모든 변형은 비배타적 포함을 망라하기 위한 것입니다. 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 명시적으로 나열된 단계 또는 유닛에 반드시 한정되는 것이 아니라, 그러한 프로세스, 방법, 제품 또는 기기에 명시적으로 나열되지 않거나 고유하지 않은 다른 단계 또는 유닛을 포함할 수 있다.
본 출원은 심층 컨볼루션 신경망(deep convolutional neural network)이 서로 다른 분포의 학습 세트 데이터 및 시험 세트 데이터의 분포에 직면한 경우에 발생하는 낮은 시험 정밀도 문제를 해결하는 데 적용할 수 있은 대립 학습(adversarial learning)에 기초한 교차 영역 이미지 타깃 검출 방법을 제안함을 이해해야 한다. 본 출원은 이미지 타깃 검출 태스크(image target detection task)에 널리 사용될 수 있으며, 특히 실제 적용 시에 훈련 세트 이미지의 영역 분포와 시험 세트 이미지의 영역 분포가 다른 경우에 더욱 중요하다. 실제로, 훈련 세트 이미지의 영역 분포와 시험 세트 이미지의 영역 분포는 대부분의 경우 다르다. 예를 들어, 무인 차량의 타깃 검출 시나리오에서, 훈련 중에 사용되는 훈련 세트 이미지는 도시 A의 시나리오 영상에서 온 것이고, 실제 시험 중에 사용되는 시험 세트 이미지는 도시 B의 시나리오 영상에서 온 것이다. 두 도시의 시나리오 영상은 일반적으로 영역 분포에 일관성이 없음을 알 수 있다. 다른 예에서, 훈련 중에 사용되는 훈련 세트 이미지는 실내 시나리오 영상에서 온 것이고, 시험 중에 사용되는 시험 세트 이미지는 실외 시나리오 영상에서 온 것임을 알 수 있다. 실내 및 실외 시나리오 영상도 영역 분포에서 일관성이 없음을 알 수 있다. 다른 예에서, 훈련 중에 사용되는 훈련 세트 이미지에서의 자동차의 브랜드 및 색상은 시험 중에 사용되는 시험 세트 이미지에서의 자동차의 브랜드 및 색상과 다르게 사용될 수 있다. 도 1을 참조하면, 도 1은 본 출원의 일 실시예에 따른 교차 영역 타깃 검출의 개략적인 비교 도면이다. 도 1의 이미지 (a) 및 이미지 (b)는 각각 두 가지 유형의 영역 분포에서 온 것이다. 분명, 두 이미지 모두에서 "자동차"와 같은 객체가 검출될 수 있지만, 두 이미지의 스타일은 크게 다르다. 훈련 세트 이미지의 영역 분포와 시험 세트 이미지의 영역 분포 사이의 비교적 큰 차이에 직면할 때, 심층 네트워크(deep network)는 일반적으로 시험 세트 이미지에 대한 일반화 성능이 나쁘고 테스트 정밀도가 낮으며, 마찬가지로 타깃 검출을 위한 심층 네트워크 모델은 문제를 피할 수 없다.
이해의 편의를 위해, 본 출원에서는 이미지 기반의 타깃 검출 방법을 제안하며, 이 방법은 도 2에 도시된 타깃 검출 시스템에 적용 가능하다. 도 2를 참조하면, 도 2는 본 출원의 실시예에 따른 타깃 검출 시스템의 개략적인 아키텍처 도면이다. 도면에 도시된 바와 같이, 본 출원이 제안하는 모델 훈련 방법은 서버에서 구현된다. 즉, 교차 영역 이미지 검출 모델을 훈련하는 과정에서 두 개의 서브네트워크 모델이 서버에 도입된다. 제1 서브네트워크 모델은 화소 영역 적응(pixel domain adaptation, PDA) 네트워크 모델이고, 제2 서브네트워크 모델은 특징 영역 적응(feature domain adaptation, FDA) 네트워크 모델이다. PDA 네트워크는 원본 훈련 세트 이미지를 시험 세트 스타일의 이미지로 변환하고, 변환 후 획득된 시험 세트 스타일의 훈련 세트 이미지가 모델 훈련 중에 입력으로서 사용되어, 교차 영역 이미지 검출 모델이 시험 세트 스타일의 이미지에 적응하는 데 더 유용하다. FDA 네트워크는 특징 레벨 제약 모델(feature-level constraint model)에서 시험 세트 스타일의 이미지 특징을 학습한다. 서버가 훈련을 통해 교차 영역 이미지 검출 모델을 획득한 후, 클라이언트는 검출 대상 이미지를 획득한다. 여기서 검출 대상 이미지와 훈련 세트 이미지는 동일한 영역 분포에 속한다. 그런 다음 클라이언트는 서버에 의해 학습을 통해 획득되는 교차 영역 이미지 검출 모델에 검출 대상 이미지를 입력하고, 교차 영역 이미지 검출 모델은 검출 대상 이미지의 스타일을 시험 세트 이미지로 변환하고, 대립 학습법을 사용하여 변환의 실제적인 효과를 보장하여, 시험 세트 이미지의 스타일로 검출 대상 이미지를 생성하고, 시험 세트 영역의 이미지에 대한 교차 영역 이미지 검출 모델의 예측 효과를 강화한다.
더욱이, 판별기가 교차 영역 이미지 검출 모델에 추가로 도입된다. 판별기는 교차 영역 이미지 검출 모델에 의해 학습된 특징이 시험 세트 이미지의 영역에서 온 것인지의 여부를 판별하는 데 사용된다. 그러면, 교차 영역 이미지 검출 모델을 통해 검출 대상 이미지로 학습되는 특징이 시험 세트 이미지의 특징과 충분히 유사하다는 것을 대립 학습을 통해 보장하여, 검출 대상 이미지의 스타일이 검출하는 동안에 시험 세트 이미지의 스타일로 완전히 변환됨을 보장한다.
클라이언트는 단말 기기에 배치될 수 있다는 점에 유의해야 한다. 단말 기기는 무인 차량, 로봇, 태블릿 컴퓨터, 노트북 컴퓨터, 팜톱 컴퓨터, 이동 전화, 음성 상호작용 기기 및 개인용 컴퓨터(personal computer, PC)를 포함하지만, 여기서는 이에 한정되지 않는다.
타깃 검출은 각각의 객체(사람, 자전거, 모터사이클, 또는 자동차와 같은 것)에 위치추정 정보(예: 경계 상자) 및 클래스 정보(예: 클래스 라벨)를 할당하는 것을 목표로 한다. 현대 자율 주행 프로세스에서 다른 교통 참여자를 검출하는 것이 중요하므로, 타깃 검출은 현대 자율 주행 시스템에서 중요한 역할을 한다. 그 이유는 다음과 같다: 도 3을 참조하면, 도 3은 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 타깃 검출 효과의 개략도이다. 도면에 도시된 바와 같이, 단말 기기는 도 3에 대응하는 이미지에 자동차의 위치추정 정보(즉, 경계 상자) 및 클래스 정보(즉, "자동차")로 라벨을 붙일 수 있다. 도 4를 참조하면, 도 4는 본 출원의 일 실시예에 따른 자율 주행 시스템에 기초한 다른 타깃 검출 효과의 개략도이다. 도면에 도시된 바와 같이, 단말 기기는 도 4에 대응하는 이미지에 자동차와 보행자의 위치추정 정보(즉, 경계 상자) 및 클래스 정보(즉, "자동차" 및 "보행자")로 라벨을 붙일 수 있다.
무인 차량 시나리오에 더하여, 본 출원은 로봇이 태스크를 수행하는 시나리오와 같은 다른 시나리오에도 적용 가능함을 이해해야 한다. 예를 들어, 로봇이 위험한 태스크를 수행하는 경우, 위험한 시나리오에서 실제 시험 세트 이미지를 직접 획득하는 것은 매우 어려울 수 있으므로, 위험한 시나리오에서 시뮬레이션된 훈련 세트 이미지를 통해 훈련을 수행해야 한다. 본 출원에서 제공되는 모델 훈련 방법을 사용함으로써, 단말 기기는 대립 학습을 통해 훈련 세트 이미지의 스타일을 시험 세트 이미지의 스타일로 변환할 수 있으므로, 교차 영역 이미지 검출 모델이 특징을 학습하기 전에,
훈련 세트 이미지와 시험 세트 이미지가 가능한 한 많이 동일한 영역 분포에서 나오고, 그런 다음 대립 손실 함수의 제약하에, 훈련 세트 이미지에 기초하여 교차 영역 이미지 검출 모델에 의해 학습된 특징은 시험 세트 이미지의 특징에 더 가깝다.
이하, 전술한 소개를 참조하여 본 출원에서의 이미지 기반의 타깃 검출 방법을 소개한다. 도 5를 참조하면, 본 출원의 일 실시예에서 이미지 기반의 타깃 검출 방법의 실시예는 다음 단계를 포함한다:
101. 타깃 검출 장치가 제1 검출 대상 이미지를 획득하며, 제1 검출 대상 이미지는 제1 영역에 속한다.
본 실시예에서, 먼저, 타깃 검출 장치는 제1 검출 대상 이미지를 획득하며, 타깃 검출 장치는 로봇 또는 무인 차량과 같은 단말 기기에 배치될 수 있다. 제1 검출 대상 이미지는 제1 영역에 속하며, 여기서 제1 영역은 실내 시나리오와 같은 특정 시나리오를 가리키거나, Sim10k 데이터세트와 같은 데이터세트의 분포를 가르킬 수 있다. 제1 검출 대상 이미지는, 예를 들어 단말 기기의 카메라를 통해 실시간으로 포착된 이미지일 수 있거나, 이미지 데이터베이스에서 추출된 이미지일 수 있으며, 여기서는 이를 한정하지 않는다.
102. 타깃 검출 장치가 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하며, 제2 검출 대상 이미지는 제2 영역에 속하고, 제1 영역과 제2 영역은 서로 다른 영역이다.
본 실시예에서, 타깃 검출 장치는 제1 검출 대상 이미지를 교차 영역 이미지 검출 모델에 입력할 수 있고, 교차 영역 이미지 검출 모델의 PDA 네트워크는 대응하는 제2 검출 대상 이미지를 출력할 수 있다. 제2 검출 대상 이미지는 제2 영역에 속하고, 제1 영역과 제2 영역은 서로 다른 영역이다. 즉, 제2 검출 대상 이미지와 제1 검출 대상 이미지는 두 가지 다른 스타일에 속한다. 이해의 편의를 위해, 도 6을 참조하면, 도 6은 본 출원의 일 실시예에 따른 제1 검출 대상 이미지의 일 실시예의 개략도이다. 도시된 바와 같이, 제1 검출 대상 이미지는 특히 Sim10k 데이터세트에서 샘플링된 실제 이미지일 수 있다. PDA 네트워크를 통한 변환 후, 도 7에 도시된 바와 같이, 도 7을 참조하면, 도 7은 본 출원의 일 실시예에 따른 제2 검출 대상 이미지의 일 실시예의 개략도이다. 제2 검출 대상 이미지와 제1 검출 대상 이미지는 스타일이 상이하다, 즉, 두 영역에 속한다.
훈련 대상 교차 영역 이미지 검출 모델은 두 부분, 즉 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 포함할 수 있으며, 이 두 부분은 타깃 손실 함수를 사용하여 훈련되어, 제1 훈련 대상 네트워크 모델에 대응하는 제1 네트워크 모델과 제2 훈련 대상 네트워크 모델에 대응하는 제2 네트워크 모델을 개별적으로 획득하며, 여기서 제1 네트워크 모델은 PDA를 포함할 수 있고, 제2 네트워크 모델은 FDA 네트워크와 객체 검출 네트워크를 포함할 수 있다. PDA 네트워크는 훈련 스타일의 이미지(즉, 제1 영역)를 시험 스타일의 이미지(즉, 제2 영역)로 변환하는 데 사용될 수 있다. FDA 네트워크는 이미지의 스타일 제약(즉, 변환 후의 제2 영역의 이미지 스타일 제약)에 사용될 수 있으며, 객체 검출 네트워크는 시험 스타일의 이미지에 대해 객체 검출을 수행하는 데 사용될 수 있다.
103. 타깃 검출 장치가 교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하며, 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에서 검출된 객체이고, 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함할 수 있고, 제1 네트워크 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환하는 데 사용되며, 제2 네트워크 모델은 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용된다.
본 실시예에서, 타깃 검출 장치는 교차 영역 이미지 검출 모델에서 PDA 네트워크를 통해 제2 검출 대상 이미지를 출력할 수 있고, 그 후 교차 영역 이미지 검출 모델의 FDA 네트워크가 제2 검출 대상 이미지를 타깃 위치추정이 수행될 이미지로 변환할 수 있으며, 그 후 교차 영역 이미지 검출 모델에서 객체 검출 네트워크를 통해 이미지를 검출하여, 검출 결과를 획득한다. 제1 훈련 대상 이미지가 PDA 네트워크와 FDA 네트워크를 통해 변환된 후, 도 8에 도시된 이미지를 획득할 수 있다. 도 8을 참조하면, 도 8은 본 출원의 일 실시예에 따라 타깃 위치추정이 수행될 이미지의 일 실시예의 개략도이다.
전술한 소개에 기초한 타깃 검출 방법의 적용 과정은 도 9에 도시되어 있다. 도 9는 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 배치에 대한 개략적인 흐름도이다. 먼저, 교차 영역 이미지 검출 모델은 훈련 세트 이미지에 대해 사전 훈련되어, 상대적으로 양호한 모델 초기화 가중치를 획득하며, 여기서 훈련 세트 이미지는 영역 1에 속한다. 그 후, 훈련은 대립 학습법을 사용하고 라벨이 붙인 훈련 세트 이미지와 알려지지 않은 라벨이 붙은 시험 세트 이미지를 모두 사용하여 계속되며, 여기서 시험 세트 이미지는 영역 2에 속한다. 영역 1에 속하는 학습 세트 이미지와 영역 2에 속하는 시험 세트 이미지 사이의 특징이 정렬된 후, 동일한 영역의 특징이 공유되어, 교차 영역 이미지 검출 모델(영역 2의 모델)에 대해 예측을 완료할 수 있다. 본 출원에서 제공되는 교차 영역 이미지 검출 모델은 영역 2의 이미지에 대해 비교적 높은 인식 정밀도를 가지고 있다. 예비 시험 결과는 VGG16 컨볼루션 신경망(convolutional neural network, CNN) 구조을 사용하여, 훈련 세트 이미지는 Sim10k 데이터세트에서 가져온 것이고 시험 세트 이미지는 Kitti 데이터세트에서 가져온 것인 경우, 관련 방안을 사용하여 예측을 수행하는 정밀도는 약 52.7%이지만, 본 출원을 사용하여 예측을 수행하는 정밀도는 최대 59.3%일 수 있다. 더 높은 정밀도의 교차 영역 이미지 검출 모델이 획득된 후, 교차 영역 이미지 검출 모델은 시험 세트 이미지의 예측에 직접 적용될 수 있다.
본 출원의 본 실시예에서, 이미지 기반 타깃 검출 방법이 제공된다. 타깃 검출 장치는 먼저 제1 검출 대상 이미지를 획득하고, 제1 검출 대상 이미지는 제1 영역에 속하며; 그 후, 교차 영역 이미지 검출 모델을 통해 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하고, 제2 검출 대상 이미지는 제2 영역에 속하며; 최종적으로 교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하며,
검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에 속한다. 전술한 방식을 통해, 시험 세트 이미지의 스타일과 동일한 스타일의 검출 대상 이미지를 의도적으로 사용하지 않고 타깃 위치추정을 수행하지만, 교차 영역 이미지 검출 모델을 사용하여 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후의 획득된 이미지에 대해 타깃 위치추정을 수행하여, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
이하에서는 앞서 소개한 내용을 참조하여 본 출원의 모델 훈련 방법을 소개한다. 도 10을 참조하면, 본 출원의 일 실시예에서의 모델 훈련 방법의 일 실시예는 다음 단계를 포함한다:
201. 모델 훈련 장치가 훈련 대상 이미지와 시험 대상 이미지를 획득하며, 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역이다.
본 실시예에서는, 모델 훈련을 수행하기 전에, 훈련 대상 이미지와 시험 대상 이미지를 획득해야 하며, 여기서 훈련 대상 이미지와 시험 대상 이미지는 두 개의 서로 다른 영역 속한다. 즉, 훈련 대상 이미지는 제1 영역에 속하고 시험 대상 이미지는 제2 영역에 속한다. 이해의 편의를 위해, 도 11을 참조하면, 도 11은 본 출원의 일 실시예에 따라 서로 다른 영역의 이미지를 비교하는 개략도이다. 도시된 바와 같이, 도면은 4개의 상이한 영역의 이미지를 제공하며, 도 11에서, 이미지 (a)는 Cityscapes 데이터세트로부터의 이미지를 나타내고, 이미지 (b)는 Foggy-Cityscapes 데이터세트로부터의 이미지를 나타내고, 이미지 (c)는 Sim10k 데이터세트로부터의 이미지를 나타내고, 이미지 (d)는 Kitti 데이터세트의 이미지를 나타내는데, 여기서 Foggy-Cityscapes 데이터세트와 Sim10k 데이터세트는 모두 운전 시나리오를 시뮬레이션하기 위한 합성 데이터세트이다. Foggy-Cityscapes 데이터세트는 실제 Cityscapes 데이터세트에 기초한 렌더링을 수행하여, 안개가 낀 날씨 상황을 시뮬레이션한다. Kitti 데이터세트는, 예를 들어 심층 추정(deep estimation), 3차원 매칭, 시나리오 또는 광학 추정, 객체 검출과 같은, 자율 주행에서의 서로 다른 비전 태스크(vision task)에 대한 벤치마크 시험을 수행하는 데 사용된다.
제1 영역은 Sim10k 데이터세트일 수 있고 제2 영역은 Kitti 데이터세트일 수 있음을 이해할 수 있다. 하지만, 이는 본 출원에 대한 한정으로 이해되어서는 안 된다. 제1 영역은 대안으로 Foggy-Cityscapes 데이터세트, Cityscapes 데이터세트 또는 Kitti 데이터세트일 수 있으며, 제2 영역은 대안으로 제1 영역과 제2 영역이 서로 다른 것이 보장되는 한, Foggy-Cityscapes 데이터세트, Sim10k 데이터세트 또는 Cityscapes 데이터세트일 수 있다. 이하에서는 제1 영역이 Sim10k 데이터세트이고 제2 영역이 Kitti 데이터세트인 예를 사용하여 설명한다. 도 12를 참조하면, 도 12는 본 출원의 일 실시예에 따라 교차 영역 이미지 검출 모델을 훈련하는 데 사용될 수 있는 이미지의 두 클래스를 비교하는 개략도이다. 도시된 바와 같이, 도 12에서, 이미지 (a)와 이미지 (c)는 Sim10k 데이터세트의 이미지를 나타내고, 이미지 (b)와 이미지 (d)는 Kitti 데이터세트의 이미지를 나타낸다.
202. 모델 훈련 장치가 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고,
제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지를 획득하며, 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속한다.
본 실시예에서, 모델 훈련 장치는 훈련 대상 이미지를 제1 훈련 대상 네트워크 모델(예: 훈련 대상 PDA 네트워크일 수 있음)에 입력할 수 있고, 제1 훈련 대상 네트워크 모델은 시험 스타일 이미지를 출력하며; 유사하게, 모델 훈련 장치는 시험 대상 이미지를 제1 훈련 대상 네트워크 모델에 입력하고, 제1 훈련 대상 네트워크 모델은 훈련 스타일 이미지를 출력한다.
가능한 구현예에서, 설명의 편의를 위해, 도 13을 참조하면, 도 13은 본 출원의 일 실시예에 따른 교차 영역 이미지 검출 모델의 개략적인 구성도이다. 도시된 바와 같이, 도 13에서, 왼쪽 부분은 PDA 네트워크의 모델 구조이고, 모델 구조는 FDA 네트워크가 훈련되기 전에 소스 영역 스타일의 이미지를 타깃 영역 스타일의 이미지로 변환하는 데 사용되며, 순환 생성 대립 네트워크(cycle generative adversarial network)가 PDA 네트워크로 사용될 수 있다. 오른쪽 부분은 FDA 네트워크의 모델 구조이고, 이 모델 구조는 특징 레벨 대립 훈련(feature-level adversarial training)에 사용되며, 객체 검출 부분은 여러 추가적인 신경 계층을 강화한다. 훈련 대상 이미지(real_s)가 제1 훈련 대상 네트워크 모델(훈련 대상 PDA 네트워크)을 통해 시험 스타일 이미지(fake_t)로 변환되고; 시험 대상 이미지(real_t)가 제1 훈련 대상 네트워크 모델(훈련 대상 PDA 네트워크)을 통해 훈련 스타일 이미지(fake_s)로 변환되며, 여기서 시험 스타일 이미지(fake_t)와 시험 대상 이미지(real_t)는 동일한 영역에 속하고, 훈련 스타일 이미지(fake_s)와 훈련 대상 이미지(real_s)는 동일한 영역에 속한다고 가정한다.
203. 모델 훈련 장치가 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하며, 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지에서 추출된 후보 경계 상자이다.
본 실시예에서, 전술한 소개에 기초하여, 제1 훈련 대상 네트워크 모델(훈련 대상 PDA 네트워크)이 훈련 대상 이미지(real_s)를 시험 스타일 이미지(fake_t)로 변환한 후, 시험 스타일 이미지는 제2 훈련 대상 네트워크 모델에서의 FDA 네트워크로 직접 공급되고, 모델 훈련 장치는 시험 스타일 이미지(fake_t)와 시험 대상 이미지(real_t)를 FDA 네트워크에서의 판별기에 입력하여, 시험 스타일 이미지(fake_t) 및 시험 대상 이미지(real_t)의 모든 위치에서의 특징을 결정한다, 즉, 시험 대상 이미지 또는 시험 스타일 이미지로부터 후보 경계 상자(bounding box, bbox)에 대한 확률 값을 예측하여, 후보 구역에 대응하는 예측된 확률 값을 획득한다.
204. 모델 훈련 장치가 제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득한다.
본 실시예에서, 모델 훈련 장치는 전술한 소개에 기초하여, 제2 훈련 대상 네트워크 모델에 시험 스타일 이미지(fake_t)를 입력할 수 있고, 제2 훈련 대상 네트워크 모델을 통해 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값이 출력되며, 여기서 교차 영역 이미지 검출 모델에서의 객체 검출 네트워크는 두 부분, 즉 구역 제안 네트워크(region proposal network, RPN)와 타깃 검출 네트워크를 포함할 수 있고, 제1 예측 클래스 확률 값 및 제1 예측 위치추정 값은 RPN에 의해 출력되는 예측 값이고, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값은 타깃 검출 네트워크에 의해 출력되는 예측 값이다.
객체 검출 네트워크는 특징 학습 및 객체 검출을 수행하는 데 사용된다. 객체 검출 네트워크는 더 빠른 영역 기반 컨볼루션 신경망(region-based convolutional neural network, R-CNN), 영역 기반 전 컨볼루션 네트워크(region-based fully convolutional network, R-FCN) 등일 수 있다.
205. 모델 훈련 장치가 예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득한다.
본 실시예에서, 모델 훈련 장치는 예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 참조하여 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득할 수 있고, 교차 영역 이미지 검출 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환한 다음 훈련을 수행할 수 있거나, 제1 영역의 이미지에 대해 위치추정 정보 및 클래스 정보를 검출할 수 있다. 구체적으로, 제1 훈련 대상 네트워크 모델은 훈련 대상 PDA 네트워크를 포함할 수 있고, 제2 훈련 대상 네트워크 모델은 FDA 네트워크 및 객체 검출 네트워크를 포함할 수 있으며, 객체 검출 네트워크는 RPN 및 타깃 검출 네트워크를 포함할 수 있다.
설명의 편의를 위해, 도 14를 참조하면, 도 14는 본 출원의 일 실시예에 따른 실험 결과에서 검출된 이미지 비교의 개략도이다. 도시된 바와 같이, 도 14에서, 이미지 (a)는 PDA 네트워크의 변환을 통해 획득된 차량을 보여주고, 이미지 (b)는 PDA 네트워크와 FDA 네트워크 변환을 통해 획득된 차량을 보여준다. 이미지 (b)에서의 차량의 재현성(reproducibility) 및 선명도(definition)가 이미지 (a)에서의 차량의 재현성 및 선명도보다 높다는 것을 아는 것은 어렵지 않다.
도 15를 참조하면, 도 15는 본 출원에 따른 실험 결과에서 검출된 다른 이미지 비교의 개략도이다. 도시된 바와 같이, 도 15를 참조하면, 이미지 (a)는 PDA 네트워크 변환을 통해 획득된 차량이고, 이미지 (b)는 PDA 네트워크와 FDA 네트워크 변환을 통해 획득된 차량이다. 이미지 (b)에서의 차량의 재현성 및 선명도가 이미지 (a)에서의 차량의 재현성 및 선명도보다 높다는 것을 아는 것은 어렵지 않다.
본 출원의 본 실시예에서, 모델 훈련 방법이 제공된다. 모델 훈련 장치는 먼저 훈련 대상 이미지 및 시험 대상 이미지를 획득하고; 그 후 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지를 획득하고, 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측 확률 값을 획득하고, 제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하고; 최종적으로 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득한다. 전술한 방식을 통해, 훈련을 통해 획득된 교차 영역 이미지 검출 모델은 교차 영역 이미지 변환을 구현할 수 있으며, 훈련 세트 이미지의 스타일은 교차 영역 이미지 검출 모델을 사용하여 시험 세트 이미지의 스타일로 변환될 수 있으며, 그 후 변환 후 획득된 이미지에 대해 타깃 위치추정이 수행됨으로써, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화할 수 있다.
선택적으로, 도 10에 대응하는 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제1 선택적 실시예에서, 모델 훈련 장치가 예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하는 것은,
시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 것;
예측된 확률 값에 따라 제2 손실 함수를 결정하는 것;
제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 것;
제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 따라 타깃 손실 함수를 생성하는 것; 및
타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 훈련하는 것을 포함할 수 있다.
본 실시예에서, 타깃 손실 함수의 형성 내용이 소개된다. 먼저, 모델 훈련 장치가 시험 스타일 이미지와 훈련 스타일 이미지를 획득한 후, 훈련 대상 이미지, 시험 대상 이미지, 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수가 결정될 수 있다. 다음으로, 모델 훈련 장치는 시험 대상 이미지 또는 시험 스타일 이미지에 대응하는 예측된 확률 값에 따라 제2 손실 함수를 결정할 수 있다. 최종적으로, 모델 훈련 장치는 RPN에 의해 생성된 제1 예측 클래스 확률 값, 제1 실제 클래스 확률 값, 제1 예측 위치추정 값 및 제1 실제 위치추정 값에 따라 RPN을 훈련하고, 동시에 타깃 검출 네트워크에 의해 생성된 제2 예측 클래스 확률 값, 제2 실제 클래스 확률 값, 제2 예측 위치추정 값 및 제2 실제 위치추정 값에 따라 타깃 검출 네트워크를 훈련할 수 있다. 즉, 모델 훈련 장치는 제1 예측 클래스 확률 값, 제1 실제 클래스 확률 값, 제1 예측 위치추정 값, 제1 실제 위치추정 값, 제2 예측 클래스 확률 값, 제2 실제 클래스 확률 값, 제2 예측 위치추정 값, 및 제2 실제 위치추정 값에 따라 제3 손실 함수를 생성한다.
모델 훈련 장치는 제1 손실 함수, 제2 손실 함수 및 제3 손실 함수를 참조하여 타깃 손실 함수를 획득하고, 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련할 수 있다.
두 번째로, 본 출원의 본 실시예에서, 타깃 손실 함수를 획득하는 방법을 제공한다, 즉 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하고; 그런 다음 예측된 확률 값에 따라 제2 손실 함수를 결정하고; 그런 다음 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하고; 최종적으로 타깃 손실 함수를 생성하고, 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련한다. 전술한 방식을 통해, 모델 훈련 프로세스를 3개의 손실 함수를 각각 사용함으로써 상응하게 훈련되는 세 부분으로 나뉠 수 있어, 유연성과 운용성을 향상시킬 수 있다.
선택적으로, 도 10에 대응하는 제1 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제2 선택적 실시예에서, 모델 훈련 장치가 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 것은 다음을 포함할 수 있다:
시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 단계는,
여기서 는 제1 손실 함수를 나타내고, 는 시험 대상 이미지를 나타내고, 는 훈련 대상 이미지를 나타내고, 는 훈련 대상 이미지를 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 시험 대상 이미지를 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 훈련 스타일 이미지를 나타내고, 는 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타낸다.
본 실시예에서, 제1 훈련 대상 네트워크 모델은 CycleGAN으로부터의 학습에 기초하여 훈련될 수 있다. 종래의 GAN은 단방향으로 생성되는 반면, CycleGAN은 상호 생성되며 네트워크는 링이다. CycleGAN은 실제로 A에서 B로의 단방향 GAN과 B에서 A로의 단방향 GAN을 더한 것이다. 두 GAN은 두 개의 생성기를 공유하고 각각 판별기를 구비하므로, 총 두 개의 판별기와 두 개의 생성기가 있다. 하나의 단방향 GAN에는 두 가지 손실이 있는 반면, CycleGAN에는 총 네 가지 손실이 있다. 본 출원에서, 판별기의 손실은 개별적으로 계산될 수 있고, 생성기의 손실은 조합하여 계산될 수 있어, 다음의 제1 손실 함수:
여기서 는 제1 손실 함수를 나타내고, 는 시험 대상 이미지를 나타내고, 는 훈련 대상 이미지를 나타내고, 는 훈련 대상 이미지를 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 시험 대상 이미지를 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 훈련 스타일 이미지를 나타내고, 는 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타낸다.
및 는 구체적으로 사용되는 변환 네트워크로, VGG 네트워크 또는 잔여 신경망(residual neural network, ResNet)과 같은 임의의 심층 컨볼루션 신경망 모델일 수 있음을 이해할 수 있다. 본 출원에서, 생성기는 도 13에 도시된 와 와 같이 두 부분으로 나뉠 수 있으며, 제1 생성기 는 원본 훈련 대상 이미지를 시험 스타일 이미지로 변환하는 데 사용되고, 제2 생성기 는 시험 대상 이미지를 훈련 스타일 이미지로 변환하는 데 사용된다.
실제 적용 시에 GAN은 대안으로 매핑 함수 및 를 학습하여 시험 대상 이미지의 데이터 분포 및 훈련 대상 이미지의 데이터 분포로부터 샘플링된 이미지를 생성할 수 있다. 그러나 GAN을 사용하면, 소스 이미지의 구조 정보가 손실될 수 있다. 이러한 문제를 해결하기 위해, 에 의해 생성된 이미지는 순환 일관성(cycle consistency)을 갖는 제1 손실 함수를 사용하여, 에 의해 생성된 이미지와 동일한 이미지 효과를 갖도록 강제할 수 있으며, 그 반대의 경우도 마찬가지이다.
다음으로, 본 출원의 이 실시예에서, 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 구체적인 방식이 제공된다. 전술한 방식을 통해, 이미지 스타일은 짝을 이룬 훈련 데이터(paired training data) 없이 소스 영역에서 타깃 영역으로 마이그레이션할 수 있으며, 제1 훈련 대상 네트워크 모델을 훈련하는 경우, 소스 영역의 이미지와 타깃 영역의 이미지가 입력으로 사용될 것을 필요로 할 뿐이며 소스 영역의 이미지 콘텐츠가 타깃 영역의 이미지 콘텐츠와 매칭될 필요는 없어, 유연성이 있다. 또한, 제1 손실 기능을 사용은 두 번의 변환 후 학습 세트 이미지가 가능한 한 초기 학습 세트 이미지와 동일하고, 두 번의 변환 후 시험 세트 이미지도 가능한 한 초기 시험 세트 이미지와 동일하도록 보장할 수 있다.
선택적으로, 도 10 및 도 10에 대응하는 제1 또는 제2 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제3 선택적 실시예에서, 모델 훈련 장치가 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지를 획득한 후, 상기 방법은,
제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하는 것 - 여기서 제1 판별기는 제1 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -; 및
제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하는 것 - 여기서 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -을 더 포함할 수 있다.
본 실시예에서는 판별기를 사용하여 제1 훈련 대상 네트워크 모델을 훈련하는 방법을 소개한다. 판별기는 생성기에 의해 생성된 결과와 실제 결과를 결정하는 데 사용되어, 생성된 결과를 실제 결과에 더 가깝게 만들기 위해, "거짓을 진짜와 혼합"이라는 목적을 달성할 수 있다. 예를 들어, 시험 대상 이미지에 대해, 제1 판별기는 라벨이 1인 것으로 결정하고, 시험 스타일 이미지에 대해, 제1 판별기는 라벨이 0인 것으로 결정하는데, 여기서 1은 제1 판별기에 의해 결정된 이미지가 실제 시험 세트의 이미지임을 나타내고, 0은 제1 판별기에 의해 결정된 이미지가 훈련 세트 영상이 변환된 이미지임을 나타낸다. 다른 예에서, 훈련 대상 이미지에 대해, 제2 판별기는 라벨이 1인 것으로 결정하고, 훈련 스타일 이미지에 대해, 제2 판별기는 라벨이 0인 것으로 결정하는데, 여기서 1은 2 판별기에 의해 결정된 이미지가 원본 훈련 세트에서의 이미지임을 나타내고, 0은 제2 판별기에 의해 결정된 이미지가 시험 세트 영상이 변환된 이미지임을 나타낸다.
즉, 제1 판별기는 변환을 통해 획득된 이미지가 실제 시험 세트 이미지인지 아니면 훈련 대상 이미지가 변환된 시험 스타일 이미지인지를 구별하기 위해 사용될 수 있다. 제2 판별기는 이미지가 원본 훈련 세트 이미지인지 아니면 변환을 통해 획득된 훈련 스타일 이미지인지를 구별하기 위해 사용될 수 있다.
또한, 본 출원의 본 실시예에서, 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지를 획득한 후, 다음과 같은 방식이 추가로 제공될 수 있다: 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하고, 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행한다. 전술한 방식을 통해, 모델 훈련 장치는 판별기를 사용하여, 생성기에서 생성된 이미지에 대한 진실성 인식(reality recognition)을 수행할 수 있어, 모델 훈련 효과의 향상을 용이하게 할 수 있다.
선택적으로, 도 10에 대응하는 제3 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제4 선택적 실시예에서, 모델 훈련 장치가 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에, 이 모델 훈련 방법은,
여기서 는 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제1 판별기를 나타내고, 는 제1 영역의 이미지를 나타내고, 는 제1 영역의 이미지를 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
이 실시예에서, 소개의 편의를 위해, 도 13을 여전히 참조하면, 및 를 사용하여 두 개의 영역 각각에서 가짜 이미지(fake image)를 생성한 후, 두 개의 판별기, 즉 제1 판별기 D_t와 제1 판별기 를 훈련하여 실제 이미지와 가짜 이미지를 구별해야 한다. 생성기는 항상 판별기가 실제 이미지를 구별할 수 없는 이미지를 생성하려고 하고, 훈련된 판별자는 실제 이미지와 가짜 이미지를 분류할 수 있다.
따라서, 훈련은 제1 판별기의 다음 제1 대립 손실 함수:
여기서 는 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제1 판별기를 나타내고, 는 제1 영역의 이미지를 나타내고, 는 제1 영역의 이미지를 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
또한, 본 출원의 본 실시예에서, 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에, 다음과 같은 방식이 추가로 제공될 수 있다:
제1 대립 손실 함수가 획득되고, 제1 대립 손실 함수를 통해 모델 효과가 결정된다. 전술한 방식을 통해, 제1 영역에서 제2 영역으로 변환된 이미지를 제2 영역의 이미지에 더 가깝게 만들어, 이 방안의 실현 가능성(feasibility)을 향상시킬 수 있다.
선택적으로, 도 10에 대응하는 제3 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제5 선택적 실시예에서, 모델 훈련 장치가 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하기 전에, 이 모델 훈련 방법은,
여기서 는 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제2 판별기를 나타내고, 는 제2 영역의 이미지를 나타내고, 는 제2 영역의 이미지를 제1 영역의 이미지로 변환하는 네트워크를 나타내며, 는 입력된 이미지를 나타낸다.
본 실시예에서, 소개의 편의를, 도 13을 여전히 참조하면, 및 를 사용하여 두 개의 영역에서 각각 가짜 이미지를 생성한 후, 두 개의 판별기, 즉 제1 판별기 와 제2 판별기 는 실제 이미지와 가짜를 구별하기 위해, 훈련되어야 한다. 생성기는 항상 판별기가 실제 이미지를 구별할 수 없는 이미지를 생성하려고 시도하며, 훈련된 판별기는 실제 이미지와 가짜 이미지를 분류할 수 있다.
따라서, 훈련은 제1 판별기의 다음 제2 대립 손실 함수:
여기서 는 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제2 판별기를 나타내고, 는 제2 영역의 이미지를 나타내고, 는 제2 영역의 이미지를 제1 영역의 이미지로 변환하는 네트워크를 나타내며, 는 입력된 이미지를 나타낸다.
또한, 본 출원의 본 실시예에서, 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하기 전에, 다음과 같은 방식이 추가로 제공될 수 있다: 제2 대립 손실 함수가 획득되고, 제2 대립 손실 함수를 통해 모델 효과가 결정된다. 전술한 방식을 통해, 제2 영역에서 제1 영역으로 변환된 이미지를 제1 영역의 이미지에 더 가깝게 만들어, 이 방안의 실현 가능성을 향상시킬 수 있다.
선택적으로, 도 10에 대응하는 제1 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제6 선택적 실시예에서, 모델 훈련 장치가 예측된 확률 값에 따라 제2 손실 함수를 결정하는 것은,
다음 방식:
또한, 본 실시예에서, 훈련 대상 이미지가 시험 스타일 이미지로 변환된 후, 시험 스타일 이미지는 특징 학습 및 타깃 검출을 수행하기 위한 객체 검출 네트워크에 입력된다. 객체 검출 네트워크의 중간 계층에 의해 학습된 특징은 FDA 네트워크에 대응하는 판별기에 입력되고, 판별기는 특징이 실제 시험 대상 이미지에서 온 것인지 아니면 훈련 대상 이미지가 변환된 시험 스타일 이미지에서 온 것인지를 결정하는 데 사용된다. 훈련 중에 사용되는 제2 손실 함수는,
여기서 은 제2 손실 함수를 나타내고, 는 제j 클래스상의 i번째 후보 구역의 예측된 확률 값을 나타내고, 는 이미지 소스 값을 나타낸다. 제2 손실 함수가 모든 위치의 특징을 결정한다. 특징이 실제 테스트 이미지에서 온 것인 경우, 이고, 특징이 변환을 통해 획득된 시험 스타일 이미지에서 온 것인 경우, 이다. 는 제j 클래스상의 i번째 후보 구역의 예측된 확률 값을 나타낸다. 즉, 특징이 실제 시험 대상 이미지에서 온 것인 경우, 이고, 특징이 변환을 통해 획득된 시험 스타일 이미지에서 온 것인 경우, 이다.
또한, 본 실시예에서는, 예측된 확률 값에 따라 제2 손실 함수를 결정하는 특정 방식을 제공한다. 전술한 방식을 통해 이미지의 특징이 실제 시험 세트 이미지에서 오는지 아니면 훈련 세트 이미지가 변환된 시험 스타일 이미지에서 오는지의 여부가 판단되어, 모델에 의해 출력되는 이미지를 실제 이미지에 더 가깝게 만들 수 있다.
선택적으로, 도 10에 대응하는 제1 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제7 선택적 실시예에서, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 것은,
여기서 는 제3 손실 함수를 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(RPN)의 분류 손실 함수를 나타내고, 은 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 RPN의 제1 실제 클래스 확률 값을 나타내고, 은 제2 훈련 대상 네트워크 모델에서의 RPN의 위치추정 손실 함수를 나타내고, 은 RPN의 제1 예측 위치추정 값을 나타내고, 은 RPN의 실제 위치추정 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 클래스 확률 값을 나타내고, 는 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타낸다.
본 실시예에서는, 객체 검출 네트워크의 훈련 방식을 소개한다. faster R-CNN인 인 객체 검출 네트워크를 설명의 예로 사용하며, faster R-CNN의 검출 손실 함수는 다음과 같다:
여기서 는 제3 손실 함수를 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(RPN)의 분류 손실 함수를 나타내고, 은 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 RPN의 제1 실제 클래스 확률 값을 나타내고, 은 제2 훈련 대상 네트워크 모델에서의 RPN의 위치추정 손실 함수를 나타내고, 은 RPN의 제1 예측 위치추정 값을 나타내고, 은 RPN의 실제 위치추정 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 클래스 확률 값을 나타내고, 는 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타낸다.
가능한 구현예에서, 타깃 검출 태스크의 클래스가 m개라고 가정하면, 영역 분류 계층은 (m+1) 차원의 확률 분포, p =(p0, p1,… pm)을 출력하며, 여기서 배경에 사용되는 클래스가 포함된다. 경계 상자 회귀 계층(bounding box regression layer)을 통해 가능한 클래스 각각에 대해 실수 값 이 예측된다. 교차 엔트로피(cross entropy)를 사용하여 분류 손실을 계산하고 손실 L1을 평활화할 수 있으며, 영역 클래스 학습을 통해, 분류를 통해, 시험 스타일 이미지(fake_t)의 라벨이 레이블이 d=0으로 설정되고 시험 대상 이미지(real_t)의 라벨이 d=1로 설정되는 것으로 가정한다.
또한, 본 출원의 본 실시예에서는, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 방법을 제공한다. 전술한 방식을 통해, 모델 훈련을 위한 구체적인 구현예가 구현이 제공될 수 있어, 이 방안의 실현 가능성과 운용성(operability)을 향상시킨다.
선택적으로, 도 10에 대응하는 제1 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 방법의 제8 선택적 실시예에서, 제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 따라 타깃 손실 함수를 생성하는 것은,
본 실시예에서, 제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 대한 전술한 소개에 기초하여, 타깃 손실 함수:
보다 이해하기 쉽고 손실 함수 간의 중요성을 더 잘 제어하기 위해, 다음의 완전히 훈련된 타깃 손실 함수:
그래픽 처리 유닛(graphics processing unit, GPU)의 내부 메모리의 제약에 따라, 훈련 단계에서, 모델 훈련 장치는 이미지의 높이를 512 화소로 스케일링한 다음 스케일링된 이미지를 512×512 이미지 블록으로 잘라, 화소 레벨 자체 적응(pixel-level self-adaptation)을 구현한다. 훈련 프로세스의 안정성과 이미지의 품질을 고려하여, 모델 훈련 장치는 대립 손실 로그 우도 타깃(adversarial loss log-likelihood target)을 최소 제곱 GAN 타깃으로 대체할 수 있다. 가능한 구현예에서, 모델 훈련 장치는 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델에 기초하여 단대단(end-to-end) 훈련을 수행할 수 있다. 제1 훈련 대상 네트워크 모델(훈련 대상 PDA 네트워크)의 초기 훈련 단계에서, 생성된 대부분의 이미지는 비교적 큰 노이즈를 갖는다. 따라서 제1 훈련 대상 네트워크 모델(훈련 대상 PDA 네트워크)은 Adam 최적화기(optimizer)를 사용하여 훈련될 수 있으며, 초기 학습률은 0.0002로 설정될 수 있으며, 30회 반복 훈련 후, 30회의 반복 훈련 동안에 학습률이 0으로 감소한다. 모델 훈련 장치는 표준의 확률적 기울기 강하(stochastic gradient descent, SGD) 알고리즘을 사용하여 제2 훈련 대상 네트워크 모델(훈련 대상의 FDA 네트워크)을 훈련할 수 있으며, 초기 학습률은 0.001로 설정될 수 있다. 6회의 반복 훈련 후, 학습률은 0.0001로 감소하고, 3회의 반복 훈련이 계속 수행된다.
단대단 훈련의 경우, 앞서 언급한 학습률이 모두 10배 감소한 다음, PDA 네트워크와 FDA 네트워크가 반복 횟수, , , 로 미세 조정되고, 본 출원의 네트워크 훈련에는 24GB 내부 메모리를 구비한 Tesla M40 GPU가 사용되며, 다음과 같은 결과를 획득할 수 있다. 표 1을 참조하면, 표 1은 Sim10k를 훈련 데이터세트로 사용하고 Cityscapes를 테스트 데이터세트로 사용하여 획득되는 분석 검출 결과를 보여준다.
[표 1]
위에서 볼 수 있듯이, oracle은 시험 세트에 대응하는 영역 2에서 직접 훈련을 수행하여 획득한 모델을 의미하므로, 모델 성능 지표가 최고이고, 본 출원에서 제공되는 PDA 네트워크 + FDA 네트워크의 모델 성능이 가장 좋다.
또한, 본 출원의 본 실시예에서는, 타깃 손실 함수를 결정하는 구체적인 방식을 제공한다. 전술한 방식을 통해, 세 개의 손실 함수를 참조하여 생성된 타깃 손실 함수는 교차 영역 이미지 검출 모델의 훈련을 더 잘 제어할 수 있어, 훈련의 신뢰성 및 운용성을 향상시킬 수 있다.
소개의 편의를 위해, 이하에서는 자율 주행 환경에서의 실험 결과를 참조하여 본 출원에서 제공되는 모델을 소개한다. 도 16은 본 출원에 따른 실험 결과에서 Sim10k 데이터세트에서 Kitti 데이터세트로의 변환 효과의 개략도이다. 도시된 바와 같이, 도 16의 이미지 (a)와 이미지 (c)는 Sim10k 데이터세트에서 온 것이고, 도 16의 이미지 (b)와 이미지 (d)는 Kitti 데이터세트에서 온 것이다. 표 2를 참조하면, 표 2는 Sim10k 데이터세트를 Kitti 데이터세트의 소스 데이터세트로 사용하여 획득한 평가 검출 결과를 보여준다.
[표 2]
위에서 볼 수 있듯이, Faster R-CNN의 모델 성능 지표는 52.67%에 도달할 수 있고, 모델 성능 지표는 독립된 PDA 네트워크를 통해 58.4%까지 향상될 수 있고, 모델 성능 지표는 독립된 FDA 네트워크를 통해 55.3%까지 향상될 수 있으며, 단대단 훈련을 통해, 59.3%의 모델 성능 지표를 얻을 수 있다. 분명히, 모델의 정확도는 PDA 네트워크와 FDA 네트워크를 사용함으로써 향상될 수 있다.
도 17을 참조하면, 도 17은 본 출원에 따른 실험 결과에서 Cityscapes 데이터세트에서 Foggy-Cityscapes 데이터세트로의 변환 효과의 개략도이다. 도시된 바와 같이, 도 17의 이미지 (a)와 이미지 (c)는 Cityscapes 데이터세트에서 온 것이고, 도 17의 이미지 (b)와 이미지 (d)는 Foggy-Cityscapes 데이터세트에서 온 것이다. 표 3을 참조하면, 표 3은 Cityscapes 데이터세트를 Foggy-Cityscapes 데이터세트의 소스 데이터세트로 사용하여 얻은 평가 검출 결과를 보여준다.
[표 3]
위에서 볼 수 있듯이, 본 출원에서 제공하는 모델을 사용하면 Oracle Teacher 네트워크의 결과 대비 10.1% 이상 성능 향상이 가능하며, 최고 기술 수준(state of the art, SOTA) 대비 1.8% 이상 향상시킬 수 있음을 알 수 있다. 즉, PDA 네트워크와 FDA 네트워크는 모두 검출 성능을 크게 향상시킬 수 있다. 여러 다른 데이터세트에 대해 수행된 광범위한 실험을 바탕으로, 이 결과는 본 출원에서 제공되는 모델이 비교적 양호한 견고성(robustness)과 우월성(superiority)을 가지고 있음을 증명한다.
이하에서는 본 출원에서의 타깃 검출 장치를 상세히 설명한다. 도 18을 참조하면, 도 18은 본 출원의 일 실시예에 따른 타깃 검출 장치의 일 실시예의 개략도이다. 타깃 검출 장치(30)는,
획득 모듈(301) 및 검출 모듈(302)을 포함하고,
획득 모듈(301)은 제1 검출 대상 이미지를 획득하도록 구성되고, 제1 검출 대상 이미지는 제1 영역에 속하며;
획득 모듈(301)은 추가로, 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하도록 구성되고, 제2 검출 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역이고;
검출 모듈(302)은 교차 영역 이미지 검출 모델을 통해, 획득 모듈(301)에 의해 획득되는 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하도록 구성되고, 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하며, 타깃 객체는 제1 검출 대상 이미지에서 검출된 객체이고, 교차 영역 이미지 검출 모델은 제1 네트워크 모델과 제2 네트워크 모델을 포함하고, 제1 네트워크 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환하는 데 사용되고, 제2 네트워크 모델은 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용된다.
본 실시예에서, 획득 모듈(301)은 제1 검출 대상 이미지를 획득하고, 제1 검출 대상 이미지는 제1 영역에 속하며, 획득 모듈(301)은 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하고, 제2 검출 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역이다. 검출 모듈(302)은 교차 영역 이미지 검출 모델을 통해, 획득 모듈(301)에 의해 획득되는 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하고, 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하며, 타깃 객체는 제1 검출 대상 이미지에서 검출된 객체이고, 교차 영역 이미지 검출 모델은 제1 네트워크 모델과 제2 네트워크 모델을 포함하고, 제1 네트워크 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환하는 데 사용되고, 제2 네트워크 모델은 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용된다.
본 출원의 본 실시예에서는, 이미지 기반 타깃 검출 장치를 제공한다. 이 장치는 먼저 제1 영역에 속하는 제1 검출 대상 이미지를 획득하고, 제1 검출 대상 이미지는 제1 영역에 속하며; 그 후, 교차 영역 이미지 검출 모델을 통해 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하고, 제2 검출 대상 이미지는 제2 영역에 속하며; 최종적으로 교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하며, 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에 속한다. 전술한 방식을 통해, 시험 세트 이미지의 스타일과 동일한 스타일의 검출 대상 이미지를 의도적으로 사용하지 않고 타깃 위치추정을 수행하지만, 교차 영역 이미지 검출 모델을 사용하여 검출 대상 이미지의 스타일을 시험 세트 이미지의 스타일로 변환한 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행하여, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화한다.
이하에서는 본 출원의 모델 훈련 장치를 상세히 설명한다. 도 19를 참조하면, 도 19는 본 출원의 일 실시예에 따른 모델 훈련 장치의 일 실시예의 개략도이다. 이 모델 훈련 장치(40)는,
획득 모듈(401) 및 훈련 모듈(402)을 포함하고,
획득 모듈(401)은 훈련 대상 이미지 및 시험 대상 이미지를 획득하도록 구성되고, 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역이고;
획득 모듈(401)은 추가로, 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하도록 구성되고, 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속하며;
획득 모듈(401)은 추가로, 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하도록 구성되고, 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지로부터 추출된 후보 경계 상자이고;
획득 모듈(401)은 추가로, 제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하도록 구성되고;
훈련 모듈(402)은 획득 모듈(401)에 의해 획득되는 예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득하도록 구성된다.
본 실시예에서, 획득 모듈(401)은 훈련 대상 이미지 및 시험 대상 이미지를 획득하고, 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역이다. 획득 모듈(401)은 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하고, 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속한다. 획득 모듈(401)은 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하고, 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지로부터 추출된 후보 경계 상자이다. 획득 모듈(401)은 제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득한다. 훈련 모듈(402)은 획득 모듈(401)에 의해 획득되는 예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득한다.
본 출원의 본 실시예에서는 모델 훈련 장치를 제공한다. 이 모델 훈련 장치는 먼저, 훈련 대상 이미지 및 시험 대상 이미지를 획득하고; 그 후 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하고, 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하고, 제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하며; 최종적으로 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득한다. 전술한 방식을 통해, 훈련을 통해 획득된 교차 영역 이미지 검출 모델은 교차 영역 이미지 변환을 구현할 수 있으며, 훈련 세트 이미지의 스타일을 교차 영역 이미지 검출 모델을 사용하여 시험 세트 이미지의 스타일로 변환된 다음, 변환 후 획득된 이미지에 대해 타깃 위치추정을 수행됨으로써, 이미지 위치추정의 정확도를 향상시키고 모델 예측 효과를 강화할 수 있다.
선택적으로, 도 19에 대응하는 실시예에 기초하여, 본 출원의 일 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
훈련 모듈(402)은 구체적으로, 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하고;
예측된 확률 값에 따라 제2 손실 함수를 결정하고;
제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하고;
제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 따라 타깃 손실 함수를 생성하고;
타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 훈련하도록 구성된다.
둘째로, 본 출원의 본 실시예에서는 타깃 손실 함수를 획득하는 프로세스, 즉 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하고; 그 후, 예측된 확률 값에 따라 제2 손실 함수를 결정하고; 그 후, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하고; 최종적으로 타깃 손실 함수를 생성하고, 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하는 프로세스를 제공한다.
전술한 방식을 통해, 모델 훈련 과정을 세 가지 손실 함수를 각각 사용하여 상응하게 훈련되는 세 부분으로 나눔으로써, 훈련의 유연성과 운용성을 향상시킨다.
선택적으로, 도 19에 대응하는 실시예에 기초하여, 본 출원의 일 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
훈련 모듈(402)은 구체적으로,
여기서 는 제1 손실 함수를 나타내고, 는 시험 대상 이미지를 나타내고, 는 훈련 대상 이미지를 나타내고, 는 훈련 대상 이미지를 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 시험 대상 이미지를 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 훈련 스타일 이미지를 나타내고, 는 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타낸다.
다음으로, 본 출원의 본 실시예에서는, 시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 구체적인 방식을 제공한다. 전술한 방식을 통해, 이미지 콘텐츠는 짝을 이룬 훈련 데이터 없이 소스 영역에서 타깃 영역으로 마이그레이션할 수 있으며, 제1 훈련 대상 네트워크 모델을 훈련하는 경우, 소스 영역의 이미지와 타깃 영역의 이미지가 입력으로 사용되는 것을 필요로 할 뿐이며 소스 영역의 이미지 콘텐츠가 타깃 영역의 이미지 콘텐츠와 매칭될 필요는 없어, 유연성이 있다. 또한, 제1 손실 기능을 사용은 두 번의 변환 후 학습 세트 이미지가 가능한 한 초기 학습 세트 이미지와 동일하고, 두 번의 변환 후 시험 세트 이미지도 가능한 한 초기 시험 세트 이미지와 동일하도록 보장할 수 있다.
선택적으로, 도 19에 대응하는 실시예에 기초하여, 도 20을 참조하면, 본 출원의 실시예에서 제공되는 모델 훈련 장치(40)의 다른 실시예에서, 모델 훈련 장치(40)는 검출 모듈(403)을 더 포함한다.
검출 모듈(403)은, 획득 모듈(401)이 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득한 후, 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하도록 구성되고, 여기서 제1 판별기는 제1 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득되며;
검출 모듈(403)은 추가로, 획득 모듈(401)이 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득한 후, 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하도록 구성되고, 여기서 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득된다.
또한, 본 출원의이 실시예에서, 제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득한 후, 다음과 같은 방식이 더 제공될 수 있다: 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 감지를 수행하고, 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 감지를 수행한다. 전술한 방식을 통해, 진실성 인식이 판별기를 사용하여, 생성기에 의해 생성된 이미지에 대해 현실 인식을 수행할 수 있어, 모델 훈련 효과의 향상을 용이하게 할 수 있다.
선택적으로, 도 20에 대응하는 실시예를 기초하여. 본 출원의 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
획득 모듈(401)은 추가로, 검출 모듈(403)이 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에,
여기서 는 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제1 판별기를 나타내고, 는 제1 영역의 이미지를 나타내고, 는 제1 영역의 이미지를 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
또한, 본 출원의 본 실시예에서, 제1 판별기를 통해 시험 스타일 이미지에 대한 진실성 검출을 수행하기 전에, 다음과 같은 방식이 추가로 제공될 수 있다: 제1 대립 손실 함수를 획득하고, 제1 대립 손실 함수를 통해 모델 효과를 결정한다. 전술한 방식을 통해, 제1 영역에서 제2 영역으로 변환된 이미지를 제2 영역의 이미지에 더 가깝게 만들어, 이 방안의 실현 가능성을 향상시킬 수 있다.
선택적으로, 도 20에 대응하는 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
획득 모듈(401)은 추가로, 검출 모듈(403)이 제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하기 전에,
여기서 는 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제2 판별기를 나타내고, 는 제2 영역의 이미지를 나타내고, 는 제2 영역의 이미지를 제1 영역의 이미지로 변환하는 네트워크를 나타내며, 는 입력된 이미지를 나타낸다.
또한, 본 출원의 본 실시예에서, 제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하기 전에 다음과 같은 방식이 추가로 제공될 수 있다: 제2 대립 손실 함수가 획득되고, 제2 대립 손실 함수 통해 모델 효과가 결정된다. 전술한 방식을 통해, 제2 영역에서 제1 영역으로 변환된 이미지가 제1 영역의 이미지에 더 가깝게 만들어, 이 방안의 실현 가능성을 향상시킬 수 있다.
선택적으로, 도 19 또는 도 20에 대응하는 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
훈련 모듈(402)은 구체적으로,
또한, 본 실시예에서는, 예측된 확률 값에 따라 제2 손실 함수를 결정하는 구체적인 방식을 제공한다. 전술한 방식을 통해, 이미지의 특징이 실제 시험 세트 이미지에서 온 것인지 아니면 훈련 세트 이미지가 변환된 시험 스타일 이미지에서 온 것인지의 여부를 판단함으로써, 모델이 출력하는 이미지를 실제 이미지에 더 가깝게 만들 수 있다.
선택적으로, 도 19 또는 도 20에 대응하는 실시예에 기초하여, 본 출원 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
훈련 모듈(402)은 구체적으로,
여기서 는 제3 손실 함수를 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(RPN)의 분류 손실 함수를 나타내고, 은 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 RPN의 제1 실제 클래스 확률 값을 나타내고, 은 제2 훈련 대상 네트워크 모델에서의 RPN의 위치추정 손실 함수를 나타내고, 은 RPN의 제1 예측 위치추정 값을 나타내고, 은 RPN의 실제 위치추정 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 클래스 확률 값을 나타내고, 는 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타낸다.
또한, 본 출원의 본 실시예에서는, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 방법을 제공한다. 전술한 방식을 통해, 모델 훈련을 위한 구체적인 구현이 제공될 수 있어, 이 방안의 실현 가능성 및 운용성을 향상시킨다.
선택적으로, 도 19 또는 도 20에 대응하는 실시예에 기초하여, 본 출원의 실시예에 따른 모델 훈련 장치(40)의 다른 실시예에서,
훈련 모듈(402)은 구체적으로,
또한, 본 출원의 본 실시예에서는, 타깃 손실 함수를 결정하는 구체적인 방식이 제공한다. 전술한 방식을 통해, 세 개의 손실 함수를 참조하여 생성된 타깃 손실 함수는 교차 영역 이미지 검출 모델의 훈련을 더 잘 제어할 수 있어, 훈련의 신뢰성과 운용성을 향상시킬 수 있다.
본 출원의 실시예는 또 다른 타깃 검출 장치를 더 제공한다. 도 21에 도시된 바와 같이, 설명의 편의를 위해, 본 출원의 실시예와 관련된 부분만을 도시하였다. 개시되지 않은 구체적인 기술적 세부사항은 본 출원의 실시예에서 방법 부분을 참조하기 바란다. 단말 기기는 이동 전화, 태블릿 컴퓨터, 개인 휴대 정보 PDA(Personal Digital Assistant), POS(Point of Sales) 및 온보드 컴퓨터(on-board computer)를 포함하는 임의의 단말 기기일 수 있으며, 이동 전화인 단말 기기가 예로서 사용된다.
도 21은 본 발명의 일 실시예에 따른 이동 단말기의 또 다른 개략 실시예도이다. 설명의 용이함을 위해, 본 발명의 본 실시예와 관련된 부분 만이 도시된다. 개시되지 않은 구체적인 기술적 세부 사항에 대해서는, 본 발명의 실시예의 방법 부분을 참조한다.
도 21은 본 발명의 일 실시예에 따른 단말기와 관련된 이동 전화의 일부 구성을 나타낸 블록도이다. 도 21에 도시된 바와 같이, 이동 전화는 무선 주파수(radio frequency, RF)) 회로(510), 메모리(520), 입력 유닛(530), 디스플레이 유닛(540), 센서(550), 오디오 회로(560), Wi-Fi(Wireless Fidelity) 모듈(570), 프로세서(580) 및 전원(590)을 포함할 수 있다. 도 21에 도시된 구성 요소는 이동 전화에 대한 한정사항이 아니며, 이동 전화는 도면에 도시된 구성요소보다 많거나 적은 구성요소를 포함할 수 있거나, 일부 구성요소들이 결합되거나, 다른 구성 배치가 사용될 수 있다.
이하, 도 21을 참조하여 이동 전화의 구성 요소에 대해 구체적으로 설명한다.
RF 회로(510)는 정보의 수신 및 전송 처리 또는 호 처리 중에 신호를 수신 및 전송하도록 구성될 수 있다. 구체적으로, RF 회로는 기지국으로부터 다운링크 정보를 수신하고, 처리를 위해 프로세서(580)에 다운링크 정보를 전달하고, 관련된 업링크 데이터를 기지국에 전송한다. 일반적으로, RF 회로(510)는 안테나, 적어도 하나의 증폭기, 송수신기, 커플러, 저잡음 증폭기(LNA) 및 듀플렉서를 포함하지만, 이에 한정되는 것은 아니다. RF 회로(510)는 대안으로 또한 무선 통신을 통해 네트워크 및 다른 기기와 통신할 수 있다. 무선 통신은 GSM(Global System for Mobile communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 전자 메일, SMS(Short Messaging Service) 등의 임의의 통신 표준 또는 프로토콜을 사용할 수 있지만, 이에 한정되는 것은 아니다.
메모리(520)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(580)는 메모리(520)에 저장된 소프트웨어 프로그램 및 모듈을 실행하여 이동 전화의 다양한 기능적 애플리케이션 및 데이터 처리를 구현한다. 메모리(520)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영체제, 적어도 하나의 기능(예: 사운드 재생 기능 및 이미지 표시 기능)에 의해 요구되는 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 이동 전화의 사용 등에 따라 생성된 데이터(예: 오디오 데이터 및 주소록 등)를 저장할 수 있다. 또한, 메모리(520)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 대안으로 예를 들어 적어도 하나의 자기 디스크 저장 기기, 플래시 메모리 또는 다른 휘발성 솔리드 스테이트 저장 기기와 같은 비휘발성 메모리를 포함할 수 있다.
입력 유닛(530)은 입력된 숫자 또는 캐릭터 정보를 수신하고 이동 전화의 사용자 설정 및 기능 제어와 관련된 키보드 신호 입력을 생성하도록 구성될 수 있다. 특히, 입력 유닛(530)은 터치 패널(531) 및 다른 입력 장치(532)를 포함할 수 있다. 터치 패널로도 지칭될 수 있는 터치 패널(531)은 터치 패널상 또는 그 부근에서 사용자의 터치 조작(손가락 또는 스타일러스와 같은 액세서리 또는 액세서리를 사용하여 터치 패널(531)상 또는 그 부근에서의 사용자의 조작)을 수집하여, 미리 설정된 프로그램에 따라 대응하는 연결 장치를 구동할 수 있다. 선택적으로, 터치 패널(531)은 두 부분, 즉 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 조작에 의해 발생한 신호를 검출하여 터치 제어기에 전달한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하여 터치 포인트 좌표로 변환하여 프로세서(580)에 송신한다. 터치 제어기는 프로세서(580)로부터 전송된 커맨드를 수신하여 실행할 수 있다. 또한, 터치 패널(531)은 저항 방식, 용량형, 적외형 또는 표면 음파형과 같은, 다양한 유형을 사용하여 구현될 수 있다. 입력 유닛(530)은 터치 패널(531) 이외에 다른 입력 기기(532)를 더 포함할 수 있다. 구체적으로, 기타 입력 기기(532)는 물리 키보드, 기능 키(볼륨 제어 키 또는 스위치 키), 트랙 볼, 마우스 및 조이스틱을 포함할 수 있지만, 이에 한정되는 것은 아니다.
디스플레이 유닛(540)은 사용자가 입력한 정보 또는 사용자에게 제공되는 정보 및 이동 전화의 각종 메뉴를 표시하도록 구성될 수 있다. 디스플레이 유닛(540)은 디스플레이 패널(541)을 포함할 수 있다. 선택적으로, 디스플레이 패널(541)은 LCD(liquid crystal display) 또는 OLED(organic light-emitting diode) 등의 형태로 구성될 수 있다. 또한, 터치 패널(531)은 디스플레이 패널(541)을 덮을 수 있다. 터치 패널(531) 또는 그 근방의 터치 조작을 검출한 후, 터치 패널(531)은 터치 조작을 프로세서(580)에 전달하여 터치 이벤트의 유형을 결정하도록 할 수 있다. 그러면, 프로세서(580)는 터치 이벤트의 유형에 따라 디스플레이 패널(541)상에 대응하는 시각적 출력을 제공한다. 도 21에서는, 터치 패널(531)과 디스플레이 패널(541)을 두 개의 개별 부품으로 사용하여 이동 전화의 입출력 기능을 구현하지만, 터치 패널(531)과 디스플레이 패널(541)을 일체화하여 이동 전화의 입출력 기능을 구현할 수 있다.
이동 전화는 광 센서, 동작 센서 및 기타 센서와 같은 적어도 하나의 센서(550)를 더 포함할 수 있다. 특히, 광학 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널(541)의 휘도를 조절할 수 있다. 근접 센서는 이동 전화가 귀로 이동될 때 디스플레이 패널(541) 및/또는 백라이트를 스위치 오프할 수 있다. 움직임 센서의 한 종류로서, 가속도 센서는 다양한 방향(일반적으로 3축)의 가속도를 검출할 수 있고, 정적일 때 중력의 크기 및 방향을 검출할 수 있으며, 이동 전화 자세를 인식하는 애플리케이션(예: 가로 방향과 세로 방향의 전환, 관련 게임, 자력계 자세 교정), 진동 인식에 관한 기능(보수계, 노크 등) 등에 적용될 수 있다. 이동 전화에 구성될 수 있는 자이로스코프, 기압계, 습도계, 온도계 및 적외선 센서와 같은 다른 센서에 대해서는 여기서 더 설명하지 않는다.
오디오 회로(560), 스피커(561) 및 마이크로폰(562)은 사용자와 이동 전화 사이에 오디오 인터페이스를 제공할 수 있다. 오디오 회로(560)는 수신된 오디오 데이터를 전기 신호로 변환하여 스피커(561)로 송신할 수 있다. 스피커(561)는 전기 신호를 사운드 신호로 변환하여 출력한다. 한편, 마이크로폰(562)은 수집된 음향 신호를 전기 신호로 변환한다. 오디오 회로(560)는 전기 신호를 수신하여 전기 신호를 오디오 데이터로 변환하고 처리를 위해 프로세서(580)로 오디오 데이터를 출력한다. 그런 다음, 프로세서(580)는 RF 회로(510)를 사용하여 예를 들어 또 다른 이동 전화에 오디오 데이터를 전송하거나, 추가 처리를 위해 오디오 데이터를 메모리(520)에 출력한다.
Wi-Fi는 근거리 무선 전송 기술이다. 이동 전화는 Wi-Fi 모듈(570)을 사용하여 사용자에게 이메일을 수신 및 송신하고, 웹 페이지를 브라우징하고, 스트리밍 미디어에 액세스하는 것 등을 도울 수 있으며, 이는 사용자에게 무선 광대역 인터넷 액세스를 제공한다. 도 21은 Wi-Fi 모듈(570)을 나타내지만, Wi-Fi 모듈(570)은 이동 전화의 필수 구성요소가 아니며 본 발명의 본질의 범위가 변경되지 않는 한 필요시 Wi-Fi 모듈(570)는 생략될 수 있다.
프로세서(580)는 이동 전화의 제어 센터이며, 다양한 인터페이스 및 선로를 사용하여 전체 이동 전화의 다양한 부분에 연결된다. 프로세서(580)는 메모리(520)에 저장된 소프트웨어 프로그램 및/또는 모듈을 실행하고, 메모리(520)에 저장된 데이터를 호출함으로써, 이동 전화의 다양한 기능을 실행하고 데이터 처리를 수행하여, 이동 전화에 대한 전반적인 모니터링을 수행한다. 선택적으로, 프로세서(580)는 하나 이상의 처리 유닛을 포함할 수 있다. 선택적으로, 프로세서(580)는 애플리케이션 프로세서와 모뎀을 통합할 수 있다. 애플리케이션 프로세서는 주로 운영체제, 사용자 인터페이스, 애플리케이션 등을 처리할 수 있다. 모뎀은 무선 통신을 처리할 수 있다. 전술한 모뎀은 대안으로 프로세서(580)에 통합될 수 없는 것으로 이해될 수 있다.
이동 전화는 구성요소에 전력을 공급하기 위한 전원(590)(배터리 등)을 더 포함한다. 선택적으로, 전원은 전력 관리 시스템을 사용함으로써 프로세서(580)에 논리적으로 연결될 수 있어서, 전력 관리 시스템을 사용하여 충전, 방전 및 전력 소비 관리와 같은 기능을 구현한다.
도면에 도시되지는 않았지만, 이동 전화는 카메라, 블루투스 모듈 등을 더 포함할 수 있으며, 여기서는 세부사항을 다시 설명하지 않는다.
본 출원의 본 실시예에서, 단말 기기에 포함된 프로세서(580)는,
제1 검출 대상 이미지를 획득하는 기능 - 제1 검출 대상 이미지는 제1 영역에 속함 -;
제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 기능 - 제2 검출 대상 이미지는 제2 영역에 속하고, 제1 영역과 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 기능 - 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에서 검출된 객체이고, 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 제1 네트워크 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환하는 데 사용되며, 제2 네트워크 모델은 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용됨 -을 추가로 구비한다.
본 출원의 본 실시예에서, 단말 기기에 포함된 프로세서(580)는,
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 기능 - 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 기능 - 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 기능 - 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 기능; 및
예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델(을 획득하는 기능을 추가로 구비한다.
도 22는 본 출원의 일 실시예에 따른 서버의 개략 구성도이다. 서버(600)는 상이한 구성 또는 성능으로 인해 크게 달라질 수 있으며, 하나 이상의 중앙 처리 유닛(CPU)(622)(예: 하나 이상의 프로세서) 및 메모리(632), 그리고 애플리케이션 프로그램(642) 또는 데이터(644)를 저장하는 하나 이상의 저장 매체(630)(예: 하나 이상의 대용량 저장 기기)를 포함할 수 있다. 메모리(632) 및 저장 매체(630)는 일시적인 저장장치 또는 영구적인 저장장치일 수 있다. 저장 매체(630)에 저장된 프로그램은 하나 이상의 모듈(도시되지 않음)을 포함할 수 있고, 각각의 모듈은 서버에 대한 일련의 명령어 조작(instruction operation)을 포함할 수 있다. 또한, 중앙 처리 유닛(622)은 저장 매체(630)와 통신하여 저장 매체(630) 내의 일련의 명령어 조작을 서버(600)에서 수행하도록 구성될 수 있다.
서버(600)는 하나 이상의 전원(626), 하나 이상의 유선 또는 무선 네트워크 인터페이스(650), 하나 이상의 입출력 인터페이스(658) 및/또는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM 또는 FreeBSDTM과 같은 하나 이상의 운영체제(641)를 더 포함할 수 있다.
전술한 실시예에서 서버에 의해 수행되는 단계는 도 22에 도시된 서버 구성에 기초할 수 있다.
본 출원의 본 실시예에서, 서버에 포함된 CPU(622)는,
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 기능 - 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 기능 - 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 기능 - 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 기능; 및
예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 r기능을 더 구비한다.
선택적으로, 서버에 포함된 CPU(622)는 구체적으로,
시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 단계;
예측된 확률 값에 따라 제2 손실 함수를 결정하는 단계;
제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 단계;
제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 따라 타깃 손실 함수를 생성하는 단계; 및
타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 훈련하는 단계를 수행하도록 구성된다.
본 출원의 본 실시예에서, 서버에 포함된 CPU(622)는,
제1 검출 대상 이미지를 획득하는 기능 - 제1 검출 대상 이미지는 제1 영역에 속함 -;
제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 기능 - 제2 검출 대상 이미지는 제2 영역에 속하고, 제1 영역과 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 기능 - 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 타깃 객체는 제1 검출 대상 이미지에서 검출된 객체이고, 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 제1 네트워크 모델은 제1 영역의 이미지를 제2 영역의 이미지로 변환하는 데 사용되며, 제2 네트워크 모델은 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용됨 -을 추가로 구비한다.
본 출원의 실시예는 프로그램 코드를 저장하도록 구성된 컴퓨터로 판독 가능한 저장 매체를 추가로 제공하며, 프로그램 코드는 다음 모델 훈련 단계:
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 단계 - 훈련 대상 이미지는 제1 영역에 속하고, 시험 대상 이미지는 제2 영역에 속하며, 제1 영역과 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 제1 훈련 대상 네트워크 모델을 통해 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 단계업 - 시험 스타일 이미지는 제2 영역에 속하고, 훈련 스타일 이미지는 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 단계- 후보 구역은 시험 대상 이미지 또는 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
제2 훈련 대상 네트워크 모델을 통해 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 단계; 및
예측된 확률 값, 시험 스타일 이미지, 훈련 스타일 이미지, 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델 및 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 단계를 수행하는 데 사용된다.
가능한 구현예에서 프로그램 코드는 다음 단계:
시험 스타일 이미지 및 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 단계;
예측된 확률 값에 따라 제2 손실 함수를 결정하는 단계;
제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 단계;
제1 손실 함수, 제2 손실 함수 및 제3 손실 함수에 따라 타깃 손실 함수를 생성하는 단계; 및
타깃 손실 함수를 사용하여 제1 훈련 대상 네트워크 모델과 제2 훈련 대상 네트워크 모델을 훈련하는 단계를 수행하는 데 사용될 수 있다.
가능한 구현예에서, 프로그램 코드는,
여기서 는 제1 손실 함수를 나타내고, 는 시험 대상 이미지를 나타내고, 는 훈련 대상 이미지를 나타내고, 는 훈련 대상 이미지를 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 시험 대상 이미지를 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 훈련 스타일 이미지를 나타내고, 는 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타낸다.
가능한 구현예에서, 프로그램 코드는,
제1 판별기를 통해 시험 스타일 이미지에 대해 진실성 검출을 수행하는 단계 - 여기서 제1 판별기는 제1 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -; 및
제2 판별기를 통해 훈련 스타일 이미지에 대해 진실성 검출을 수행하는 단계 - 여기서 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -를 수행하는 데 사용될 수 있다.
가능한 구현예에서, 상기 제1 판별기를 통해 시험 스타일 이미지에 대한 진실성 검출을 수행하기 전에, 상기 방법은,
여기서 는 상기 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제1 판별기를 나타내고, 는 상기 제1 영역의 이미지를 나타내고, 는 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
가능한 구현예에서, 프로그램 코드는,
여기서 는 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 제2 판별기를 나타내고, 는 제1 영역의 이미지를 나타내고, 는 제2 영역의 이미지를 제1 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타낸다.
가능한 구현예에서, 프로그램 코드는,
가능한 구현예에서, 프로그램 코드는,
여기서 는 제3 손실 함수를 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(RPN)의 분류 손실 함수를 나타내고, 은 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 RPN의 제1 실제 클래스 확률 값을 나타내고, 은 제2 훈련 대상 네트워크 모델에서의 RPN의 위치추정 손실 함수를 나타내고, 은 RPN의 제1 예측 위치추정 값을 나타내고, 은 RPN의 실제 위치추정 값을 나타내고, 는 제2 훈련 대상 네트워크 모델에서의 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 클래스 확률 값을 나타내고, 는 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 제2 훈련 대상 네트워크 모듈에서의 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타낸다.
가능한 구현예에서, 프로그램 코드는,
당업자라면, 설명의 편의성 및 간결성을 위해, 전술한 시스템, 기기 및 유닛의 구체적인 작동 프로세스에 대해서는 전술한 방법 실시예에서의 대응하는 프로세스를 참조할 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다는 것을 명확하게 이해할 수 있을 것이다.
본 출원에서 제공되는 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 기재된 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛 분할은 단지 논리적 기능 분할일 뿐이며 실제구현 시에는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소가 다른 시스템에 결합 또는 통합될 수 있거나, 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일정한 인터페이스를 사용하여 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적 형태, 기계적 형태 또는 다른 형태로 구현될 수 있다.
별개의 구성요소로 기재된 유닛은 물리적으로 분리될 수 있거나 분리되지 않을 수 있으며, 유닛으로 표시되는 구성요소는 물리적인 유닛일 수도 있고 아닐 수도 있으며, 한 곳에 위치하거나 복수의 네트워크 유닛에 걸쳐 분산될 수 있다. 유닛의 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다.
또한, 본 출원의 실시예에서의 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 각각의 유닛은 물리적으로 분리될 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합될 수도 있다. 통합된 유닛은 하드웨어 형태로 구현될 수 있거나, 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되어 독립된 제품으로 판매 또는 사용되는 경우, 통합된 유닛은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 출원의 본질적인 기술적 방안 또는 관련 기술에 기여하는 부분, 또는 기술적 방안의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며 컴퓨터 장치(개인용 컴퓨터, 서버, 네트워크 기기 등)에 명령하기 위한 여러 프로그램 코드를 포함하여 본 출원의 실시예에서 기재된 방법의 단계의 전부 또는 일부를 수행한다. 전술한 저장 매체로는 USB 플래시 드라이브, 탈착 가능한 하드 디스크, 판독 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM)), 자기 디스크 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 모든 매체를 포함한다.
전술한 실시예들은 본 출원의 기술적 방안을 설명하기 위한 것일 뿐, 본 출원을 한정하기 위한 것이 아니다. 본 출원은 전술한 실시예들을 참조하여 상세하게 설명되었지만, 당업자라면 본 출원의 실시예들의 기술적 방안의 사상 및 범위를 벗어나지 않으면서 여전히 전술한 실시예에서 설명된 기술적 방안을 수정하거나 일부 기술적인 특징을 등가물로 대체할 수 있음을 이해해야 한다.
Claims (20)
- 모델 훈련 방법으로서,
훈련 대상 이미지(to-be-trained image) 및 시험 대상 이미지(to-be-tested image)를 획득하는 단계 - 상기 훈련 대상 이미지는 제1 영역(domain)에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 단계 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역(candidate region)에 대응하는 예측된 확률 값을 획득하는 단계 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자(candidate bounding box)임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값(prediction class probability value), 제1 예측 위치추정 값(prediction localization value), 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 단계; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델(cross-domain image detection model)을 획득하는 단계
를 포함하는 모델 훈련 방법. - 제1항에 있어서,
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득하는 단계는,
상기 시험 스타일 이미지 및 상기 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 단계;
상기 예측된 확률 값에 따라 제2 손실 함수를 결정하는 단계;
상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 단계;
상기 제1 손실 함수, 상기 제2 손실 함수 및 상기 제3 손실 함수에 따라 상기 타깃 손실 함수를 생성하는 단계; 및
상기 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델과 상기 제2 훈련 대상 네트워크 모델을 훈련하는 단계를 포함하는, 모델 훈련 방법. - 제2항에 있어서,
상기 시험 스타일 이미지 및 상기 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 단계는,
으로 상기 제1 손실 함수를 결정하는 단계를 포함하고,
여기서 는 상기 제1 손실 함수를 나타내고, 는 상기 시험 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 상기 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 시험 대상 이미지를 상기 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 훈련 스타일 이미지를 나타내고, 는 상기 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내는, 모델 훈련 방법. - 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 단계 이후에, 상기 모델 훈련 방법은,
제1 판별기(discriminator)를 통해 상기 시험 스타일 이미지에 대해 진실성 검출(reality detection)을 수행하는 단계 - 상기 제1 판별기는 제1 대립 손실 함수(adversarial loss function)를 사용하여 훈련을 수행한 후에 획득됨 -; 및
제2 판별기를 통해 상기 훈련 스타일 이미지에 대해 진실성 검출을 수행하는 단계 - 상기 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -를 더 포함하는 모델 훈련 방법. - 제4항에 있어서,
상기 제1 판별기를 통해 상기 시험 스타일 이미지에 대한 진실성 검출을 수행하는 단계 이전에, 상기 모델 훈련 방법은,
으로 상기 제1 대립 손실 함수를 획득하는 단계를 더 포함하고,
여기서 는 상기 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제1 판별기를 나타내고, 는 상기 제1 영역의 이미지를 나타내고, 는 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타내는, 모델 훈련 방법. - 제4항에 있어서,
상기 제2 판별기를 통해 상기 훈련 스타일 이미지에 대한 진실성 검출을 수행하는 단계 이전에, 상기 모델 훈련 방법은,
으로 상기 제2 대립 손실 함수를 획득하는 단계를 더 포함하고,
여기서 는 상기 제2 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제2 판별기를 나타내고, 는 상기 제2 영역의 이미지를 나타내고, 는 상기 제2 영역의 이미지를 상기 제1 영역의 이미지로 변환하는 네트워크를 나타내며, 는 입력된 이미지를 나타내는, 모델 훈련 방법. - 제2항에 있어서,
상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 단계는,
으로 상기 제3 손실 함수를 결정하는 단계를 포함하고,
여기서 는 상기 제3 손실 함수를 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 구역 제안 네트워크(region proposal network, RPN)의 분류 손실 함수(classification loss function)를 나타내고, 은 상기 RPN의 제1 예측 클래스 확률 값을 나타내고, 은 상기 RPN의 제1 실제 클래스 확률 값(real class probability value)을 나타내고, 은 상기 제2 훈련 대상 네트워크 모델에서의 상기 RPN의 위치추정 손실 함수를 나타내고, 은 상기 RPN의 제1 예측 위치추정 값을 나타내고, 은 상기 RPN의 실제 위치추정 값을 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 상기 타깃 검출 네트워크의 분류 손실 함수를 나타내고, 는 상기 타깃 검출 네트워크의 상기 제2 예측 클래스 확률 값을 나타내고, 는 상기 타깃 검출 네트워크의 제2 실제 클래스 확률 값을 나타내고, 는 상기 제2 훈련 대상 네트워크 모델에서의 상기 타깃 검출 네트워크의 위치추정 손실 함수를 나타내고, 는 상기 타깃 검출 네트워크의 제2 예측 위치추정 값을 나타내며, 는 상기 타깃 검출 네트워크의 제2 실제 위치추정 값을 나타내는, 모델 훈련 방법. - 이미지 기반의 타깃 검출 방법으로서,
제1 검출 대상 이미지를 획득하는 단계 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 단계 - 상기 제2 검출 대상 이미지는 제2 영역에 속하고, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 단계 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정 수행하는 데 사용됨 -
를 포함하는 타깃 검출 방법. - 타깃 검출 장치로서,
획득 모듈 및 검출 모듈을 포함하고,
상기 획득 모듈은 제1 검출 대상 이미지를 획득하도록 구성되고, 상기 제1 검출 대상 이미지는 제1 영역에 속하며;
상기 획득 모듈은 추가로, 상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하도록 구성되고, 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역이고;
상기 검출 모듈은 교차 영역 이미지 검출 모델을 통해, 상기 획득 모듈에 의해 획득되는 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하도록 구성되고, 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하며, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델과 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되고, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용되는,
타깃 검출 장치. - 모델 훈련 장치로서,
획득 모듈 및 훈련 모듈을 포함하고,
상기 획득 모듈은 훈련 대상 이미지 및 시험 대상 이미지를 획득하도록 구성되고, 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역이고;
상기 획득 모듈은 추가로, 제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하도록 구성되고, 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속하며;
상기 획득 모듈은 추가로, 제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하도록 구성되고, 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자이고;
상기 획득 모듈은 추가로, 상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하도록 구성되고;
상기 훈련 모듈은 상기 획득 모듈에 의해 획득되는 상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여 교차 영역 이미지 검출 모델을 획득하도록 구성되는,
모델 훈련 장치. - 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 단말 기기로서,
상기 메모리는 프로그램을 저장하도록 구성되고;
상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여, 다음 작업:
제1 검출 대상 이미지를 획득하는 작업 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 작업 - 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 작업 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용됨 -을 수행하도록 구성되고;
상기 버스 시스템은 상기 메모리와 상기 프로세서로 하여금 통신을 수행하게 하기 위해 상기 메모리와 상기 프로세서를 연결하도록 구성되는,
단말 기기. - 제13항에 있어서,
상기 프로세서는 상기 메모리 내의 상기 프로그램을 실행하여, 다음 작업:
상기 시험 스타일 이미지 및 상기 훈련 스타일 이미지에 따라 제1 손실 함수를 결정하는 작업;
상기 예측된 확률 값에 따라 제2 손실 함수를 결정하는 작업;
상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 제3 손실 함수를 결정하는 작업;
상기 제1 손실 함수, 상기 제2 손실 함수 및 상기 제3 손실 함수에 따라 상기 타깃 손실 함수를 생성하는 작업; 및
상기 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델과 상기 제2 훈련 대상 네트워크 모델을 훈련하는 작업을 수행하도록 구성되는, 단말 기기. - 제14항에 있어서,
상기 프로세서는 상기 메모리 내의 프로그램을 실행하여,
으로 상기 제1 손실 함수를 결정하는 작업을 수행하도록 구성되고,
여기서 는 상기 제1 손실 함수를 나타내고, 는 상기 시험 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 나타내고, 는 상기 훈련 대상 이미지를 상기 시험 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 시험 대상 이미지를 상기 훈련 스타일 이미지로 변환하기 위한 생성기를 나타내고, 는 상기 훈련 스타일 이미지를 나타내고, 는 상기 시험 스타일 이미지를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내는, 단말 기기. - 제13항 내지 제15항 중 어느 한 항에 있어서,
상기 프로세서는 상기 메모리 내의 프로그램을 실행하여, 다음 작업:
제1 판별기를 통해 상기 시험 스타일 이미지에 대해 진실성 검출(reality detection)을 수행하는 작업 - 상기 제1 판별기는 제1 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -; 및
제2 판별기를 통해 상기 훈련 스타일 이미지에 대해 진실성 검출을 수행하는 작업 - 상기 제2 판별기는 제2 대립 손실 함수를 사용하여 훈련을 수행한 후에 획득됨 -을 수행하도록 구성되는, 단말 기기. - 제16항에 있어서,
상기 프로세서는 상기 메모리 내의 프로그램을 실행하여,
으로 상기 제1 대립 손실 함수를 획득하는 작업을 수행하도록 구성되고,
여기서 는 상기 제1 대립 손실 함수를 나타내고, 는 훈련 대상 이미지 세트 내의 훈련 대상 이미지 각각의 기댓값 계산을 나타내고, 는 시험 대상 이미지 세트 내의 시험 대상 이미지 각각의 기댓값 계산을 나타내고, 는 상기 제1 판별기를 나타내고, 는 상기 제1 영역의 이미지를 나타내고, 는 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하기 위한 네트워크를 나타내고, 는 입력된 이미지를 나타내는, 단말 기기. - 메모리, 송수신기, 프로세서 및 버스 시스템을 포함하는 서버로서,
상기 메모리는 프로그램을 저장하도록 구성되고;
상기 프로세서는 상기 메모리 내의 프로그램을 실행하여, 다음 작업:
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 작업 - 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 작업 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 작업 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 작업; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 작업을 수행하도록 구성되고;
상기 버스 시스템은 상기 메모리와 상기 프로세서를 연결하여 상기 메모리와 상기 프로세서가 통신을 수행하게 하도록 구성되는,
서버. - 프로그램 코드를 포함하는, 컴퓨터로 판독 가능한 저장 매체로서,
상기 프로그램 코드는 컴퓨터에서 실행될 때, 상기 컴퓨터로 하여금 다음 모델 훈련 작업:
훈련 대상 이미지 및 시험 대상 이미지를 획득하는 작업 - 상기 훈련 대상 이미지는 제1 영역에 속하고, 상기 시험 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -;
제1 훈련 대상 네트워크 모델을 통해 상기 훈련 대상 이미지에 대응하는 시험 스타일 이미지를 획득하고, 상기 제1 훈련 대상 네트워크 모델을 통해 상기 시험 대상 이미지에 대응하는 훈련 스타일 이미지 획득하는 작업 - 상기 시험 스타일 이미지는 상기 제2 영역에 속하고, 상기 훈련 스타일 이미지는 상기 제1 영역에 속함 -;
제2 훈련 대상 네트워크 모델을 통해 후보 구역에 대응하는 예측된 확률 값을 획득하는 작업 - 상기 후보 구역은 상기 시험 대상 이미지 또는 상기 시험 스타일 이미지로부터 추출된 후보 경계 상자임 -;
상기 제2 훈련 대상 네트워크 모델을 통해 상기 시험 스타일 이미지에 대응하는 제1 예측 클래스 확률 값, 제1 예측 위치추정 값, 제2 예측 클래스 확률 값 및 제2 예측 위치추정 값을 획득하는 작업; 및
상기 예측된 확률 값, 상기 시험 스타일 이미지, 상기 훈련 스타일 이미지, 상기 제1 예측 클래스 확률 값, 상기 제1 예측 위치추정 값, 상기 제2 예측 클래스 확률 값 및 상기 제2 예측 위치추정 값에 따라 타깃 손실 함수를 사용하여 상기 제1 훈련 대상 네트워크 모델 및 상기 제2 훈련 대상 네트워크 모델을 훈련하여, 교차 영역 이미지 검출 모델을 획득하는 작업을 수행하도록 하는,
컴퓨터로 판독 가능한 저장 매체. - 프로그램 코드를 포함하는, 컴퓨터로 판독 가능한 저장 매체로서,
상기 프로그램 코드는 컴퓨터에서 실행될 때, 상기 컴퓨터로 하여금 다음 타깃 검출 작업:
제1 검출 대상 이미지를 획득하는 작업 - 상기 제1 검출 대상 이미지는 제1 영역에 속함 -;
상기 제1 검출 대상 이미지에 대응하는 제2 검출 대상 이미지를 획득하는 작업 - 상기 제2 검출 대상 이미지는 제2 영역에 속하며, 상기 제1 영역과 상기 제2 영역은 서로 다른 영역임 -; 및
교차 영역 이미지 검출 모델을 통해 상기 제2 검출 대상 이미지에 대응하는 검출 결과를 획득하는 작업 - 상기 검출 결과는 타깃 객체의 타깃 위치추정 정보 및 타깃 클래스 정보를 포함하고, 상기 타깃 객체는 상기 제1 검출 대상 이미지에서 검출된 객체이고, 상기 교차 영역 이미지 검출 모델은 제1 네트워크 모델 및 제2 네트워크 모델을 포함하고, 상기 제1 네트워크 모델은 상기 제1 영역의 이미지를 상기 제2 영역의 이미지로 변환하는 데 사용되며, 상기 제2 네트워크 모델은 상기 제2 영역의 이미지에 대해 구역 위치추정을 수행하는 데 사용됨 -을 수행하도록 하는,
컴퓨터로 판독 가능한 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910218444.5 | 2019-03-21 | ||
CN201910218444.5A CN109919251B (zh) | 2019-03-21 | 2019-03-21 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
PCT/CN2020/079218 WO2020187153A1 (zh) | 2019-03-21 | 2020-03-13 | 目标检测方法、模型训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210078539A true KR20210078539A (ko) | 2021-06-28 |
Family
ID=66966179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217015320A KR20210078539A (ko) | 2019-03-21 | 2020-03-13 | 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기 그리고 저장 매체 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11763541B2 (ko) |
EP (1) | EP3944147A4 (ko) |
JP (1) | JP7265003B2 (ko) |
KR (1) | KR20210078539A (ko) |
CN (1) | CN109919251B (ko) |
WO (1) | WO2020187153A1 (ko) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919251B (zh) * | 2019-03-21 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
EP3731154A1 (en) * | 2019-04-26 | 2020-10-28 | Naver Corporation | Training a convolutional neural network for image retrieval with a listwise ranking loss function |
CN110516707B (zh) * | 2019-07-19 | 2023-06-02 | 深圳力维智联技术有限公司 | 一种图像标注方法及其装置、存储介质 |
US11455531B2 (en) * | 2019-10-15 | 2022-09-27 | Siemens Aktiengesellschaft | Trustworthy predictions using deep neural networks based on adversarial calibration |
CN110738211B (zh) * | 2019-10-17 | 2024-09-03 | 腾讯科技(深圳)有限公司 | 一种对象检测的方法、相关装置以及设备 |
CN111061890B (zh) * | 2019-12-09 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN111091127A (zh) * | 2019-12-16 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、网络模型训练方法以及相关装置 |
CN111209947A (zh) * | 2019-12-31 | 2020-05-29 | 歌尔股份有限公司 | 图像识别方法、设备、存储介质及装置 |
CN113191378A (zh) * | 2020-01-14 | 2021-07-30 | 阿里巴巴集团控股有限公司 | 图像搜索的预测方法、装置和系统 |
CN111368878B (zh) * | 2020-02-14 | 2023-02-28 | 北京电子工程总体研究所 | 一种基于ssd目标检测的优化方法、计算机设备和介质 |
CN111401138B (zh) * | 2020-02-24 | 2023-11-07 | 上海理工大学 | 生成对抗神经网络训练过程的对抗优化方法 |
US11544503B2 (en) * | 2020-04-06 | 2023-01-03 | Adobe Inc. | Domain alignment for object detection domain adaptation tasks |
CN111881884B (zh) * | 2020-08-11 | 2021-05-28 | 中国科学院自动化研究所 | 基于跨模态转化辅助的人脸防伪检测方法、系统及装置 |
CN112333155B (zh) * | 2020-10-16 | 2022-07-22 | 济南浪潮数据技术有限公司 | 一种异常流量的检测方法、系统、电子设备及存储介质 |
US20220122305A1 (en) | 2020-10-16 | 2022-04-21 | Adobe Inc. | Identity-preserving techniques for generative adversarial network projection |
CN112464461B (zh) * | 2020-11-20 | 2021-09-28 | 北京赛目科技有限公司 | 一种自动驾驶测试场景的构建方法及装置 |
CN112528862B (zh) * | 2020-12-10 | 2023-02-10 | 西安电子科技大学 | 基于改进的交叉熵损失函数的遥感图像目标检测方法 |
CN113139500B (zh) * | 2021-05-10 | 2023-10-20 | 重庆中科云从科技有限公司 | 烟雾检测方法、系统、介质及设备 |
CN113065614B (zh) * | 2021-06-01 | 2021-08-31 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对目标对象进行分类的方法 |
CN113792853B (zh) * | 2021-09-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113793325B (zh) * | 2021-09-22 | 2024-05-24 | 北京市商汤科技开发有限公司 | 一种检测方法、装置、计算机设备和存储介质 |
CN113962968B (zh) * | 2021-10-26 | 2024-06-04 | 北京临近空间飞行器系统工程研究所 | 面向复杂电磁环境下多源混合干扰雷达图像目标检测系统 |
CN114095269B (zh) * | 2021-11-29 | 2024-04-30 | 广东电网有限责任公司 | 系统检测方法、装置、电子设备及存储介质 |
CN115082299B (zh) * | 2022-07-21 | 2022-11-25 | 中国科学院自动化研究所 | 非严格对齐的小样本不同源图像转换方法、系统及设备 |
CN115588130B (zh) * | 2022-10-13 | 2024-08-16 | 成都卓视智通科技有限公司 | 一种基于域自适应的跨域yolo检测方法 |
CN115631178B (zh) * | 2022-11-03 | 2023-11-10 | 昆山润石智能科技有限公司 | 自动晶圆缺陷检测方法、系统、设备及存储介质 |
CN115731533B (zh) * | 2022-11-29 | 2024-04-05 | 淮阴工学院 | 一种基于改进YOLOv5的车载目标检测方法 |
CN116205905B (zh) * | 2023-04-25 | 2023-07-21 | 合肥中科融道智能科技有限公司 | 基于移动端的配电网施工安全及质量图像检测方法及系统 |
CN116226789B (zh) * | 2023-05-08 | 2023-08-18 | 锋睿领创(珠海)科技有限公司 | 基于人工智能的数据同分布判别方法、装置、设备及介质 |
CN116343144B (zh) * | 2023-05-24 | 2023-08-11 | 武汉纺织大学 | 一种融合视觉感知自适应去雾的实时目标检测方法 |
CN117336453B (zh) * | 2023-11-27 | 2024-01-30 | 湖南苏科智能科技有限公司 | 一种安检图像转换方法、系统、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729648B (zh) * | 2014-01-07 | 2017-01-04 | 中国科学院计算技术研究所 | 领域自适应模式识别方法及系统 |
US10318889B2 (en) * | 2017-06-26 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Targeted data augmentation using neural style transfer |
US20190130220A1 (en) * | 2017-10-27 | 2019-05-02 | GM Global Technology Operations LLC | Domain adaptation via class-balanced self-training with spatial priors |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
CN108710896B (zh) * | 2018-04-24 | 2021-10-29 | 浙江工业大学 | 基于产生式对抗学习网络的领域学习方法 |
US11429841B1 (en) * | 2018-07-27 | 2022-08-30 | Snap Inc. | Feedback adversarial learning |
US10915792B2 (en) * | 2018-09-06 | 2021-02-09 | Nec Corporation | Domain adaptation for instance detection and segmentation |
US11640519B2 (en) * | 2018-10-31 | 2023-05-02 | Sony Interactive Entertainment Inc. | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization |
US10373023B1 (en) | 2019-01-28 | 2019-08-06 | StradVision, Inc. | Learning method and learning device for runtime input transformation of real image on real world into virtual image on virtual world, to be used for object detection on real images, by using cycle GAN capable of being applied to domain adaptation |
CN109919251B (zh) * | 2019-03-21 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
-
2019
- 2019-03-21 CN CN201910218444.5A patent/CN109919251B/zh active Active
-
2020
- 2020-03-13 WO PCT/CN2020/079218 patent/WO2020187153A1/zh active Application Filing
- 2020-03-13 EP EP20772861.9A patent/EP3944147A4/en active Pending
- 2020-03-13 KR KR1020217015320A patent/KR20210078539A/ko not_active Application Discontinuation
- 2020-03-13 JP JP2021519836A patent/JP7265003B2/ja active Active
-
2021
- 2021-05-06 US US17/313,497 patent/US11763541B2/en active Active
-
2023
- 2023-07-14 US US18/352,336 patent/US11978239B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020187153A1 (zh) | 2020-09-24 |
CN109919251A (zh) | 2019-06-21 |
EP3944147A4 (en) | 2022-06-01 |
CN109919251B (zh) | 2024-08-09 |
US11763541B2 (en) | 2023-09-19 |
JP7265003B2 (ja) | 2023-04-25 |
US20210279513A1 (en) | 2021-09-09 |
US20230360357A1 (en) | 2023-11-09 |
JP2022504704A (ja) | 2022-01-13 |
EP3944147A1 (en) | 2022-01-26 |
US11978239B2 (en) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210078539A (ko) | 타깃 검출 방법 및 장치, 모델 훈련 방법 및 장치, 기기 그리고 저장 매체 | |
US12106491B2 (en) | Target tracking method and apparatus, medium, and device | |
WO2020177582A1 (zh) | 视频合成的方法、模型训练的方法、设备及存储介质 | |
CN108304758B (zh) | 人脸特征点跟踪方法及装置 | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
KR20210076110A (ko) | 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 | |
CN112802111B (zh) | 一种物体模型构建方法及装置 | |
US20210152751A1 (en) | Model training method, media information synthesis method, and related apparatuses | |
CN110852942B (zh) | 一种模型训练的方法、媒体信息合成的方法及装置 | |
CN114418069B (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN113220848B (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN115937638B (zh) | 模型训练方法、图像处理方法、相关装置及存储介质 | |
CN114612531B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN116310745A (zh) | 图像处理方法、数据处理方法、相关装置及存储介质 | |
CN115526055B (zh) | 模型鲁棒性检测方法、相关装置及存储介质 | |
CN113887534B (zh) | 一种对象检测模型的确定方法和相关装置 | |
CN115081643A (zh) | 对抗样本生成方法、相关装置及存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN111681255B (zh) | 一种对象识别方法和相关装置 | |
CN117975387A (zh) | 图像处理方法、相关装置及存储介质 | |
CN117079356A (zh) | 一种对象鉴伪模型构建方法、虚假对象检测方法及装置 | |
CN118709743A (zh) | 对抗攻击方法、相关装置及存储介质 | |
CN116797715A (zh) | 一种三维对象模型的训练方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |