KR20230057646A

KR20230057646A - 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법

Info

Publication number: KR20230057646A
Application number: KR1020210141635A
Authority: KR
Inventors: 변혜란; 도미래; 전석규; 홍기범
Original assignee: 연세대학교 산학협력단
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2023-05-02
Anticipated expiration: 2041-10-22
Also published as: EP4170605A1; KR102781019B1; JP2023063200A; US20230129263A1; US11908170B2; JP7389787B2

Abstract

본 발명은 멀티-레벨 전이 영역 (Multi-level Transferable Region) 기반의 도메인 적응형 객체 검출 장치 및 방법에 관한 것으로, 상기 장치는 언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출하는 이미지 레벨 피처부; 상기 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정하는 RPN 레벨 피처부; 및 상기 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출하는 인스턴스 레벨 피처부;를 포함한다.

Description

멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법{MULTI-LEVEL TRANSITION REGION-BASED DOMAIN ADAPTIVE OBJECT DETECTION APPARATUS AND METHOD}

본 발명은 도메인 적응 학습 기술에 관한 것으로, 보다 상세하게는 도메인 적응 객체 검출기의 구조 전부를 사용하여 각 단계별 정보에 적합한 도메인 적응을 적용할 수 있는 객체 검출기의 상호관계 및 전이 가능 지역을 고려한 객체 검출기 도메인 적응 학습 기술에 관한 것이다.

최근 딥러닝의 발전으로, 많은 CNN 기반 객체 검출기가 많은 양의 주석이 달린 학습 데이터 셋을 이용하여 눈부신 성능 향상을 이끌어냈다. 또한, 기존 객체 검출기는 이런 대규모 학습 데이터와 실험 데이터가 이상적으로 동일한 환경을 가지고 있다는 것을 가정하에 실험을 진행했다. 하지만, 현실 세계의 객체 검출 작업은 학습 데이터와 실제 환경과 다른 경우가 많다. 즉, 이런 도메인 차이로 인해 대규모 데이터로 학습된 객체 검출기의 성능 저하가 발생할 수 있다.

자율주행 분야를 예로 들면, 자율 주행 모델을 학습하기 위해 시뮬레이터를 이용하여 데이터를 수집하는 경우 다양한 시나리오에 대해 양적의 데이터를 수집할 수 있는 장점이 있다. 하지만, 실 주행 환경에 적용 시 도메인 차이로 인한 모델의 정확성이 떨어질 수 있다는 문제가 있다. 또한, 전 세계 자동차 사용자를 통한 데이터 수집 및 학습은 비용적, 현실적 한계가 있다. 따라서, 이런 문제를 해결하기 위해 다양한 도메인에 강경한 객체 검출기 연구의 필요성이 대두되고 있다.

한국공개특허 제10-2020-00038846호 (2020.04.14)

기존 연구들은 객체 검출기의 도메인 적응을 위해 특징 추출 단계, 지역 제안 추출 단계 및 지역 제안 범주 분류 단계의 세 단계로 구분하고 있으며, 특히 특징 추출 단계에서 전이 가능 지역에 집중하여 도메인 적응을 수행하고 있다.

즉, 기존 방식은 세 단계 중 일부 정보만 활용하고 있으며, 각 단계가 서로 밀접하게 상호 연관 되어있는 객체 검출기의 본질을 간과하고 있다. 따라서 기존과 같이 각 단계의 일부만 선택하고, 상호 관계를 간과한 도메인 적응 방법은 부정적인 도메인 전이(negative transfer)를 야기할 수 있다.

본 발명의 일 실시예는 도메인 적응 객체 검출기의 구조 전부를 사용하여 각 단계별 정보에 적합한 도메인 적응을 적용하는 객체 검출기의 상호관계 및 전이 가능 지역을 고려한 객체 검출기 도메인 적응 학습 기술을 제공하고자 한다.

실시예들 중에서, 멀티-레벨 전이 영역 (Multi-level Transferable Region) 기반의 도메인 적응형 객체 검출 장치는 언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출하는 이미지 레벨 피처부; 상기 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정하는 RPN 레벨 피처부; 및 상기 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출하는 인스턴스 레벨 피처부;를 포함한다.

상기 이미지 레벨 피처부는 상기 복수의 컨볼루션 레이어들 각각으로부터 상기 언라벨 타겟 데이터의 다중 스케일 피처들을 수집하고 상기 다중 스케일 피처들을 병합하여 전이 가능 어텐션 맵을 생성할 수 있다.

상기 이미지 레벨 피처부는 상기 전이 가능 어텐션 맵과 글로벌 피처 간의 곱 연산을 통해 상기 이미지 레벨 피처를 생성할 수 있다.

상기 RPN 레벨 피처부는 상기 RPN-레벨 도메인 적응 과정에서 상기 RPN에서 출력된 전경 피처 및 GRL(Gradient Reversal Layer) 기반의 도메인 분류기(Dbox)를 경유한 도메인 분류 피처를 병합하여 RPN-레벨 도메인 피처를 생성할 수 있다.

상기 RPN 레벨 피처부는 상기 전이 영역 필터링 과정에서 상기 RPN-레벨 도메인 피처를 입력받고 배경 영역들을 걸러내서 상기 영역 후보들을 결정할 수 있다.

상기 인스턴스 레벨 피처부는 전경 확률 및 이미지 경도 점수 간의 불일치를 기초로 상기 영역 후보들의 개수를 조절할 수 있다.

상기 장치는 상기 RoI 풀링 피처를 DCN(Deformable Convolutional Networks)에 제공하여 상기 언라벨 타겟 데이터에 있는 객체를 검출하는 객체 검출부;를 더 포함할 수 있다.

실시예들 중에서, 멀티-레벨 전이 영역 (Multi-level Transferable Region) 기반의 도메인 적응형 객체 검출 방법은 언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추??하는 단계; 상기 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정하는 단계; 및 상기 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출하는 단계;를 포함한다.

상기 이미지 레벨 피처를 추출하는 단계는 상기 복수의 컨볼루션 레이어들 각각으로부터 상기 언라벨 타겟 데이터의 다중 스케일 피처들을 수집하고 상기 다중 스케일 피처들을 병합하여 전이 가능 어텐션 맵을 생성하는 단계를 포함할 수 있다.

상기 이미지 레벨 피처를 추출하는 단계는 상기 전이 가능 어텐션 맵과 글로벌 피처 간의 곱 연산을 통해 상기 이미지 레벨 피처를 생성하는 단계를 포함할 수 있다.

상기 RoI 풀링 피처를 추출하는 단계는 전경 확률 및 이미지 경도 점수 간의 불일치를 기초로 상기 영역 후보들의 개수를 조절하는 단계를 포함할 수 있다.

상기 방법은 상기 RoI 풀링 피처를 DCN(Deformable Convolutional Networks)에 제공하여 상기 언라벨 타겟 데이터에 있는 객체를 검출하는 단계;를 더 포함할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명에 따른 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법은 다양한 환경에서도 객체를 검출할 수 있는 객체 검출기를 제작할 수 있기 때문에 데이터 수집의 시간적, 경제적 비용의 감소로 부가적인 업무를 감소시킬 수 있다.

본 발명에 따른 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법은 영상 데이터의 수집만으로도 객체 검출이 가능하기 때문에 주/야간, 기상 상황, 지형, 국가, 등 다양한 환경에 구애받지 않는다는 점에서 객체 검출기를 적용한 플랫폼의 보급을 가속화할 수 있다.

도 1은 본 발명에 따른 도메인 적응형 객체 검출 장치의 기능적 구성을 설명하는 도면이다.
도 2는 본 발명에 따른 도메인 적응형 객체 검출 방법을 설명하는 순서도이다.
도 3은 본 발명에 따른 도메인 적응형 객체 검출 방법의 프레임워크를 설명하는 도면이다.
도 4는 본 발명에 따른 전이 영역 필터링 과정을 설명하는 도면이다.
도 5 내지 10은 본 발명에 관한 실험 결과를 설명하는 도면이다.
도 11은 본 발명에 따른 도메인 적응형 객체 검출 장치의 시스템 구성을 설명하는 도면이다.
도 12는 본 발명에 따른 도메인 적응형 객체 검출 시스템을 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

비지도 학습 기반 도메인 적응 객체 검출기는 주석이 불충분하거나 존재하지 않는 목표 도메인에서 효과적으로 객체를 검출하는 모델을 학습하기 위해 주석이 충분하고 목표 도메인과 관련이 있는 소스 도메인을 이용하는 방법론에 해당할 수 있다. 기존 연구는 주로 지역 제안 네트워크(Region Proposal Network)을 이용한 두 단계 기반의 객체 검출 모델을 이용한다. 특히, 해당 검출기를 1) 특징(feature) 추출 단계(image-level), 2) 지역 제안 추출 단계(rpn-level) 3) 지역 제안 범주 분류 단계(instance-level)로 나누며, 세 단계 중 일부를 선택하여 단계 특성에 맞는 적대적 학습을 통해 소스 도메인과 타겟 도메인 간의 특징 차이를 최소화한다.

또한, 기존 연구는 적대적 학습법(adversarial training)을 이용하여 분류기의 손실 함수를 최소화하면서 동시에 도메인 분류기의 손실 함수를 최대화하도록 학습한다. 이를 통해 도메인 간의 특징 차이가 최소화될 수 있다. 최근 연구는 객체 검출기의 특성을 고려하여 특징 추출 단계에서 관심이 있는 객체가 포함될 수 있는 영역에 중점을 두어 두 도메인의 적대적 학습을 진행하는 방법을 활용한다. 즉, 전이 가능 지역에 집중한 적대적 학습 방법이 활용될 수 있다.

도 1은 본 발명에 따른 도메인 적응형 객체 검출 장치의 기능적 구성을 설명하는 도면이다.

도 1을 참조하면, 도메인 적응형 객체 검출 장치(100)는 이미지 레벨 피처부(110), RPN 레벨 피처부(130), 인스턴스 레벨 피처부(150), 객체 검출부(170) 및 제어부(190)를 포함할 수 있다.

이미지 레벨 피처부(110)는 언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출할 수 있다. 이미지 레벨 피처부(110)는 객체 검출기의 특징 추출 단계에서의 동작을 수행할 수 있다. 즉, 이미지 레벨 피처부(110)는 특징 추출 단계의 모든 특징을 융합한 정보와 이를 입력 받은 도메인 분류기의 엔트로피 정보(uncertainty)를 마지막 글로벌 특징에 곱하는 동작을 수행할 수 있다. 결과적으로, 이미지 레벨 피처부(110)는 이후 단계들에서 활용되는 글로벌 특징(global feature)에 대해 도메인 불변의 특징을 강조함과 동시에 각 도메인의 특화된 특징(예를 들어, 배경 정보)은 약화시켜 보다 강건한 적응형 객체 검출기를 학습하도록 할 수 있다.

일 실시예에서, 이미지 레벨 피처부(110)는 복수의 컨볼루션 레이어들 각각으로부터 언라벨 타겟 데이터의 다중 스케일 피처들을 수집하고 다중 스케일 피처들을 병합하여 전이 가능 어텐션 맵을 생성할 수 있다. 이론적으로, 특징 추출 단계 내의 각 레이어들을 통해 모두 전이 가능 영역을 획득할 수 있다. 저레벨의 특징(또는 피처)에서 전이 가능 영역을 도출하면 윤곽선과 같은 구조적으로 자세한 정보를 획득할 수 있지만 동시에 배경 영역 역시 전이 가능한 것으로 간주되어 탐지 성능은 저하될 수 있다. 이와 반대로, 고레벨의 특징에서 전이 가능 영역을 도출하면 객체 검출을 위한 맥락 정보를 획득할 수 있다. 즉, 이 경우 저레벨의 전이 가능 영역과 다르게 배경 정보가 객체 검출에 활용되지 않기 때문에 정보가 약화될 수 있다. 하지만, 수신 필드(receptive field)가 크기 때문에 전이 가능성을 평가하면서 작은 객체의 정보를 쉽게 누락할 수 있다.

따라서, 이미지 레벨 피처부(110)는 다중 스케일의 특징을 융합한 후 전이 가능 영역을 예측한 맵(즉, 전이 가능 어텐션 맵)을 글로벌 특징에 곱하는 동작을 통해 기존 레이어의 특징 정보의 단점을 최소화하고 모든 이점을 활용할 수 있다. 일 실시예에서, 이미지 레벨 피처부(110)는 전이 가능 어텐션 맵과 글로벌 피처 간의 곱 연산을 통해 이미지 레벨 피처를 생성할 수 있다.

RPN 레벨 피처부(130)는 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정할 수 있다. 즉, RPN 레벨 피처부(130)는 전이 가능 영역을 활용한 지역 추출 단계에서의 동작을 수행할 수 있다. 보다 구체적으로, RPN 레벨 피처부(130)는 일반적인 지역 추출 단계에서 생성된 지역 샘플(region proposal) 중에서 객체성(objectness)와 전이 가능성(transferability)를 모두 고려하여 전경 지역을 추출할 수 있다. 이를 위해, RPN 레벨 피처부(130)는 RPN-레벨 도메인 적응 과정과 전이 영역 필터링 과정을 수행할 수 있다.

일 실시예에서, RPN 레벨 피처부(130)는 RPN-레벨 도메인 적응 과정에서 RPN에서 출력된 전경 피처 및 GRL(Gradient Reversal Layer) 기반의 도메인 분류기(Dbox)를 경유한 도메인 분류 피처를 병합하여 RPN-레벨 도메인 피처를 생성할 수 있다. RPN 레벨 피처부(130)는 RPN-레벨 도메인 적응 과정을 통해 지역 추출 단계에서 존재하는 도메인 차이를 줄일 수 있다.

일 실시예에서, RPN 레벨 피처부(130)는 전이 영역 필터링 과정에서 RPN-레벨 도메인 피처를 입력받고 배경 영역들을 걸러내서 영역 후보들을 결정할 수 있다. RPN 레벨 피처부(130)는 전이 영역 필터링 과정을 통해 도메인 불변의 특징을 담은 전경 지역 샘플(foreground region proposal)을 추출할 수 있다. 이를 위해, RPN 레벨 피처부(130)는 전이 가능성을 고려하여 객체 점수를 재가중(re-weight)할 수 있다. 이때, 재가중 방법은 RPN-레벨 도메인 적응 과정에서 생성된 지역 별 엔트로피(entropy)값을 전이 가능성 점수로 사용하여 객체 점수(objectness score)와의 곱연산을 통해 진행될 수 있다. 재가중된 객체 점수는 기존 지역 추출단계의 NMS(non-maximum suppression) 단계에 활용되어 영역 후보로서 최종 핵심 지역 인스턴스(region of interest)가 생성될 수 있다. 결과적으로, RPN 레벨 피처부(130)는 전이 가능성을 고려하여 도메인 불변의 영역 후보들을 추출할 수 있다.

인스턴스 레벨 피처부(150)는 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출할 수 있다. 기존 지역 제안 범주 분류 단계(instance-level)는 지역 제안 단계에서 추출된 다수의 지역 제안(또는 영역 후보)에서 RoI 풀링(RoI pooling)을 통해 핵심 지역 제안을 추출할 수 있다. 먼저, 소스 도메인의 경우 추출 단계에서 정답박스 라벨을 이용하여 정답박스와 가까운 핵심 지역 제안을 추출할 수 있다. 이와 반대로, 타겟 도메인의 경우 정답박스가 없기 때문에 다수의 지역 제안 중에서 객체 점수(objectness score)가 높은 상위 N개의 지역 제안을 추출할 수 있다. 그러나, 타겟 도메인의 경우 초기 학습 단계에서 부정확한 지역 제안을 생성하기 때문에 이러한 설정은 전체적인 모델 학습 단계에 부정적인 영향을 미칠 수 있다. 따라서, 인스턴스 레벨 피처부(150)는 두개의 요소의 값을 N개 곱한 뒤, 두 값의 평균을 이용하여 타겟 도메인의 지역 제안의 개수를 동적으로 결정할 수 있다.

첫번째 요소로 상위 N개의 소스 도메인의 지역 샘플과 타겟 도메인의 지역 샘플의 객체 점수의 쿨백 라이블러 발산(Kullback-Leibler divergence)을 이용할 수 있다. 학습이 진행되어 도메인의 차이가 줄어들면 두 도메인의 상위 N개의 지역 제안의 객체 점수의 양상이 비슷해지기 때문에 해당 요소 값을 N에 곱한 값은 학습이 진행될 수록 증가할 수 있다.

두번째 요소로 객체 검출기의 특징 추출 단계(image-level)와 지역 제안 범주 분류 단계(instance-level)의 관계가 고려될 수 있다. 직관적으로 타겟 도메인의 특징이 소스 도메인에 속할 확률이 높은 경우, 즉 소스 도메인과 특징이 비슷한 경우 지역 제안 범주 분류의 결과의 성능이 높게 나올 수 있다. 이 점을 고려하여, 다중 스케일 피처를 이용한 전이 가능 영역을 생성하기 위해 사용한 도메인 분류기의 도메인 확률 값을 두번째 요소로 사용할 수 있다. 이 역시 학습이 진행되어 도메인의 차이가 줄어들면 두 도메인의 특징이 비슷해지기 때문에 해당 요소 값을 N에 곱한 값은 학습이 진행될 수록 증가할 수 있다. 최종적으로 해당 두 값의 평균을 이용하여 지역 제안의 개수를 동적으로 설정할 수 있다.

일 실시예에서, 인스턴스 레벨 피처부(150)는 전경 확률 및 이미지 경도 점수 간의 불일치를 기초로 영역 후보들의 개수를 조절할 수 있다. 인스턴스 레벨 피처부(150)는 동적 인스턴스 샘플링(DIS)을 통해 초기 학습 단계에서 부정확한 결과들로 인해 발생하는 부정적인 영향을 제거할 수 있다.

객체 검출부(170)는 RoI 풀링 피처를 DCN(Deformable Convolutional Networks)에 제공하여 언라벨 타겟 데이터(unlabeled target data)에 있는 객체를 검출할 수 있다. 객체 검출부(170)는 인스턴스 레벨 피처(250)를 통해 추출된 RoI 풀링 피처를 기 구축된 DCN에 입력하여 레이블이 지정되지 않은 타겟 이미지로부터 객체 정보를 추출할 수 있다. 이미지 레벨 피처부(110), RPN 레벨 피처부(130) 및 인스턴스 레벨 피처부(150)는 객체 검출을 위한 각 단계별 정보에 적합한 도메인 적응이 적용될 수 있으며, 이에 따라 인스턴스 레벨 피처부(150)를 통해 추출되는 최종적인 RoI 풀링 피처는 보다 정확도 높은 객체 검출을 위한 특징 정보를 포함할 수 있다.

제어부(190)는 도메인 적응형 객체 검출 장치(100)의 전체적인 동작을 제어하고, 이미지 레벨 피처부(110), RPN 레벨 피처부(130), 인스턴스 레벨 피처부(150) 및 객체 검출부(170) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 2는 본 발명에 따른 도메인 적응형 객체 검출 방법을 설명하는 순서도이다.

도 2를 참조하면, 도메인 적응형 객체 검출 장치(100)는 이미지 레벨 피처부(110)를 통해 언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출할 수 있다(단계 S210).

도메인 적응형 객체 검출 장치(100)는 RPN 레벨 피처부(130)를 통해 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정할 수 있다(단계 S230).

도메인 적응형 객체 검출 장치(100)는 인스턴스 레벨 피처부(150)를 통해 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출할 수 있다(단계 S250).

이하, 도 3 내지 9를 참조하여 본 발명에 따른 도메인 적응형 객체 검출 방법에 대해 보다 자세히 설명한다.

비지도 도메인 적응(UDA, Unsupervised Domain Adaptation)은 레이블이 지정된 소스 도메인(labeled source domain)에서 훈련된 모델의 지식을 레이블이 지정되지 않은 타겟 도메인(unlabeled target domain)으로 전이하는 일종의 전이 학습(transfer learning)으로 간주될 수 있다. 여기에서, 두 도메인은 동일한 작업(task)을 공유할 수 있다. UDA에 있어 대부분의 접근 방식은 소스 도메인과 타겟 도메인 사이의 주변 특징 분포(marginal feature distribution), 생성적 접근들(generative approaches) 및 의사 레이블(pseudo-label)을 사용한 자가 학습(self-training) 등을 포함할 수 있다. 특히, 도메인 적대적 학습 방법(domain-adversarial learning method)은 기울기 반전 레이어(GRL, Gradient Reversal Layer)를 통해 도메인 분류기(domain discriminator)를 혼동하도록 특징 생성기(feature generator)들을 학습하는 도메인 적응 성능(domain adaptation performance)을 획기적으로 개선할 수 있다.

UDA는 도메인 이동이 자주 발생하고 주석(annotation)에 비용이 많이 들기 때문에 객체 검출 작업(object detection task)에서 많은 관심을 받고 있다. 선구적인 작업(pioneering work)인 도메인 적응형(domain adaptive) Faster R-CNN(DA-Faster)은 2-단계 검출기(two-stage detector)에서 도메인 차이(domain gap)을 줄일 수 있다. DA-faster는 백본(backbone)에서의 이미지 레벨 특징(image-level feature)과 RoI 풀링(pooling) 이후 인스턴스 레벨 특징(instance-level feature)에 관한 2개의 레벨들에서 적응을 수행할 수 있다. 해당 작업에서 영감을 얻은 여러 작업들은 계층적 도메인 특징 분류기(hierarchical domain feature discriminator)를 통해 이미지 레벨에서 도메인 차이를 줄이는 것을 목표로 할 수 있다. 한편, CT-DA는 지역 제안 네트워크(RPN, Region Proposal Network)와 인스턴스 분류기(instance classifier) 간의 협업 자가 학습(collaborative self-training)을 수행할 수 있다. HTCN 및 MEAA는 픽셀 단위 도메인 엔트로피(entropy), 즉 불확실성 마스크(uncertainty mask)를 측정함으로써 이미지의 전이 가능한 영역들을 추정할 수 있다. 그럼에도 불구하고, 일부 구성요소에 대해서만 도메인 정렬(domain alignment)을 수행하는 이전 작업들에서는 객체 검출 파이프라인(object detection pipeline)의 모든 구성요소들이 필수 불가결하고 밀접하게 상호 연관되는 점이 간과될 수 있다. 이와 반대로, 본 발명은 모든 구성요소의 전이 가능성을 고려할 수 있다.

본 발명의 베이스라인(baseline)으로서, 특징 추출기(feature extractor), 지역 제안 네트워크(RPN) 및 최종 예측을 위한 완전 연결 레이어(fully-connected layer)로 구성된 Faster R-CNN이 적용될 수 있다. 먼저, 완전히 레이블이 지정된 소스 데이터 셋(D_s = {X_s,Y_s})을 기초로 베이스라인 검출기(baseline detector)를 학습할 수 있다. 여기에서, X_s는 이미지 셋 {x_s} 이고 Y_s는 정답(ground-truth) 레이블 셋 {y_s} 이다. 각 레이블 y_s는 x_s에서 해당 카테고리와 연관된 바운딩 박스(bounding box)들로 구성될 수 있다. 전체 학습 손실은 다음의 수학식 0과 같이 정의될 수 있다.

[수학식 0]

여기에서,

,

및

는 각각 RPN 레벨 손실(RPN-level loss), 인스턴스 레벨 회귀 손실(instance-level regression loss), 분류 손실(classification loss)이다.

여기에서, 본 발명에 따른 방법의 목표는 레이블이 지정되지 않은 데이터 셋(unlabeled dataset)들 (D_t={X_t})을 포함하는 타겟 도메인에 대한 모델 성능을 향상시키는 것일 수 있다. 목표 달성을 위해, 모든 레벨에서 소스 도메인과 타겟 도메인 사이의 도메인 차이를 줄일 필요가 있다. 즉, (1) 백본 네트워크에 의해 추출되는 이미지 레벨 피처, (2) 영역 제안을 생성하는 완전한 컨볼루션 네트워크(즉, RPN)에서 추출되는 rpn 레벨 피처, (3) 최종 분류 및 회귀(regression) 전 단계에서 RoI 풀링 피처에 해당하는 인스턴스 레벨 피처. 도 3을 참조하면, 이러한 방식으로 전체 레벨에서 두 도메인의 피처 분포를 정렬하고 3개의 모듈들(즉, Multi-scale-aware Uncertainty Attention(MUA), Transferable Region Proposal Network(TRPN) 및 Dynamic Instance Sampling(DIS))을 통해 전이 가능 지역들을 도출할 수 있다.

적응형 객체 검출(adaptive object detection)의 원리는 도메인에 관계없이 동일한 객체 범주의 도메인-불변 의미 정보(domain-variant semantic information)를 추출하는 것일 수 있다. 어텐션 메커니즘(attention mechanism)을 참조하여 도메인 관점에서 구별 불가능한 전이 가능 영역의 가이던스(guidance)를 제공하기 위해 공간 어텐션 맵(spatial attention map)을 모델링할 수 있다. 공간 불확실성(spatial uncertainty)을 추정함으로써 각 공간 위치의 도메인 차이를 측정할 수 있다. 공간 불확실성은 다음의 수학식 1과 같이 분류기의 출력 엔트로피에 의해 계산될 수 있다.

[수학식 1]

여기에서,

은 l번째 레이어 이후 i번째 이미지의 피처이고, D_f는 픽셀 단위 도메인 분류기이다. 출력 도메인 확률(output domain probability)

로부터 픽셀 단위 엔트로피

을 추정할 수 있다.

이론적으로, 엔트로피 맵

은 레이어 인덱스 l에 관계없이 획득될 수 있다. 저레벨 피처(low-level feature)들에서

를 추출하는 경우, 작고 먼 전경들을 검출하는데 기여하는 도메인-불변의 구조적으로 자세한 정보들을 획득할 수 있다. 그러나, 엔트로피 맵은 배경 영역(예를 들어, 나무, 하늘 등)도 전이 가능한 것으로 간주되기 때문에 검출 성능이 저하될 수 있다. 이와 달리, 고레벨 피처(high-level feature)들에서 엔트로피 맵을 추출하는 경우, 컨텍스트 정보를 반영할 수 있으므로 배경을 더 잘 구별할 수 있다. 그러나, 큰 수신 필드(receptive field)로 인해 전이 가능성을 평가하는 동안 작은 물체를 간과할 수 있다. 따라서, 본 발명의 경우 단점을 최소화하고 모든 이점을 활용하기 위하여 다중 스케일 피처를 융합한 다음 불확실성 어텐션(uncertainty attention)을 추정할 수 있다.

먼저, 최종 피처와 동일한 공간 해상도를 갖도록 서로 다른 레이어들로부터 획득한 피처들의 스케일을 조정할 수 있다. 그런 다음, 피처들을 연결하고 통합된 피처를 매니폴드(manifold)에 삽입할 수 있다. 또한, 다중 스케일 피처 융합(multi-scale feature fusion)은 다음의 수학식 2 와 같이 표현될 수 있다.

[수학식 2]

여기에서,

은 이중선형 보간 함수(bi-linear interpolation function)이고, [·]는 채널 단위 연결 연산자(channel-wise concatenation operator)이고,

는 임베딩을 위한 1×1 컨볼루션 레이어이다. L은 피처 추출기의 총 레이어 개수이다. 다중 스케일 표현 P_f를 이용하면, 다중 스케일 인지 불확실성 어텐션(MUA, multi-scale-aware uncertainty attention)를 다음의 수학식 3과 같이 표현할 수 있다.

[수학식 3]

여기에서,

는 융합된 피처 P_i의 도메인 분류기이고, E_i는 추정된 불확실성 어텐션(MUA)이다.

마지막 단계로서, 글로벌 특징(global feature)에 공간 불확실성 어텐션(spatial uncertainty attention)을 곱할 수 있다. 즉,

이다. 결과적으로, 불확실성 어텐션은 로컬 및 글로벌 특징들로부터 전이 가능한 영역들을 도출함으로써 다양한 크기의 객체들에 대한 표현 능력을 크게 향상시킬 수 있다.

본 발명의 경우, rpn-레벨에서 도메인 차이를 완화하고 객체성(objectness)과 전이 가능성(transferability)을 모두 고려하여 전경 영역을 생성하는 새로운 전이 가능 영역 제안 네트워크(TRPN, Transferable Region Proposal Network)을 포함할 수 있다.

이전의 연구들을 참조하면, 이미지-레벨 및 인스턴스-레벨에서 도메인 분포를 정렬하는 경우 RPN이 타겟 도메인에서 제대로 동작하기에 충분할 것으로 예상될 수 있다. 그러나, 전경 예측에 관한 학습이 소스 도메인 데이터에 편향되기 때문에 앵커(anchor)의 전경 피처에는 도메인 차이가 여전히 존재할 수 있다. 해당 도메인 차이를 해결하기 위해, 보조 도메인 분류기(auxiliary domain classifier) D_box를 활용하여 기울기 반전 레이어(Gradient reversal layer)를 통해 rpn-레벨에서 도메인 차이를 최소화할 수 있다. 박스 도메인 분류 손실(box domain classification loss)은 다음의 수학식 4와 같이 정의될 수 있다.

[수학식 4]

여기에서, 도메인 분류기의 출력 확률은

이고, R은 영역 제안들의 개수이고, r은 i번째 이미지에서 각 영역 제안의 인덱스이다. 소스 도메인의 이미지인 경우 도메인 레이블 d_i는 0이고 그렇지 않은 경우 1이다.

RPN은 먼저 서로 다른 앵커들을 갖는 다양한 영역 제안들을 추출한 다음 전경 확률(foreground probability), 즉 객체성(objectness)에 따라 배경 영역을 필터링할 수 있다. 그러나, 도메인 적응 시나리오(domain adaptation scenario)에서는 전경 분류기가 소스 도메인으로 편향되기 때문에, 타겟 도메인에서 예측된 객체성은 신뢰할 수 없다. 결과적으로, 정보 영역 제안(informative region proposal)은 낮은 객체 점수(objectness score)를 가질 수 있으며, 제안 선택 프로세스(proposal selection process)(예를 들어, non-maximum suppression)에서 제거될 수 있다. 해당 문제를 완화하기 위해, 출력 도메인 확률의 엔트로피를 활용하여 각 영역 제안의 전이 가능성을 추정할 수 있다. 구체적으로, 본 발명의 경우 각 영역 제안의 엔트로피를

로 계산할 수 있다. 여기에서, 높은 엔트로피는 박스가 도메인 관점에서 구별될 수 없음을 나타낸다. 다음으로, 획득한 도메인 전이 가능성

에 객체성 분류기의 점수

를 곱할 수 있으며, RPN의 컨볼루션 계층을 참조하여 재가중된(re-weighted) 객체 점수

이 도출될 수 있다. 이후, 재가중된 객체 점수를 고려하여 중첩 영역(overlapping region)을 제거하기 위해 NMS(Non-Maximum Suppression)가 수행될 수 있다. 도 4에서, 본 발명에 따른 필터링 전략은 전이 가능성을 고려함으로써 정보 영역을 보존할 수 있다.

인스턴스 레벨 적응을 위해, 이전 방법들은 두 도메인에서 RoI 풀링을 위해 선택된 영역 제안을 적용할 수 있다. 이때, 두 도메인은 (1) 정답(ground-truth)으로서 정제된 영역 제안을 사용하는 소스 도메인과 (2) 고정된 상위 N 개의 지역 제안을 샘플링하는 타겟 도메인을 포함할 수 있다(예를 들어, N=300). 그러나, 해당 설정은 초기 학습 단계에서 부정확한 타겟 인스턴스(제안)로 인해 부정적인 영향을 미칠 수 있다. 따라서, 본 발명의 경우 전경 확률의 차이와 이미지 경도 점수(image hardness score)에 따라 N을 조정하는 동적 인스턴스 샘플링(DIS, Dynamic Instance Sampling)을 포함할 수 있다. 먼저, 소스와 타겟 도메인에서 영역의 전경 확률 사이의 KL 발산(Kullback-Leibler divergence)을 측정할 수 있다. KL 발산을 활용하여 소스와 비교되는 타겟 도메인에서 모델의 상대적인 혼란도(relative perplexity)를 추정할 수 있다.

발산의 보수(complement)는

로 추정될 수 있으며, 여기에서 KL(·)은 KL 발산이고,

및

은 각각 소스 도메인 이미지 및 타겟 도메인 이미지에서 선택된 r번째 영역 제안의 전경 확률이다.

또한, 타겟 피처가 소스 도메인에 가까울수록 모델이 더 높은 재현율(recall rate)을 가져야 한다고 추측할 수 있다. 이러한 직관으로부터, 이미지의 도메인 확률은 N에 대한 추가적인 제어 파라미터(control parameter)로 고려될 수 있다. 도메인 확률, 즉 경도 점수(hardness score)는 다중 스케일 융합 피처 P_f의 도메인을 구별하도록 학습된 보조 도메인 분류기 D_dis로 측정될 수 있다. 타겟 이미지

에 대한 샘플의 최종 개수 N_final은 다음과 같이 계산될 수 있다.

. 여기에서,

은 바닥 함수(floor function)이다. 학습 동안, 전체 네트워크에서 기울기 반전 레이어를 통해 발산

이 감소하기 때문에 N_final은 점차적으로 증가할 수 있다.

총 손실은 각 레이어의 탐지 손실(detection loss)과 적대적 손실(adversarial loss)로 구성될 수 있으며, 다음과 같이 정의될 수 있다.

. 전체 목적 함수(objective function)는 다음의 수학식 5와 같이 정의될 수 있다.

[수학식 5]

여기에서, {D}는 전체 네트워크에서 D_dis를 제외한 도메인 분류기들의 집합, 즉

이고, F는 특징 추출기들이다. 추론(inference) 동안, DIS 및 적대적 학습은 수행되지 않을 수 있으며, MUA 및 전이 가능 영역들은 추정될 수 있다.

이하, 도 5 내지 10를 참조하여 본 발명에 따른 도메인 적응형 객체 검출 방법에 관한 실험 결과를 구체적으로 설명한다.

여기에서는 본 발명에 따른 모델 성능 평가를 위해 5개의 데이터셋인 Cityscape, Foggy-Cityscape, KITTI, Sim10k 및 BDD100k이 사용될 수 있으며, 다음의 표 1과 같이 표현될 수 있다.

데이터셋 이름	데이터셋 설명	검출 객체 수
Cityscape	독일의 다른 50개의 도시의 거리 이미지. 2975개의 학습 데이터와 500개의 테스트 데이터로 구성	8가지
Foggy- Cityscape	Cityscape 데이터셋에 흐린 날씨를 합성한 합성데이터셋. 데이터 구조는 Cityscape와 동일함	8가지
BDD100K	다양한 조건 (날씨, 시간, 장소)을 포함한 대규모 데이터 주행 데이터셋	7가지
KITTI	독일의 도로 및 고속도로 환경을 찍은 저화질 데이터셋. 7,481개의 학습데이터로 구성	1가지
Sim10K	Grand Theft Auto (GTA)에서 생성한 가상 주행 데이터셋으로 10,000개의 데이터셋과 58,701개의 박스 라벨링이 되어있음	1가지

또한, 공정한 비교를 위해 RoIAlign과 함께 VGG-16 기반 Faster R-CNN이 적용될 수 있다. 초기 학습률은 1e-3으로 설정되고 처음 50,000회 반복 동안 고정된 다음 20,000회 반복할 때마다 1e-4로 감소할 수 있다. 또한, 최적화를 위해 모멘텀이 0.9인 SGD(Stochastic Gradient Descent) 옵티마이저(optimizer)가 적용될 수 있다. 또한, 가로 세로 비율을 유지하면서 세로 길이가 600픽셀이 되도록 각 이미지의 크기를 조정할 수 있다. 단일 배치(single batch)에는 각 도메인에 대해 한 개, 총 두 개의 이미지가 포함될 수 있다. Sim10K-to-Cityscapes의 경우, λ는 다른 도메인 적응 시나리오에서 1로 설정되는 반면, 여기에서는 0.1로 설정될 수 있다. 또한, PyTorch로 구현될 수 있고, 단일 GTX2080Ti에서 모델을 학습하고 테스트할 수 있다.

다양한 비지도 도메인 적응 객체 검출 벤치마크들(unsupervised domain adaptive object detection benchmarks)에서 본 발명에 따른 방법의 효율성을 검증할 수 있다. 도 5의 상단 부분을 참조하면, 본 발명에 따른 방법은 Cityscapes→FoggyCityscapes에서 41.3%의 성능을 보임으로써 이전 방법들보다 더 높은 성능을 달성할 수 있다. 특히, 본 발명에 따른 방법은 큰 인스턴스(예를 들어, 트럭, 버스 및 기차)에서 놀라운 성능 향상을 제공할 수 있다. 이는 다중 스케일 피처 융합 전략(multi-scale feature fusion strategy)과 글로벌 이미지 표현 능력(global image representation ability)과 객체 정확도(objectness accuracy)를 향상시키는 TRPN 때문일 수 있다. 또한, 본 발명에 따른 방법은 Cityscapes to-BDD100K 벤치마크에서 이전 방법들을 3.1%의 큰 차이로 능가할 수 있다. 특히, BDD100K의 까다로운 특성에도 불구하고 작은 인스턴스(예를 들어, 사람 및 자전거)에 대한 감지 성능이 크게 향상될 수 있다. 도 6의 자동차 전용 적응 시나리오(car-only adaptation scenario), 즉 KITTI-to-Cityscapes 및 Sim10k-to-Cityscapes에서도 본 발명에 따른 방법은 각각 44.2% 및 47.1%의 mAP를 달성하여 이전의 최첨단 기술들을 능가할 수 있다.

도 7에서, 더 나은 비교를 위해 Cityscapes-to-FoggyCityscapes 및 Cityscapes-to-BDD100K의 정성적 결과가 도시되어 있다. 타겟 도메인의 짙은 안개는 특히 도 7의 (a)와 같이 멀리 있는 객체에 대한 정확한 인식을 방해할 수 있다. MEAA는 로컬 레벨 어텐션 맵(local-level attention map)의 도움으로 기준선보다 객체를 더 잘 감지할 수 있지만 여전히 노이즈 활성화(noisy activation)로 인해 일부 객체를 캡처하지 못할 수 있다(도 7의 2행 및 4행 참조). 예를 들어, 첫 번째 샘플의 큰 버스는 낮은 신뢰도로 부분적으로 감지될 수 있고, 두 번째 이미지에서는 멀리 있는 자동차가 무시될 수 있다. 이와 달리, 본 발명에 따른 방법은 거의 모든 객체를 잘 포착할 수 있다. 구체적으로, TRPN(Transferable Region Proposal Network)은 다양한 형태의 앵커(anchor)로부터 객체성 분포(objectness distribution)의 도메인 차이를 효과적으로 최소화하므로 대형 버스를 정확하게 검출할 수 있다. 또한, 다중 스케일 인지 불확실성 어텐션(MUA)은 로컬 및 글로벌 이미지 정보를 제공하여 모델이 거짓 양성 박스(false positive box)없이 두 번째 샘플에서 소형 자동차를 캡처하도록 할 수 있다.

본 발명에 따른 구성요소인 MUA, TRPN 및 DIS의 유효성을 검증하기 위해 비교 연구(ablation study)를 수행할 수 있다. 도 8과 같이 각 구성 요소는 성능 향상에 기여할 수 있다. 또한, MUA의 전이 가능 영역 가이던스가 모든 범주에서 mAP를 0.8% 향상시켜 성능에 이점을 제공할 수 있다. TRPN에 대한 심층 분석을 위해 RPN-레벨 도메인 적응(RDA, RPN-level Domain Adaptation)과 재가중 객체성(RWO, Re-Weighted Objectness)의 두 부분으로 구분할 수 있다. 3행과 4행에 표시된 결과는 성능을 1.3% 향상시킴으로써 RDA의 중요성을 나타낼 수 있다. 또한, RWO는 영역 제안의 엔트로피로 객체성을 보완하여 보다 정확한 탐지에 기여할 수 있다. 또한, DIS(Dynamic Instance Sampling)는 영역 샘플링 프로세스에 도메인 차이의 범위를 통합하여 모델을 효과적으로 향상시킬 수 있다. 정리하면, 모든 구성요소는 객체 검출 파이프라인의 각 수준에서 도메인 차이를 고려하여 설계되었기 때문에 모든 구성요소가 유익하고 서로 보완하도록 결합될 수 있다.

또한, 타겟 피처가 소스 도메인에 가까워짐에 따라 재현율(recall rate)이 증가해야 한다는 DIS의 동기(motivation)를 실험적으로 검증할 수 있다. 도 9에서, X축과 Y축이 각각 도메인 확률(domain probability)과 재현율(recall rate)인 타겟 도메인에서 500개 이미지들에 대한 산점도(scattered plot)가 도시되어 있다. 재현율과 도메인 확률 간의 관계를 조사하기 위해 피어슨 상관 계수(Pearson correlation coefficient)를 측정할 수 있다. 결과적으로, 측정된 상관관계는 0.58로 강한 양의 관계가 있음을 나타낼 수 있다. 본 발명에 따른 DIS(Dynamic Instance Sampling)는 타겟 도메인 이미지의 출력 도메인 확률을 고려하여 N, 즉 선택하고자 하는 영역 제안의 개수를 보정할 수 있다. 도 10을 참조하여, DIS의 효과를 정성적으로 분석할 수 있다. 도 10의 (b)에서, 공통 top-N 샘플링 전략(common top-N sampling strategy)은 큰 도메인 차이로 인해 배경을 포함하여 부적당한 영역 제안(unpropitious region proposal)을 선택할 수 있다. 이와 달리, DIS는 N_final을 자동으로 조정하기 때문에 배경 영역은 제외하면서 전경 영역을 선택할 수 있다.

본 발명에 따른 도메인 적응형 객체 검출 방법은 각 레벨에 대한 다중 스케일 인지 불확실성 어텐션(MUA), 전이 가능 영역 제안 네트워크(TRPN) 및 동적 인스턴스 샘플링(DIS)의 세 가지 구성요소로 구성된 새로운 프레임워크를 포함할 수 있다. 본 발명에 따른 도메인 적응형 객체 검출 방법은 객체 검출기의 파이프라인에 대해 전체 레벨에서 도메인 차이를 효과적으로 정렬하고 전이 가능 영역을 전달하여 DAOD에 대한 전이 가능성(transferability)과 판별 가능성(discriminability)을 극대화할 수 있다. 본 발명에 따른 도메인 적응형 객체 검출 방법은 광범위한 실험을 통해 효율성이 검증될 수 있으며, 다양한 도메인 적응 시나리오에서 최첨단 성능을 달성할 수 있다.

도 11은 본 발명에 따른 도메인 적응형 객체 검출 장치의 시스템 구성을 설명하는 도면이다.

도 11을 참조하면, 도메인 적응형 객체 검출 장치(100)는 프로세서(1110), 메모리(1130), 사용자 입출력부(1150) 및 네트워크 입출력부(1170)를 포함할 수 있다.

프로세서(1110)는 본 발명의 실시예에 따른 도메인 적응형 객체 검출 프로시저를 실행할 수 있고, 이러한 과정에서 읽혀지거나 작성되는 메모리(1130)를 관리할 수 있으며, 메모리(1130)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄 할 수 있다. 프로세서(1110)는 도메인 적응형 객체 검출 장치(100)의 동작 전반을 제어할 수 있고, 메모리(1130), 사용자 입출력부(1150) 및 네트워크 입출력부(1170)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(1110)는 도메인 적응형 객체 검출 장치(100)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(1130)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 도메인 적응형 객체 검출 장치(100)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 또한, 메모리(1130)는 전기적으로 연결된 프로세서(1110)에 의해 실행됨으로써 본 발명에 따른 도메인 적응형 객체 검출 방법을 실행하는 명령들의 집합을 저장할 수 있다.

사용자 입출력부(1150)은 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치 스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(1150)은 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 도메인 적응형 객체 검출 장치(100)는 독립적인 서버로서 수행될 수 있다.

네트워크 입출력부(1170)은 네트워크를 통해 사용자 단말(1210)과 연결되기 위한 통신 환경을 제공하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다. 또한, 네트워크 입출력부(1170)는 데이터의 무선 전송을 위해 WiFi, 블루투스 등의 근거리 통신 기능이나 4G 이상의 무선 통신 기능을 제공하도록 구현될 수 있다.

도 12는 본 발명에 따른 도메인 적응형 객체 검출 시스템을 설명하는 도면이다.

도 12를 참조하면, 도메인 적응형 객체 검출 시스템(1200)은 사용자 단말(1210), 도메인 적응형 객체 검출 장치(100) 및 데이터베이스(1230)를 포함할 수 있다.

사용자 단말(1210)은 사용자에 의해 운용되는 단말 장치에 해당할 수 있다. 본 발명의 실시예에서 사용자는 하나 이상의 사용자로 이해될 수 있으며, 복수의 사용자들은 하나 이상의 사용자 그룹으로 구분될 수 있다. 또한, 사용자 단말(1210)은 도메인 적응형 객체 검출 시스템(1200)을 구성하는 하나의 장치로서 도메인 적응형 객체 검출 장치(100)와 연동하여 동작하는 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 사용자 단말(1210)은 도메인 적응형 객체 검출 장치(100)와 연결되어 동작 가능한 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 포함하여 다양한 디바이스로도 구현될 수 있다. 또한, 사용자 단말(1210)은 도메인 적응형 객체 검출 장치(100)와 연동하기 위한 전용 프로그램 또는 어플리케이션(또는 앱, app)을 설치하여 실행할 수 있다.

도메인 적응형 객체 검출 장치(100)는 본 발명에 도메인 적응형 객체 검출 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 또한, 도메인 적응형 객체 검출 장치(100)는 사용자 단말(1210)과 유선 네트워크 또는 블루투스, WiFi, LTE 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(1210)과 데이터를 송·수신할 수 있다.

또한, 도메인 적응형 객체 검출 장치(100)는 관련 동작을 수행하기 위하여 독립된 외부 시스템(도 1에 미도시함)과 연결되어 동작하도록 구현될 수 있다. 예를 들어, 도메인 적응형 객체 검출 장치(100)는 포털 시스템, SNS 시스템, 클라우드 시스템 등과 연동하여 다양한 서비스를 제공하도록 구현될 수 있다.

데이터베이스(1230)는 도메인 적응형 객체 검출 장치(100)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(1230)는 이미지에 관한 정보를 저장할 수 있고, 학습 데이터와 모델에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 도메인 적응형 객체 검출 장치(100)가 본 발명에 따른 도메인 적응형 객체 검출 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.

또한, 도 12에서, 데이터베이스(1230)는 도메인 적응형 객체 검출 장치(100)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 논리적인 저장장치로서 도메인 적응형 객체 검출 장치(100)에 포함되어 구현될 수 있음은 물론이다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 도메인 적응형 객체 검출 장치
110: 이미지 레벨 피처부 130: RPN 레벨 피처부
150: 인스턴스 레벨 피처부 170: 객체 검출부
190: 제어부
1200: 도메인 적응형 객체 검출 시스템

Claims

언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출하는 이미지 레벨 피처부;
상기 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정하는 RPN 레벨 피처부; 및
상기 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출하는 인스턴스 레벨 피처부;를 포함하는 멀티-레벨 전이 영역 (Multi-level Transferable Region) 기반의 도메인 적응형 객체 검출 장치.
제1항에 있어서, 상기 이미지 레벨 피처부는
상기 복수의 컨볼루션 레이어들 각각으로부터 상기 언라벨 타겟 데이터의 다중 스케일 피처들을 수집하고 상기 다중 스케일 피처들을 병합하여 전이 가능 어텐션 맵을 생성하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
제2항에 있어서, 상기 이미지 레벨 피처부는
상기 전이 가능 어텐션 맵과 글로벌 피처 간의 곱 연산을 통해 상기 이미지 레벨 피처를 생성하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
제1항에 있어서, 상기 RPN 레벨 피처부는
상기 RPN-레벨 도메인 적응 과정에서 상기 RPN에서 출력된 전경 피처 및 GRL(Gradient Reversal Layer) 기반의 도메인 분류기(Dbox)를 경유한 도메인 분류 피처를 병합하여 RPN-레벨 도메인 피처를 생성하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
제4항에 있어서, 상기 RPN 레벨 피처부는
상기 전이 영역 필터링 과정에서 상기 RPN-레벨 도메인 피처를 입력받고 배경 영역들을 걸러내서 상기 영역 후보들을 결정하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
제1항에 있어서, 상기 인스턴스 레벨 피처부는
전경 확률 및 이미지 경도 점수 간의 불일치를 기초로 상기 영역 후보들의 개수를 조절하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
제1항에 있어서,
상기 RoI 풀링 피처를 DCN(Deformable Convolutional Networks)에 제공하여 상기 언라벨 타겟 데이터에 있는 객체를 검출하는 객체 검출부;를 더 포함하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치.
언라벨 타겟 데이터(unlabeled target data)를 복수의 컨볼루션 레이어들에 제공하여 이미지 레벨 피처를 추출하는 단계;
상기 이미지 레벨 피처를 RPN(Region Proposal Network)에 제공하여 RPN-레벨 도메인 적응 및 전이 영역 필터링을 수행함으로써 영역 후보들을 결정하는 단계; 및
상기 영역 후보들에 대한 동적 인스턴스 샘플링(Dynamic Instance Sampling)을 수행하여 RoI (Region of Interest) 풀링 피처를 추출하는 단계;를 포함하는 멀티-레벨 전이 영역 (Multi-level Transferable Region) 기반의 도메인 적응형 객체 검출 방법.
제8항에 있어서, 상기 이미지 레벨 피처를 추출하는 단계는
상기 복수의 컨볼루션 레이어들 각각으로부터 상기 언라벨 타겟 데이터의 다중 스케일 피처들을 수집하고 상기 다중 스케일 피처들을 병합하여 전이 가능 어텐션 맵을 생성하는 단계를 포함하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 방법.
제9항에 있어서, 상기 이미지 레벨 피처를 추출하는 단계는
상기 전이 가능 어텐션 맵과 글로벌 피처 간의 곱 연산을 통해 상기 이미지 레벨 피처를 생성하는 단계를 포함하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 방법.
제8항에 있어서, 상기 RoI 풀링 피처를 추출하는 단계는
전경 확률 및 이미지 경도 점수 간의 불일치를 기초로 상기 영역 후보들의 개수를 조절하는 단계를 포함하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 방법.
제8항에 있어서,
상기 RoI 풀링 피처를 DCN(Deformable Convolutional Networks)에 제공하여 상기 언라벨 타겟 데이터에 있는 객체를 검출하는 단계;를 더 포함하는 것을 특징으로 하는 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 방법.