KR102173942B1

KR102173942B1 - 다른 시점의 영상을 이용한 객체 검출을 위한 장치 및 이를 위한 방법

Info

Publication number: KR102173942B1
Application number: KR1020200038871A
Authority: KR
Inventors: 이은호; 최우식; 김태규
Original assignee: 주식회사 딥노이드
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-11-04

Abstract

본 발명의 다른 시점의 영상을 이용한 객체 검출을 위한 장치는 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률을 도출하는 제1 인공신경망과, 상기 제1 영상 및 상기 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률을 도출하고, 대응하는 위치의 영역상자의 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하고, 도출된 제3 확률 중 기 설정된 임계치 이상인 제3 확률에 대응하는 객체를 특정하는 영역상자를 출력하는 제2 인공신경망과, 상기 출력된 영역상자를 유의 영역으로 검출하는 검출부를 포함한다.

Description

다른 시점의 영상을 이용한 객체 검출을 위한 장치 및 이를 위한 방법{Apparatus for detecting an object using images from different viewpoints and a method therefor}

본 발명은 객체 검출 기술에 관한 것으로, 보다 상세하게는, 다른 시점의 영상을 이용한 객체 검출을 위한 장치 및 이를 위한 방법에 관한 것이다.

객체 검출(Object Detection)은 컴퓨터비전(Computer vision), 영상처리(image processing)와 관계가 깊은 컴퓨터 기술이다. 일반적으로 객체 검출 알고리즘은 찾고자 하는 객체의 특징(feature)을 사전에 추출하고 주어진 영상 내에서 해당 특징을 검출(detection)하는 접근을 주로 사용한다. 종래의 영상처리에서 사용했던 객체 검출 알고리즘은 특징 엔지니어링(Feature Engineering) 기법을 통하여 수학적으로 혹은 실용적으로 검증된 특징을 추출(Feature Extraction)하여 특징들의 분포(Distribution)에서 경계를 결정(Boundary Decision)하는 방법을 주로 사용했다. 전통적인 특징 추출(Feature Extraction) 방법은 Haar-like feature, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), LBP(Local Binary Pattern), MCT(Modified Census Transform) 등이 있다. 특징 추출(Feature Extraction) 후, 특징들의 분포(Distribution)에서 경계를 결정(Boundary Decision)하는 알고리즘은 SVM(Support Vector Machine), Adaboost 등과 같은 검출 알고리즘(Classifier)을 사용하여 어떤 특징(Feature)의 분포가 객체를 표현하는지 그렇지 않은지를 구분하는 것을 통해서 객체를 검출하였다. 이러한 종래의 객체 검출 알고리즘은 영상에서 전처리 등을 통해서 노이즈를 제거하거나, 이미지를 선명하게 만든 후에 해당 이미지에서 특징들을 추출하고, 이 특징들을 이용하여 객체 검출에 대해 분류(Classifier)하는 파이프라인(pipe line)을 따른다.

한국공개특허 제2019-0060606호 2019년 06월 03일 공개 (명칭: 의료 영상 진단 장치 및 방법)

본 발명의 목적은 다른 시점의 영상을 이용하여 영상 내의 객체를 검출하는 장치 및 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치는 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률을 도출하는 제1 인공신경망과, 상기 제1 영상 및 상기 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률을 도출하고, 대응하는 위치의 영역상자의 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하고, 도출된 제3 확률 중 기 설정된 임계치 이상인 제3 확률에 대응하는 객체를 특정하는 영역상자를 출력하는 제2 인공신경망과, 상기 출력된 영역상자를 유의 영역으로 검출하는 검출부를 포함한다.

상기 제2 인공신경망은 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 상기 제3 확률로 도출하는 것을 특징으로 한다.

상기 제2 인공신경망은 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 상기 제3 확률로 도출하는 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법은 제1 인공신경망이 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률을 도출하는 단계와, 제2 인공신경망이 상기 제1 영상 및 상기 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률을 도출하는 단계와, 상기 제2 인공신경망이 대응하는 위치의 영역상자의 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계와, 검출부가 기 설정된 임계치 이상의 제3 확률을 가지는 객체에 해당하는 영역상자를 유의 영역으로 도출하는 단계를 포함한다.

상기 제2 인공신경망이 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계는 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 상기 제3 확률로 도출하는 것을 특징으로 한다.

상기 제2 인공신경망이 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계는 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 상기 제3 확률로 도출하는 것을 특징으로 한다.

본 발명은 서로 다른 시점의 영상을 이용하여 객체를 검출함으로써 객체 검출의 신뢰도를 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치의 세부 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 인공신경망의 출력을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 인공신경망을 학습하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 제1 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 화면 예이다.
도 7은 본 발명의 제2 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 화면 예이다.
도 8은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

먼저, 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치의 구성에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치의 세부 구성을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 인공신경망의 출력을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 장치(10, 이하, '객체검출장치'로 축약함)는 인공신경망(100), 학습부(200) 및 검출부(300)를 포함한다.

인공신경망(100)은 하나 이상의 연산 장치를 통해 구현될 수 있다. 예컨대, 이러한 연산 장치는 CPU(Central Processing Unit), GPU(graphics processing unit), NPU(Neural Processing Unit) 등을 예시할 수 있다. 또한, 인공신경망(100)은 예컨대, TPU(tensor processing unit)와 같은 하드웨어 가속기를 통해 구현될 수도 있다. 인공신경망(100)은 하나 또는 둘 이상의 계층(layer)을 포함하는 하나 또는 둘 이상의 신경망 네트워크(network)를 포함한다. 이러한 인공신경망(100)은 도 2에 도시된 바와 같이, 제1 인공신경망(110) 및 제2 인공신경망(120)을 포함한다. 즉, 제1 인공신경망(110) 및 제2 인공신경망(120)을 포함하는 인공신경망(100)은 하나 이상의 계층을 포함하며, 어느 하나의 계층은 하나 이상의 연산을 수행한다. 어느 하나의 계층의 연산 결과는 가중치가 적용되어 다음 계층에 전달된다. 이는 현 계층의 연산 결과에 가중치가 적용되어 다음 계층의 연산에 입력되는 것을 의미한다. 다른 말로, 인공신경망(100)은 가중치가 적용되는 복수의 연산을 수행한다. 복수의 계층은 컨볼루션(Convolution) 연산을 수행하는 컨볼루션계층(CVL: Convolution Layer), 다운샘플링(Down Sampling) 연산 혹은 업샘플링(Up Sampling) 연산을 수행하는 풀링계층(PLL: Pooling Layer), 활성화함수에 의한 연산을 수행하는 완전연결층(FCL: Fully Connected Layer) 등을 포함할 수 있다. 컨볼루션, 다운샘플링 및 업샘플링 연산 각각은 소정의 행렬로 이루어진 커널을 이용하며, 이러한 커널을 이루는 행렬의 원소의 값들이 가중치(w)가 된다. 여기서, 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 제1 인공신경망(110) 및 제2 인공신경망(120) 각각은 YOLO(You Only Look Once), YOLOv2, YOLO9000, YOLOv3 등의 모델을 예시할 수 있다. 제1 인공신경망(110) 및 제2 인공신경망(120) 각각은 추가로 FCL(Fully Connected Layer), DN(Neural Network), DNN(Deep Neural Network) 등의 추가적인 계층 혹은 네트워크를 더 포함할 수 있다.

제1 인공신경망(110) 및 제2 인공신경망(120) 각각은 예측망(PN: prediction network)과 그 예측망(PN)에 대응하는 검출망(DN: detection network) 쌍을 2개씩 포함한다. 제1 인공신경망(110)은 제1 예측망(PN1), 제1 검출망(DN1), 제2 예측망(PN2) 및 제2 검출망(DN2)을 포함한다. 제2 인공신경망(120)은 제3 예측망(PN3), 제3 검출망(DN3), 제4 예측망(PN4) 및 제4 검출망(DN4)을 포함한다.

예측망(EN: EN1, EN2, EN3, EN4)은 영상이 입력되면, 복수의 계층의 가중치가 적용되는 복수의 연산을 수행하여 예측값을 출력한다. 즉, 예측망(EN)은 영상을 복수의 셀로 구분한 후, 복수의 셀 각각에 중심 좌표(x, y)를 가지는 복수의 영역상자(BB: Bounding Box) 각각이 속한 셀을 기준으로 하는 중심과 폭 및 높이를 정의하는 좌표(x, y, w, h), 영역상자 내에 객체가 포함되어 있으면서 영역상자의 영역 내에 객체가 존재할 확률을 나타내는 신뢰도(confidence) 및 영역상자 내의 객체가 복수의 클래스의 객체 각각에 속할 확률을 산출하여 예측값으로 출력할 수 있다. 예컨대, 도 3의 경우, 영상은 6행 4열의 셀로 구분되었다. 제1 영역상자(BB1)는 2행2열(2, 2) 내의 셀에 중심좌표(x1, y1)가 위치하며, 제1 폭과 제1 높이(w1, h1)를 가진다. 제1 영역상자(BB1)의 신뢰도는 1이며, 제1 영역상자(BB1) 내의 객체는 제1 목뼈와 제2 목뼈 사이에 퇴행성 증상이 있음을 나타내는 클래스의 객체일 확률이 88%임을 나타낸다(C1C2REG=0.88169). 제2 영역상자(BB2)는 3행2열(3, 2) 내의 셀에 중심좌표(x2, y2)가 위치하며, 제2 폭과 제2 높이(w2, h2)를 가진다. 제2 영역상자(BB2)의 신뢰도는 1이며, 제2 영역상자(BB2) 내의 객체가 제3 목뼈 클래스의 객체일 확률은 약 94%이다(C3=0.93621).

검출망(DN: DN1, DN2, DN3, DN4)은 예측값에 해당하는 복수의 영역상자 중 하나 이상의 예측값에 해당하는 영역상자를 선택하여 출력값으로 출력한다. 검출망(DN)은 예측값에 대해 가중치가 적용되는 복수의 연산을 통해 출력값을 산출한다. 이때, 제1 검출망(DN1) 및 제2 검출망(DN2)은 제1 예측망(PN1) 및 제2 예측망(PN2)의 예측값을 이용하여 출력값을 산출할 수 있다. 제3 검출망(DN3) 및 제4 검출망(DN4)은 제1 내지 제4 예측망 모두의 예측값을 이용하여 출력값을 산출할 수 있다. 예를 들면, 검출망(DN: DN1, DN2, DN3, DN4)은 해당하는 복수의 영역상자 내의 객체가 기 학습된 클래스의 객체일 확률이 기 설정된 임계치 이상인 영역상자를 선택하는 출력값을 산출할 수 있다.

학습부(200)는 인공신경망(100)을 학습시키기 위한 것이다. 이를 위하여, 학습부(200)는 학습시키고자 하는 클래스의 객체가 포함된 영상을 마련한 후, 해당 영상을 예측망(EN: EN1, EN2, EN3, EN4)에 입력한다. 그러면, 예측망(EN: EN1, EN2, EN3, EN4)은 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 예측값을 산출하고, 산출된 예측값을 출력할 것이다. 예측값은 영상의 복수의 셀 각각에 중심 좌표를 가지는 복수의 영역상자 각각의 좌표(x, y, w, h), 영역상자의 영역이 학습시키고자 하는 객체를 포함하고 있는 이상적인 박스(ground-truth box)와 일치하는 정도를 나타내는 신뢰도(confidence: 0~1) 및 영역상자 내의 객체가 학습시키고자 하는 클래스의 객체일 확률(예컨대, C1C2REG=0.88169, C3=0.93621 등)을 포함한다.

예측망(EN: EN1, EN2, EN3, EN4)의 예측값이 검출망(DN: DN1, DN2, DN3, DN4)이 입력되면, 검출망(DN: DN1, DN2, DN3, DN4)은 복수의 가중치가 적용되는 연산을 통해 출력값을 출력한다. 이러한 출력값을 기초로 학습부(200)는 손실 함수에 따라 손실값을 도출할 수 있다. 예컨대, 손실 함수는 다음의 수학식 1과 같다.

S는 셀의 수를 나타내며, C는 신뢰 점수를 나타낸다. B는 한 셀 내의 영역상자의 수를 나타낸다. pi(c)는 i 번째 셀의 객체가 해당 클래스(c)일 확률을 나타낸다. 여기서, i는 객체가 존재하는 셀을 나타내는 파라미터이고, j는 예측된 영역상자를 나타내는 파라미터이다. 또한, x, y는 영역상자의 중심좌표를 나타내며, w 및 h는 각각 영역상자의 폭과 높이를 나타낸다.

는 영역상자의 변수에 대한 값을 더 반영하기 위한 것으로, 영역상자의 좌표(x, y, w, h)에 대한 손실과 다른 손실들과의 균형을 위한 파라미터이다.

는 영역상자의 변수에 대한 값을 더 반영하고, 객체가 없는 영역에 대한 값을 덜 반영하기 위한 것이다. 즉,

는 객체가 있는 영역상자와 객체가 없는 영역상자 간의 균형을 위한 파라미터이다.

는 셀에 객체가 있는 경우를 나타낸다.

는 셀 i에 있는 영역상자 j를 나타낸다.

수학식 1의 첫 번째 및 두 번째 텀(term)은 영역상자의 좌표(x, y, w, h)와, 학습하고자 하는 클래스의 객체가 존재하는 영역의 좌표와의 차이를 나타내는 좌표 손실(coordinate loss)을 산출하기 위한 것이다. 또한, 수학식 1의 3 번째 텀은 영역상자(B)의 영역과 객체를 100% 포함하고 있는 이상적인 박스(ground-truth box)와의 차이를 나타내는 신뢰도 손실(confidence loss)을 산출하기 위한 것이다. 마지막으로, 수학식 1의 마지막 텀은 영역상자(B) 내의 객체의 클래스와 실제 객체의 클래스와의 차이를 나타내는 분류 손실(classification loss)을 산출하기 위한 것이다. 학습부(200)는 손실 함수를 통해 손실값, 즉, 좌표 손실, 신뢰도 손실 및 분류 손실을 산출하고, 좌표 손실, 신뢰도 손실 및 분류 손실이 목표치가 되도록 예측망(EN: EN1, EN2, EN3, EN4) 및 검출망(DN: DN1, DN2, DN3, DN4)의 가중치를 최적화한다.

검출부(300)는 인공신경망(100)의 출력을 기준으로 유의 영역을 도출하기 위한 것이다. 이를 위하여 검출부(300)는 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상을 인공신경망(100)에 입력한다. 그러면, 인공신경망(100)은 학습된 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 출력값을 산출하여 출력할 것이다. 그러면, 검출부(30)는 인공신경망(100)의 출력값에 따라 제1 영상 및 제2 영상 중 적어도 하나의 영상에 유의 영역을 표시하고, 유의 영역이 표시된 영상을 출력한다.

다음으로, 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 인공신경망을 학습하는 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 인공신경망을 학습하는 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 학습부(200)는 S110 단계에서 학습용 영상을 이용하여 제1 인공신경망(110) 및 제2 인공신경망(120) 각각을 개별적으로 학습시킨다. 여기서, 학습용 영상은 학습하고자 하는 객체인 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상을 포함한다. 이러한 개별 학습 중 제1 인공신경망(110)에 대한 학습을 대표적으로 설명하기로 한다. 예컨대, 학습부(200)가 제1 영상 및 제2 영상을 제1 인공신경망(110)에 입력할 수 있다. 예컨대, 제1 영상은 제1 예측망(PN1)에 입력되고, 제2 영상은 제2 예측망(PN2)에 입력될 수 있다. 제1 인공신경망(110)은 입력된 학습용 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 산출한 출력값을 출력할 것이다. 이러한 출력값은 영역상자(BB)의 좌표(x, y, w, h), 영역상자(BB)의 신뢰도 및 영역상자(BB) 내의 객체가 학습 대상 클래스의 객체에 속할 확률을 출력한다. 이에 따른 제1 인공신경망(110)의 손실 함수는 출력값으로 출력된 영역상자(BB)의 좌표와 학습 대상 객체를 100% 포함하고 있는 이상적인 박스(ground-truth box)의 좌표의 차이를 나타내는 좌표 손실(coordinate loss), 출력값으로 출력된 영역상자(BB)와 학습 대상 객체를 100% 포함하고 있는 이상적인 박스(ground-truth box)와의 차이를 나타내는 신뢰도 손실(confidence loss) 및 출력값으로 출력된 영역상자(BB) 내의 객체의 클래스와 실제 객체의 클래스와의 차이를 나타내는 분류 손실(classification loss)을 포함한다. 그러면, 학습부(200)는 분류 손실을 임계치 미만으로 설정한 상태에서 출력값으로부터 손실 함수를 통해 손실값, 즉, 좌표 손실, 신뢰도 손실 및 분류 손실을 산출하고, 좌표 손실 및 신뢰도 손실이 최소가 되도록 하며, 분류 손실이 임계치 미만이 되도록 제1 인공신경망(110)의 가중치를 최적화한다. 이러한 S110 단계에서 제2 인공신경망(120) 또한 전술한 제1 인공신경망(110)에 대한 학습 방법과 동일한 방법을 학습이 이루어진다.

다음으로, 학습부(200)는 S120 단계에서 학습용 영상을 이용하여 제1 인공신경망(110) 및 제2 인공신경망(120)을 동시에 병합하여 학습시킨다. 여기서, 학습용 영상은 학습하고자 하는 객체인 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상을 포함한다. 이러한 병합 학습에 대해 보다 상세하게 설명하기로 한다. 학습부(200)가 제1 영상 및 제2 영상을 제1 인공신경망(110)에 입력하면, 제1 인공신경망(110)이 입력된 제1 영상 및 제2 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 산출한 출력값을 출력할 것이다. 이때, 제1 예측망(PN1)이 제1 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제1 예측값을 산출하고, 제1 검출망(DN1)이 제1 영상에 대한 제1 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제1 출력값을 출력한다. 또한, 제2 예측망(PN2)이 제2 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제2 예측값을 산출하고, 제2 검출망(DN2)이 제2 영상에 대한 제2 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제2 출력값을 출력할 것이다. 이때, 제1 예측값은 제4 검출망에 입력되고, 제2 예측값은 제3 검출망에 입력된다. 특히, 제1 예측값은 제1 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률을 포함하며, 제2 예측값은 제2 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률을 포함한다. 또한 학습부(200)가 제1 영상 및 제2 영상을 제2 인공신경망(120)에 입력하면, 제2 인공신경망(120)이 입력된 제1 영상 및 제2 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 산출한 출력값을 출력할 것이다. 이때, 제3 예측망(PN3)이 제1 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제3 예측값을 산출하고, 제3 검출망(DN3)이 제1 영상에 대한 제3 예측값 및 제2 영상에 대한 제2 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제3 출력값을 출력한다. 또한, 제4 예측망(PN4)이 제4 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제4 예측값을 산출하고, 제4 검출망(DN4)이 제2 영상에 대한 제4 예측값 및 제1 영상에 대한 제1 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제4 출력값을 출력할 것이다. 여기서, 제3 출력값 및 제4 출력값은 영역상자(BB)의 좌표(x, y, w, h), 영역상자(BB)의 신뢰도 및 영역상자(BB) 내의 객체가 학습 대상 클래스의 객체에 속할 확률을 출력한다. 이에 따른 제1 인공신경망(110)의 손실 함수는 출력값으로 출력된 영역상자(BB)의 좌표와 학습 대상 객체를 100% 포함하고 있는 이상적인 박스(ground-truth box)의 좌표의 차이를 나타내는 좌표 손실(coordinate loss), 출력값으로 출력된 영역상자(BB)와 학습 대상 객체를 100% 포함하고 있는 이상적인 박스(ground-truth box)와의 차이를 나타내는 신뢰도 손실(confidence loss) 및 출력값으로 출력된 영역상자(BB) 내의 객체의 클래스와 실제 객체의 클래스와의 차이를 나타내는 분류 손실(classification loss)을 포함한다. 여기서, 제1 실시예에 따르면, 제3 및 제4 출력값으로 출력된 영역상자(BB) 내의 객체의 클래스는 제1 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률과 제2 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률 중 최소값 및 제2 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률과 제1 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률 중 최소값을 의미한다. 반면, 제2 실시예에 따르면, 제3 및 제4 출력값으로 출력된 영역상자(BB) 내의 객체의 클래스는 제1 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률과 제2 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률 중 최대값 및 제2 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률과 제1 영상의 영역상자 내의 객체가 학습 대상 클래스의 객체일 확률 중 최대값을 의미한다. 그러면, 학습부(200)는 분류 손실을 임계치 미만으로 설정한 상태에서 제3 및 제4 출력값으로부터 손실 함수를 통해 손실값, 즉, 좌표 손실, 신뢰도 손실 및 분류 손실을 산출하고, 좌표 손실 및 신뢰도 손실이 최소가 되도록 하며, 분류 손실이 임계치 미만이 되도록 제3 및 제4 검출망(DN3, DN4)의 가중치만을 최적화한다.

학습이 완료되면, 인공신경망(100)을 이용하여 다른 시점의 영상을 이용한 객체 검출을 수행할 수 있다. 이러한 방법에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 흐름도이다. 도 6은 본 발명의 제1 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 화면 예이다. 도 7은 본 발명의 제2 실시예에 따른 다른 시점의 영상을 이용한 객체 검출을 위한 방법을 설명하기 위한 흐름도이다.

도 5를 참조하면, 검출부(300)가 제1 영상 및 제2 영상을 제1 인공신경망(110)에 입력하면, 제1 인공신경망(110)은 S210 단계에서 제1 영상 및 제2 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 제1 및 제2 예측값과 제1 및 제2 출력값을 순차로 산출하고, 산출된 제1 및 제2 예측값과 제1 및 제2 출력값을 출력한다. 여기서, 제1 영상 및 제2 영상은 동일한 대상에 대해 서로 다른 2개의 시점(point of view)에서 촬영된 제1 영상 및 제2 영상이 될 수 있다. 이때, 제1 예측망(PN1)이 제1 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제1 예측값을 산출하고, 제1 검출망(DN1)이 제1 영상에 대한 제1 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제1 출력값을 출력한다. 또한, 제2 예측망(PN2)이 제2 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제2 예측값을 산출하고, 제2 검출망(DN2)이 제2 영상에 대한 제2 예측값에 대해 가중치가 적용되는 복수의 연산을 수행하여 제2 출력값을 출력할 것이다. 제1 예측값은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 포함하며, 제2 예측값은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 포함한다. 이러한 제1 예측값 및 제2 예측값에 포함된 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 제1 확률이라고 칭하기로 한다. 이때, 제1 예측값은 제4 검출망에 입력되고, 제2 예측값은 제3 검출망에 입력된다. 즉, 제1 확률은 제4 검출망 및 제3 검출망에 입력된다.

또한, 검출부(300)가 제1 영상 및 제2 영상을 제2 인공신경망(120)에 입력하면, 제2 인공신경망(120)은 S220 단계에서 제1 영상 및 제2 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 제3 및 제4 예측값을 산출한다. 이때, 제3 예측망(PN3)이 제1 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제3 예측값을 산출하고, 제4 예측망(PN4)이 제4 영상에 대해 가중치가 적용되는 복수의 연산을 수행하여 제4 예측값을 산출한다. 여기서, 제3 예측값은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 포함하며, 제4 예측값은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 포함한다. 이러한 제3 예측값 및 제4 예측값에 포함된 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 제2 확률이라고 칭하기로 한다. 이때, 제3 예측값은 제3 검출망(DN3)에 입력되고, 제4 예측값은 제4 검출망(DN4)에 입력된다. 즉, 제2 확률은 제3 검출망 및 제4 검출망에 입력된다.

다음으로, 제2 인공신경망(120)은 S230 단계에서 제3 검출망(DN3) 및 제4 검출망(DN4)을 통해 제2 예측값과 제1 예측값의 제1 확률과 제3 예측값과 제4 예측값의 제2 확률을 조합하여 상기 제1 영상 및 상기 제2 영상 각각에서 동일한 객체에 대응하는 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 확률을 도출한다. 이러한 확률을 제3 확률이라고 칭하기로 한다.

제1 실시예에 따르면, 제2 인공신경망(120)의 제3 검출망(DN3)은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 제2 영상의 하나 이상의 영역상자와 대응하는 위치의 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률로 도출한다. 또한, 제2 인공신경망(120)의 제4 검출망(DN4)은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 제1 영상의 하나 이상의 영역상자와 대응하는 위치의 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률로 도출한다.

예컨대, 도 6을 예로 설명하면, 도 6의 (E11)은 제1 영상에 대해 제1 예측망(PN1)이 산출한 제1 예측값을 나타내며, (E12)는 제2 영상에 대해 제2 예측망(PN2)이 산출한 제2 예측값을 나타낸다. 도 6의 (E11)에서 제1 예측값은 위에서 아래의 순서로 제1 내지 제3 영역상자(bb1, bb2, bb3)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하면, 제1 확률은 제1 영역상자(bb1)의 경우 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]이고, 제2 영역상자(bb2)의 경우 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이며, 제3 영역상자(bb3)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이 될 수 있다. 도 6의 (E12)에서 제2 예측값은 위에서 아래의 순서로 제4 내지 제6 영역상자(bb4, bb5, bb6)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하며, 제1 확률은 제4 영역상자(bb4)의 경우 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]이고, 제5 영역상자(bb5)의 경우 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이며, 제6 영역상자(bb6)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이 될 수 있다.

한편, 도 6의 (E13)은 제1 영상에 대해 제3 예측망(PN3)이 산출한 제3 예측값을 나타내며, (E14)는 제2 영상에 대해 제4 예측망(PN4)이 산출한 제4 예측값을 나타낸다. 도 6의 (E13)에서 제3 예측값은 위에서 아래의 순서로 제1 내지 제3 영역상자(bb1, bb2, bb3)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하면, 제2 확률은 제1 영역상자(bb1)의 경우 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]이고, 제2 영역상자(bb2)의 경우 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이며, 제3 영역상자(bb3)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이 될 수 있다. 도 6의 (E14)에서 제4 예측값은 위에서 아래의 순서로 제4 내지 제6 영역상자(bb4, bb5, bb6)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하며, 제2 확률은 제4 영역상자(bb4)의 경우 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]이고, 제5 영역상자(bb5)의 경우 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이며, 제6 영역상자(bb6)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이 될 수 있다.

제1 실시예에 따라 제2 인공신경망(120)의 제3 검출망(DN3)은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률(E12 참조)과 제2 영상의 하나 이상의 영역상자에 대응하는 위치의 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률(E13 참조) 중 최소값을 도출한다(E15 참조).

제4 영역상자(bb4)에 대응하는 위치의 영역상자는 제1 영역상자(bb1)이며, 제4 영역상자(bb4)의 제1 확률 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]과 제1 영역상자(bb1)의 제2 확률 (obj1, obj2, obj3)=[0.858, 0.111, 0.001] 중 최소값은 (obj1, obj2, obj3)=[min(0.214, 0.858), min(0.001, 0.111), min(0.040, 0.001)]=[0.214, 0.001, 0.001]이다. 제5 영역상자(bb5)에 대응하는 위치의 영역상자는 제2 영역상자(bb2)이며, 제5 영역상자(bb5)의 제1 확률 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]과 제2 영역상자(bb2)의 제2 확률 (obj1, obj2, obj3)=[0.001, 0.118, 0.001] 중 최소값은 (obj1, obj2, obj3)=[min(0.004, 0.001), min(0.791, 0.118), min(0.100, 0.001)]=[0.001, 0.118, 0.001]이다. 제6 영역상자(bb6)에 대응하는 위치의 영역상자는 제3 영역상자이며, 제6 영역상자(bb6)의 제1 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.873] 및 제3 영역상자(bb3)의 제2 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.901] 중 최소값은 (obj1, obj2, obj3)=[min(0.010, 0.010), min(0.001, 0.001), min(0.873, 0.901)]=[0.010, 0.001, 0.873]이다.

마찬가지로, 제1 실시예에 따라 제2 인공신경망(120)의 제4 검출망(DN4)은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률(E11 참조)과 제1 영상의 하나 이상의 영역상자에 대응하는 위치의 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률(E14 참조) 중 최소값을 도출한다(E16 참조). 제1 영역상자(bb1)에 대응하는 위치의 영역상자는 제4 영역상자(bb4)이며, 제1 영역상자(bb1)의 제1 확률 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]과 제4 영역상자(bb4)의 제2 확률 (obj1, obj2, obj3)=[0.214, 0.001, 0.040] 중 최소값은 (obj1, obj2, obj3)=[min(0.214, 0.858), min(0.001, 0.111), min(0.040, 0.001)]=[0.214, 0.001, 0.001]이다. 제2 영역상자(bb2)에 대응하는 위치의 영역상자는 제5 영역상자(bb5)이며, 제2 영역상자(bb2)의 제1 확률 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]과 제5 영역상자(bb5)의 제2 확률 (obj1, obj2, obj3)=[0.004, 0.791, 0.100] 중 최소값은 (obj1, obj2, obj3)=[min(0.001, 0.004), min(0.118, 0.791), min(0.001, 0.100)]=[0.001, 0.118, 0.001]이다. 제3 영역상자(bb3)에 대응하는 위치의 영역상자는 제6 영역상자(bb6)이며, 제3 영역상자(bb3)의 제1 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.901] 및 제6 영역상자(bb6)의 제2 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.873] 중 최소값은 (obj1, obj2, obj3)=[min(0.010, 0.010), min(0.001, 0.001), min(0.901, 0.873)]=[0.010, 0.001, 0.873]이다.

이와 같이, 도 6의 (E15) 및 (E16)은 제1 실시예에 따라 제3 검출망(DN3) 및 제4 검출망(DN4) 각각이 제1 영상 및 제2 영상에 대해 도출한 제3 확률을 나타낸다. 도 6에는 제3 확률 중 가장 큰 값만 표시되었다.

제2 실시예에 따르면, 제2 인공신경망(120)의 제3 검출망(DN3)은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 제2 영상의 하나 이상의 영역상자와 대응하는 위치의 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률로 도출한다. 또한, 제2 인공신경망(120)의 제4 검출망(DN4)은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 제1 영상의 하나 이상의 영역상자와 대응하는 위치의 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률로 도출한다.

예컨대, 도 7을 예로 설명하면, 도 7의 (E21)은 제1 영상에 대해 제1 예측망(PN1)이 산출한 제1 예측값을 나타내며, (E22)는 제2 영상에 대해 제2 예측망(PN2)이 산출한 제2 예측값을 나타낸다. 도 7의 (E21)에서 제1 예측값은 위에서 아래의 순서로 제1 내지 제3 영역상자(bb1, bb2, bb3)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하면, 제1 확률은 제1 영역상자(bb1)의 경우 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]이고, 제2 영역상자(bb2)의 경우 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이며, 제3 영역상자(bb3)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이 될 수 있다. 도 7의 (E22)에서 제2 예측값은 위에서 아래의 순서로 제4 내지 제6 영역상자(bb4, bb5, bb6)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하며, 제1 확률은 제4 영역상자(bb4)의 경우 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]이고, 제5 영역상자(bb5)의 경우 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이며, 제6 영역상자(bb6)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이 될 수 있다.

한편, 도 7의 (E23)은 제1 영상에 대해 제3 예측망(PN3)이 산출한 제3 예측값을 나타내며, (E24)는 제2 영상에 대해 제4 예측망(PN4)이 산출한 제4 예측값을 나타낸다. 도 7의 (E23)에서 제3 예측값은 위에서 아래의 순서로 제1 내지 제3 영역상자(bb1, bb2, bb3)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하면, 제2 확률은 제1 영역상자(bb1)의 경우 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]이고, 제2 영역상자(bb2)의 경우 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이며, 제3 영역상자(bb3)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이 될 수 있다. 도 7의 (E24)에서 제4 예측값은 위에서 아래의 순서로 제4 내지 제6 영역상자(bb4, bb5, bb6)를 포함한다. 3개의 클래스의 객체(obj1, obj2, obj3)가 학습된 경우를 가정하며, 제2 확률은 제4 영역상자(bb4)의 경우 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]이고, 제5 영역상자(bb5)의 경우 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이며, 제6 영역상자(bb6)의 경우 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이 될 수 있다.

제2 실시예에 따라 제2 인공신경망(120)의 제3 검출망(DN3)은 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률(E22 참조)과 제2 영상의 하나 이상의 영역상자에 대응하는 위치의 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률(E23 참조) 중 최대값을 도출한다(E25 참조).

제4 영역상자(bb4)에 대응하는 위치의 영역상자는 제1 영역상자(bb1)이며, 제4 영역상자(bb4)의 제1 확률 (obj1, obj2, obj3)=[0.214, 0.001, 0.040]과 제1 영역상자(bb1)의 제2 확률 (obj1, obj2, obj3)=[0.858, 0.111, 0.001] 중 최대값은 (obj1, obj2, obj3)=[max(0.214, 0.858), max(0.001, 0.111), max(0.040, 0.001)]=[0.858, 0.111, 0.040]이다. 제5 영역상자(bb5)에 대응하는 위치의 영역상자는 제2 영역상자(bb2)이며, 제5 영역상자(bb5)의 제1 확률 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]과 제2 영역상자(bb2)의 제2 확률 (obj1, obj2, obj3)=[0.001, 0.118, 0.001] 중 최대값은 (obj1, obj2, obj3)=[max(0.004, 0.001), max(0.791, 0.118), max(0.100, 0.001)]=[0.004, 0.791, 0.100]이다. 제6 영역상자(bb6)에 대응하는 위치의 영역상자는 제3 영역상자이며, 제6 영역상자(bb6)의 제1 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.873] 및 제3 영역상자(bb3)의 제2 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.901] 중 최대값은 (obj1, obj2, obj3)=[max(0.010, 0.010), max(0.001, 0.001), max(0.873, 0.901)]=[0.010, 0.001, 0.901]이다.

마찬가지로, 제2 실시예에 따라 제2 인공신경망(120)의 제4 검출망(DN4)은 제1 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률(E21 참조)과 제1 영상의 하나 이상의 영역상자에 대응하는 위치의 제2 영상의 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률(E24 참조) 중 최대값을 도출한다(E26 참조). 제1 영역상자(bb1)에 대응하는 위치의 영역상자는 제4 영역상자(bb4)이며, 제1 영역상자(bb1)의 제1 확률 (obj1, obj2, obj3)=[0.858, 0.111, 0.001]과 제4 영역상자(bb4)의 제2 확률 (obj1, obj2, obj3)=[0.214, 0.001, 0.040] 중 최대값은 (obj1, obj2, obj3)=[max(0.858, 0.214), max(0.111, 0.001), max(0.001, 0.040)]=[0.858, 0.111, 0.040]이다. 제2 영역상자(bb2)에 대응하는 위치의 영역상자는 제5 영역상자(bb5)이며, 제2 영역상자(bb2)의 제1 확률 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]과 제5 영역상자(bb5)의 제2 확률 (obj1, obj2, obj3)=[0.004, 0.791, 0.100] 중 최대값은 (obj1, obj2, obj3)=[max(0.001, 0.004), max(0.118, 0.791), max(0.001, 0.100)]=[0.004, 0.791, 0.100]이다. 제3 영역상자(bb3)에 대응하는 위치의 영역상자는 제6 영역상자(bb6)이며, 제3 영역상자(bb3)의 제1 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.901] 및 제6 영역상자(bb6)의 제2 확률 (obj1, obj2, obj3)=[0.010, 0.001, 0.873] 중 최대값은 (obj1, obj2, obj3)=[max(0.010, 0.010), max(0.001, 0.001), max(0.901, 0.873)]=[0.010, 0.001, 0.901]이다.

이와 같이, 도 7의 (E25) 및 (E26)은 제2 실시예에 따라 제3 검출망(DN3) 및 제4 검출망(DN4) 각각이 제1 영상 및 제2 영상에 대해 도출한 제3 확률을 나타낸다. 도 7에는 제3 확률 중 가장 큰 값만 표시되었다.

다음으로, 제2 인공신경망(120)은 S240 단계에서 제3 검출망(DN3) 및 제4 검출망(DN4)을 통해 제3 출력값 및 제4 출력값을 출력한다. 이러한 제3 출력값 및 제4 출력값은 제3 확률을 기초로 도출된 제3 확률 중 기 설정된 임계치 이상인 제3 확률에 대응하는 객체를 특정하는 영역상자를 제3 출력값 및 제4 출력값으로 출력한다.

제1 실시예에 따르면, 도 6의 (E15)에 도시된 바와 같이, 제1 영상에 대응하여 제1 영역상자(bb1)의 제3 확률은 (obj1, obj2, obj3)= [0.214, 0.001, 0.001]이고, 제2 영역상자(bb2)의 제3 확률은 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이고, 제3 영역상자(bb3)의 제3 확률은 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이다. 또한, 제2 영상에 대응하여 도 6의 (E16)에 도시된 바와 같이, 제4 영역상자(bb4)의 제3 확률은 (obj1, obj2, obj3)=[0.214, 0.001, 0.001]이고, 제5 영역상자(bb5)의 제3 확률은 (obj1, obj2, obj3)=[0.001, 0.118, 0.001]이고, 제6 영역상자(bb6)의 제3 확률은 (obj1, obj2, obj3)=[0.010, 0.001, 0.873]이다. 예컨대, 기 설정된 임계치는 75%(0.750)이라고 가정한다. 그러면, 제3 검출망(DN3)은 도 6의 (E17)에 도시된 바와 같이, 제3 영역상자(bb3)의 제3 확률 중 제3 객체(obj3)의 제3 확률(0.873)만 임계치 이상이 이기 때문에 제3 객체(obj3)에 대응하는 제3 영역상자(bb3)를 제3 출력값으로 출력한다. 또한, 제4 검출망(DN4)은 도 6의 (E18)에 도시된 바와 같이, 제6 영역상자(bb6)의 제3 확률 중 제3 객체(obj3)의 제3 확률(0.873)만 임계치 이상이기 때문에 제3 객체(obj3)에 대응하는 제6 영역상자(bb6)를 제4 출력값으로 출력한다.

제2 실시예에 따르면, 도 7의 (E25)에 도시된 바와 같이, 제1 영상에 대응하여 제1 영역상자(bb1)의 제3 확률은 (obj1, obj2, obj3)= [0.858, 0.111, 0.040]이고, 제2 영역상자(bb2)의 제3 확률은 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이고, 제3 영역상자(bb3)의 제3 확률은 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이다. 또한, 제2 영상에 대응하여 도 6의 (E16)에 도시된 바와 같이, 제4 영역상자(bb4)의 제3 확률은 (obj1, obj2, obj3)=[0.858, 0.111, 0.040]이고, 제5 영역상자(bb5)의 제3 확률은 (obj1, obj2, obj3)=[0.004, 0.791, 0.100]이고, 제6 영역상자(bb6)의 제3 확률은 (obj1, obj2, obj3)=[0.010, 0.001, 0.901]이다. 예컨대, 기 설정된 임계치는 75%(0.750)이라고 가정한다. 그러면, 제3 검출망(DN3)은 도 7의 (E27)에 도시된 바와 같이, 제1 영역상자(bb1)의 제1 객체(obj1)의 제3 확률(0.858), 제2 영역상자(bb2)의 제2 객체(obj2)의 제3 확률(0.791) 및 제3 영역상자(bb3)의 제3 객체(obj3)의 제3 확률(0.901)이 임계치 이상이 이기 때문에 제1 객체(obj1), 제2 객체(obj2) 및 제3 객체(obj3) 각각에 대응하는 제1 영역상자(bb1), 제2 영역상자(bb2) 및 제3 영역상자(bb3)를 제3 출력값으로 출력한다. 또한, 제4 검출망(DN4)은 도 7의 (E28)에 도시된 바와 같이, 제4 영역상자(bb4)의 제1 객체(obj1)의 제3 확률(0.858), 제5 영역상자(bb5)의 제2 객체(obj2)의 제3 확률(0.791) 및 제6 영역상자(bb6)의 제3 객체(obj3)의 제3 확률(0.901)이 임계치 이상이 이기 때문에 제1 객체(obj1), 제2 객체(obj2) 및 제3 객체(obj3) 각각에 대응하는 제4 영역상자(bb4), 제5 영역상자(bb5) 및 제6 영역상자(bb6)를 제4 출력값으로 출력한다.

다음으로, 검출부(300)는 S250 단계에서 출력값, 즉, 제3 출력값 및 제4 출력값에 따라 출력된 영역상자를 유의 영역으로 검출한다. 일례로, 제1 실시예에 따르면, 검출부(300)는 도 6에 도시된 바와 같이, (E17)의 제3 영역상자(bb3)와, (E18)의 제6 영역상자(bb6)를 유의 영역으로 검출할 수 있다. 다른 예로, 제2 실시예에 따르면, 검출부(300)는 도 7에 도시된 바와 같이, (E27)의 제1 내지 제3 영역상자(bb1, bb2, bb3)와, (E28)의 제4 내지 제6 영역상자(bb4, bb5, bb6)를 유의 영역으로 검출할 수 있다.

도 8은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다. 도 8의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 객체검출장치(10) 등)일 수 있다.

도 8의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 앞서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

100: 인공신경망
110: 제1 인공신경망
120: 제2 인공신경망
200: 학습부
300: 검출부

Claims

다른 시점의 영상을 이용한 객체 검출을 위한 장치에 있어서,
대상에 대해 제1 시점(point of view)에서 촬영된 제1 영상 및 상기 대상과 동일한 대상에 대해 상기 제1 시점(point of view)과 다른 시점인 제2 시점(point of view)에서 촬영된 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률을 도출하는 제1 인공신경망;
상기 제1 영상 및 상기 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률을 도출하고, 대응하는 위치의 영역상자의 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하고, 도출된 제3 확률 중 기 설정된 임계치 이상인 제3 확률에 대응하는 객체를 특정하는 영역상자를 출력하는 제2 인공신경망; 및
상기 출력된 영역상자를 유의 영역으로 검출하는 검출부;
를 포함하는 것을 특징으로 하는
객체 검출을 위한 장치.
제1항에 있어서,
상기 제2 인공신경망은
상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 상기 제3 확률로 도출하는 것을 특징으로 하는
객체 검출을 위한 장치.
제1항에 있어서,
상기 제2 인공신경망은
상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 상기 제3 확률로 도출하는 것을 특징으로 하는
객체 검출을 위한 장치.
다른 시점의 영상을 이용한 객체 검출을 위한 방법에 있어서,
제1 인공신경망이 대상에 대해 제1 시점(point of view)에서 촬영된 제1 영상 및 상기 대상과 동일한 대상에 대해 상기 제1 시점(point of view)과 다른 시점인 제2 시점(point of view)에서 촬영된 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률을 도출하는 단계;
제2 인공신경망이 상기 제1 영상 및 상기 제2 영상 각각에서 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률을 도출하는 단계;
상기 제2 인공신경망이 대응하는 위치의 영역상자의 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계; 및
검출부가 기 설정된 임계치 이상의 제3 확률을 가지는 객체에 해당하는 영역상자를 유의 영역으로 도출하는 단계;
를 포함하는 것을 특징으로 하는
객체 검출을 위한 방법.
제4항에 있어서,
상기 제2 인공신경망이 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계는
상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최소값을 상기 제3 확률로 도출하는 것을 특징으로 하는
객체 검출을 위한 방법.
제4항에 있어서,
상기 제2 인공신경망이 상기 제1 확률 및 상기 제2 확률을 조합하여 하나 이상의 영역상자의 객체가 기 학습된 하나 이상의 클래스의 객체일 제3 확률을 도출하는 단계는
상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값 및 상기 제2 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제1 확률과 상기 제1 영상의 영역상자 내의 객체가 기 학습된 하나 이상의 클래스의 객체일 제2 확률 중 최대값을 상기 제3 확률로 도출하는 것을 특징으로 하는
객체 검출을 위한 방법.