KR20230077871A

KR20230077871A - 인페인팅 기법에 기반한 배경 모델링을 이용한 동적 객체 검출 장치 및 방법

Info

Publication number: KR20230077871A
Application number: KR1020210165052A
Authority: KR
Inventors: 이상윤; 김우진; 황상원; 이준협; 이도균; 우성민
Original assignee: 연세대학교 산학협력단
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-06-02

Abstract

본 발명은 시간적으로 연속하는 제1 및 제2 프레임 사이에서 변화가 발생된 움직임 영역을 검출하여 초기 마스크를 획득하는 초기 마스크 획득부, 초기 마스크와 제1 프레임을 인가받고, 미리 학습된 방식에 따라 신경망 연산을 수행하여, 제1 프레임을 기반으로 초기 마스크에 의해 지정된 움직임 영역을 배경으로 채워 배경 강화 이미지를 획득하는 배경 인페인팅부, 배경 강화 이미지와 제2 프레임 사이의 차이를 계산하여, 동적 객체 영역과 함께 배경의 잔여 움직임 영역을 검출하여 잔여 움직임 마스크를 생성하고, 미리 학습된 방식에 따라 제2 프레임을 기반으로 잔여 움직임 마스크에서 잔여 움직임 영역이 배경으로 구분된 배경 마스크를 획득하는 배경 마스크 획득부 및 제2 프레임에서 배경 마스크에 의해 마스킹 되지 않는 동적 객에 영역을 검출하는 동적 객체 검출부를 포함하여, 낮은 연산 복잡도로 배경의 순간적인 변화나 동적 배경에도 강건한 배경 모델을 생성할 수 있어 실시간에 가까운 고속으로 동적 객체를 정확하게 검출할 수 있는 동적 객체 검출 장치 및 방법을 제공한다.

Description

인페인팅 기법에 기반한 배경 모델링을 이용한 동적 객체 검출 장치 및 방법{Apparatus and Method for Dynamic Object Detection using Background Modeling based on Inpainting Technique}

본 발명은 동적 객체 검출 장치 및 방법에 관한 것으로, 인페인팅 기법에 기반한 배경 모델링을 이용한 동적 객체 검출 장치 및 방법에 관한 것이다.

동적 객체를 감지하는 것은 비디오 감시 및 지능형 교통 시스템과 같은 많은 중요한 응용 프로그램에 필수 역할을 하기에 광범위하게 연구되어 왔다. 동적 객체 검출은 다수 프레임으로 구성되는 영상 내에서 프레임 사이의 변화를 기반으로 전경과 배경을 먼저 정확하게 구분하고, 이후 구분된 전경에서 실제 움직이는 물체를 검출하는 방식으로 수행된다.

기존의 동적 객체 검출 방법으로는 대표적으로 옵티컬 플로우(Optical flow) 기법과 시간적 차분(Temporal differencing) 기법 및 배경 차감(Background subtraction) 기법 등이 있다.

옵티컬 플로우 기법은 연속하는 프레임에 포함된 대응하는 픽셀의 변화에 따른 플로우 벡터를 획득하여 시간에 따라 움직이는 물체를 검출하는 기법으로, 카메라가 흔들리거나 배경이 동적인 경우에도 이용할 수 있다는 장점이 있으나, 계산 복잡도가 매우 높고 조도 변화에 취약하다는 문제가 있다.

시간적 차분 기법은 연속하는 프레임 사이의 픽셀 차에 따라 동적 객체를 탐지하는 방식으로, 움직이는 카메라에서 획득된 영상에서 동적 객체를 감지하기 위해 가장 많이 이용되는 기법이지만, 흔들리는 나무와 같이 배경 동적인 경우, 실제 동적 객체를 구분하기 어렵다는 문제가 있다.

배경 차감 기법은 다수의 프레임에서 시간 경과에 따른 이미지 픽셀의 평균을 산출하여 배경 모델을 생성하고, 입력 프레임에서 생성된 배경 모델을 차감하여 차이가 문턱값 이상인지 여부로 전경과 배경을 구분한다. 즉 배경 차감 기법은 이전 다수의 프레임을 기반으로 동적 객체가 포함되지 않은 배경을 모델링하고, 모델링된 배경과 입력되는 프레임 사이이의 차이로 전경 영역만이 도출되도록 하여 장면에서 움직이는 동적 객체를 검출한다.

배경 차감 기법은 매우 우수한 성능을 나타내는 것으로 알려져 있으나, 동적 객체가 포함되지 않은 배경을 모델링하기 위해서는, 시간적으로 연속되는 다수의 프레임(일반적으로 50장 이상)을 이용하여 정적인 배경 모델을 생성하는 초기화 작업을 우선 수행해야 한다. 동적 객체가 포함되지 않은 배경 모델을 생성하기 위한 초기화 작업은 다수의 프레임을 이용해야 하므로, 초기화 기간이 길게 소요된다. 따라서 배경 모델의 업데이트 속도가 느리며, 이로 인해 장면 내에서 순각적인 변화가 발생하는 경우 부정확한 검출 결과를 초래하는 문제가 있다. 또한 카메라의 움직임이나, 비, 눈과 같은 기상 조건의 변화 등으로 인해, 배경을 정확하게 모델링하기 어렵다는 문제가 있다.

한국 등록 특허 제10-2140873호 (2020.07.28 등록)

본 발명의 목적은 배경의 순간적인 변화나 동적 배경에 강인한 배경 모델을 모델링하여 정확하게 동적 객체를 검출할 수 있는 동적 객체 검출 장치 및 방법을 제공하는데 있다.

본 발명의 다른 목적은 2장의 연속 프레임만을 이용하여 배경 모델을 생성하여 연산 복잡도를 낮추면서도 고속으로 동적 객체를 검출할 수 있는 동적 객체 검출 장치 및 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동적 객체 검출 장치는 시간적으로 연속하는 제1 및 제2 프레임 사이에서 변화가 발생된 움직임 영역을 검출하여 초기 마스크를 획득하는 초기 마스크 획득부; 상기 초기 마스크와 상기 제1 프레임을 인가받고, 미리 학습된 방식에 따라 신경망 연산을 수행하여, 상기 제1 프레임을 기반으로 상기 초기 마스크에 의해 지정된 움직임 영역을 배경으로 채워 배경 강화 이미지를 획득하는 배경 인페인팅부; 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 동적 객체 영역과 함께 배경의 잔여 움직임 영역을 검출하여 잔여 움직임 마스크를 생성하고, 미리 학습된 방식에 따라 상기 제2 프레임을 기반으로 상기 잔여 움직임 마스크에서 잔여 움직임 영역이 배경으로 구분된 배경 마스크를 획득하는 배경 마스크 획득부; 및 상기 제2 프레임에서 상기 배경 마스크에 의해 마스킹 되지 않는 동적 객에 영역을 검출하는 동적 객체 검출부를 포함한다.

상기 초기 마스크 획득부는 상기 제1 및 제2 프레임을 인가받아, 상기 제1 및 제2 프레임에서 동일 위치의 픽셀을 차분하여 차분맵을 획득하는 차분 검출부; 및 미리 학습된 인공 신경망으로 구현되고, 상기 제1 및 제2 프레임과 상기 차분맵을 인가받아 신경망 연산을 수행하여 상기 제1 및 제2 프레임 사이에 움직임이 발생된 움직임 영역과 나머지 영역을 상기 차분맵을 기반으로 구분하여 상기 초기 마스크를 이진 마스크 형태로 생성하는 시간 차분부를 포함할 수 있다.

상기 차분 검출부는 RGB 이미지인 상기 제1 및 제2 프레임에서 3 채널 RGB 공간 상의 벡터로 표현되는 서로 대응하는 픽셀 사이의 유클리드 거리로 계산하여 상기 차분맵을 획득할 수 있다.

상기 배경 인페인팅부는 미리 학습된 인공 신경망으로 구현되고, 상기 제1 프레임에서 상기 초기 마스크에 의해 지정되는 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 정적 마스크 이미지와 상기 초기 마스크를 인가받아 신경망 연산하여, 정적 마스크 이미지에서 상기 초기 마스크에 의해 지정된 움직임 영역의 픽셀값을 주변 픽셀값을 기반으로 하는 대표 값인 슈퍼 픽셀값을 갖는 슈퍼 픽셀로 채워 슈퍼 픽셀 이미지를 획득하는 배경 채움부; 및 미리 학습된 인공 신경망으로 구현되고, 상기 슈퍼 픽셀 이미지와 상기 초기 마스크를 인가받아 신경망 연산하여, 상기 슈퍼 픽셀 이미지에서 슈퍼 픽셀로 채워진 움직임 영역의 각 픽셀값을 주변 픽셀값을 기반으로 재추정하여 배경 강화 이미지를 획득하는 배경 강화부를 포함할 수 있다.

상기 배경 인페인팅부는 상기 초기 마스크와 상기 제1 프레임을 원소 곱하여 마스킹된 제1 프레임을 획득하고, 상기 제1 프레임에서 상기 마스킹된 제1 프레임을 차감하여, 상기 초기 마스크에 의해 지정된 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 상기 정적 마스크 이미지를 획득하는 제1 마스크 결합부를 더 포함할 수 있다.

상기 배경 마스크 획득부는 미리 학습된 인공 신경망으로 구현되고, 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이에 따라 획득되는 잔여 움직임 마스크를 상기 배경 강화 이미지와 상기 제2 프레임과 함께 인가받아 신경망 연산하여, 상기 잔여 움직임 마스크에서 지정된 잔여 움직임 영역에서 동적 객체에 의한 잔여 움직임 영역과 배경의 움직임에 의한 잔여 움직임 영역을 구분하고, 구분된 배경의 움직임에 의한 잔여 움직임 영역을 상기 잔여 움직임 마스크의 배경으로 전환하여 상기 배경 마스크를 획득하는 전경 분할부를 포함할 수 있다.

상기 배경 마스크 획득부는 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 상기 제2 프레임에서 상기 배경 강화 이미지와 상이하게 나타나는 잔여 움직임 영역을 지정하는 이진 마스크인 상기 잔여 움직임 마스크를 획득하는 잔여 움직임 마스크 획득부를 더 포함할 수 있다.

상기 동적 객체 검출부는 상기 제2 프레임과 상기 배경 마스크를 인가받아, 상기 제2 프레임을 상기 배경 마스크로 마스킹하여 상기 제2 프레임에서 동적 객체가 위치하는 동적 객체 영역을 검출하는 동적 객체 영역 검출부를 포함할 수 있다.

상기 동적 객체 검출부는 미리 학습된 인공 신경망으로 구현되고, 검출된 상기 동적 객체 영역을 인가받아 신경망 연산을 수행하여, 상기 동적 객체 영역에 포함된 동적 객체를 식별하는 객체 식별부를 더 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 동적 객체 검출 방법은 시간적으로 연속하는 제1 및 제2 프레임 사이에서 변화가 발생된 움직임 영역을 검출하여 초기 마스크를 획득하는 단계; 상기 초기 마스크와 상기 제1 프레임을 인가받고, 미리 학습된 방식에 따라 신경망 연산을 수행하여, 상기 제1 프레임을 기반으로 상기 초기 마스크에 의해 지정된 움직임 영역을 배경으로 채워 배경 강화 이미지를 획득하는 단계; 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 동적 객체 영역과 함께 배경의 잔여 움직임 영역을 검출하여 잔여 움직임 마스크를 생성하고, 미리 학습된 방식에 따라 상기 제2 프레임을 기반으로 상기 잔여 움직임 마스크에서 잔여 움직임 영역이 배경으로 구분된 배경 마스크를 획득하는 단계; 및 상기 제2 프레임에서 상기 배경 마스크에 의해 마스킹 되지 않는 동적 객에 영역을 검출하는 단계를 포함한다.

따라서, 본 발명의 실시예에 따른 동적 객체 검출 장치 및 방법은 연속하는 2장의 프레임만을 이용하여 배경을 슈퍼 픽셀로 모델링한 후, 슈퍼 픽셀로부터 상세한 픽셀 단위의 배경 모델을 생성함으로써, 낮은 연산 복잡도로 배경의 순간적인 변화나 동적 배경에도 강건한 배경 모델을 생성할 수 있어 실시간에 가까운 고속으로 동적 객체를 정확하게 검출할 수 있다.

도 1은 본 발명의 일 실시예에 따른 동적 객체 검출 장치의 개략적 구조를 나타낸다.
도 2는 도 1의 동적 객체 검출 장치의 각 구성별 동작을 설명하기 위한 도면이다.
도 3은 프레임 이미지와 슈퍼 픽셀 이미지 및 배경 강화 이미지의 일 예를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 동적 객체 검출 방법을 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 동적 객체 검출 장치의 개략적 구조를 나타내고, 도 2는 도 1의 동적 객체 검출 장치의 각 구성별 동작을 설명하기 위한 도면이다.

도 1 및 도 2를 참조하면, 본 실시예에 따른 동적 객체 검출 장치는 영상 획득부(100), 초기 마스크 획득부(200), 배경 인페인팅부(300), 배경 마스크 획득부(400) 및 동적 객체 검출부(500)를 포함할 수 있다.

영상 획득부(100)는 시간적으로 연속하는 2개의 프레임을 포함하는 영상을 획득한다. 여기서 2개의 프레임 각각은 RGB 이미지이며, 카메라 또는 CCTV와 같이 이미지 센서를 이용하여 영상을 획득할 수 있는 영상 획득 모듈로 구현되거나, 미리 획득된 영상이 저장된 메모리 모듈 등으로 구현될 수 있다. 또한 경우에 따라서는 영상을 획득한 다른 장치로부터 네트워크를 통해 영상을 전송받는 통신 모듈로 구현될 수도 있다.

영상 획득부(100)는 2개 이상의 다수의 프레임을 포함하는 영상을 획득할 수 있으나, 본 실시예에서 동적 객체 검출 장치는 2개의 연속하는 프레임(I_t, I_t+1)으로도 배경을 모델링하여 동적 객체를 검출할 수 있으므로, 영상 획득부(100)는 수십개의 프레임을 요구하는 기존과 달리 단지 2개의 연속하는 프레임(I_t, I_t+1)을 획득하여도 된다.

본 실시예에 따른 동적 객체 검출 장치는 기본적으로 기존의 동적 객체 검출 방법 중 배경 차감 기법에 기반하여 동적 객체를 검출한다. 다만, 기존의 배경 차감 기법에서 동적 객체가 배제된 완전한 배경 모델을 획득하기 위해서는 각 픽셀 위치에서 다수의 프레임 중 적어도 하나가 동적 객체가 아닌 배경을 나타내어야 하므로, 매우 많은 수(예를 들면 50개 이상)의 프레임이 필요하였다. 이는 획득된 다수의 프레임에서 직접 배경을 추출하기 때문이다.

그에 반해, 본 실시예에 따른 동적 객체 검출 장치는 배경 차감 기법을 이용하기 위해 배경을 모델링하지만, 후술하는 바와 같이, 획득된 프레임에서 동적 객체에 의해 가려진 배경 영역을 생성하여 배경 모델을 획득하도록 구성되므로 단지 연속하는 2개의 프레임(I_t, I_t+1)만을 획득하여도 배경을 모델링할 수 있다. 즉 대량의 프레임을 요구하지 않는다. 여기서 연속하는 2개의 프레임(I_t, I_t+1)은 프레임에서 변화가 발생하는 영역, 즉 동적 객체가 존재할 가능성이 있는 영역을 판별하기 위해 이용된다.

초기 마스크 획득부(200)는 영상 획득부(100)에서 획득된 연속하는 2개의 프레임(I_t, I_t+1)을 인가받고, 인가된 2개의 프레임(I_t, I_t+1)에서 변화가 발생된 영역을 검출하여 초기 마스크를 생성한다.

초기 마스크 획득부(200)는 차분 검출부(210), 차분맵 결합부(220) 및 시간 차분부(230)를 포함할 수 있다.

차분 검출부(210)는 영상 획득부(100)로부터 연속하는 2개의 프레임(I_t, I_t+1)을 인가받아, 2개의 프레임(I_t, I_t+1)에서 동일 위치의 픽셀을 차분하여, 차분맵(d_t,t+1)을 획득한다. 구체적으로 차분 검출부(210)는 각각 RGB 이미지로 획득된 2개의 프레임(I_t, I_t+1)에서 서로 대응하는 픽셀의 픽셀값 차이를 계산하여 차분맵(d_t,t+1)을 획득하며, 이때, 각 픽셀값은 RGB 색상에 따른 3채널 벡터로서 고려되어, 3채널 벡터 공간에서의 픽셀간 거리로 차분맵(d_t,t+1)이 획득될 수 있다.

즉 2개의 프레임(I_t, I_t+1) 중 시간적으로 이전 획득된 제1 프레임(I_t)은 각 위치(x, y)의 픽셀값이 RGB 색상에 따라 3채널 벡터이므로, 수학식 1과 같이 R 이미지(I^R), G 이미지(I^G) 및 B 이미지(I^B)를 원소로 하는 이미지로 볼 수 있다.

그리고 차분맵(d_t,t+1)은 3 채널 RGB 공간에서 2개의 프레임(I_t, I_t+1)의 서로 대응하는 픽셀간 유클리드 거리(Euclidean distance)로 수학식 2와 같이 계산되어 획득될 수 있다.

여기서 ∥·∥₂ 는 L2 벡터 놈 함수이다.

도 2에 도시된 바와 같이, 차분맵(d_t,t+1)이 3개 채널의 RGB 평면에서 픽셀간 거리로 획득되므로, 차분맵(d_t,t+1)의 각 픽셀값은 그레이 스케일의 값으로 획득된다. 그리고 일반적으로 연속하는 2개의 프레임(I_t, I_t+1) 사이의 차이는 매우 작으므로, 대부분의 영역에서는 픽셀간 차이가 없어 0에 가까운 값으로 계산된다.

차분맵 결합부(220)는 2개의 프레임(I_t, I_t+1)과 차분맵(d_t,t+1)을 인가받아 결합(concatenation)하여, 결합 차분맵을 시간 차분부(230)로 인가한다.

한편 시간 차분부(230)는 2개의 프레임(I_t, I_t+1)과 차분맵(d_t,t+1)이 결합된 결합 차분맵을 인가받아, 2개의 프레임(I_t, I_t+1)에서 동적 영역을 검출하여 초기 마스크(

)를 획득한다.

시간 차분부(230)는 미리 학습된 인공 신경망으로 구현되어, 결합 차분맵에 대해 학습된 방식에 따른 신경망 연산을 수행함으로써, 2개의 프레임(I_t, I_t+1) 사이에서 움직임이 발생된 움직임 영역을 검출하고, 검출된 움직임 영역과 나머지 영역을 구분하여 이진 마스크 형태의 초기 마스크(

)를 생성한다.

인공 신경망으로 구현되는 시간 차분부(230)는 다수의 레이어 중 하나의 레이어(일반적으로 마지막 레이어)에 활성화 함수(Activation Function)로서 시그모이드 함수(sigmoid function)를 이용할 수 있으며, 시그모이드 함수는 각 픽셀이 0과 1 사이의 확률값을 갖도록 하여, 확률값에 따라 배경 또는 전경으로 구분되는 이진 마스크 형태의 초기 마스크(

)를 획득할 수 있도록 한다.

차분맵(d_t,t+1)이 2개의 프레임(I_t, I_t+1) 사이의 변화를 검출하지만, 2개의 프레임(I_t, I_t+1) 사이의 시간적 간격이 짧기 때문에, 검출된 변화는 움직임이 있는 물체의 경계 영역만이 명확하게 나타난다. 일 예로 도 2에 도시된 바와 같이, 보트와 사람과 같은 물체가 존재하는 영상에서 2개의 프레임(I_t, I_t+1) 사이의 시간 차에 의해 물체와 배경이 변화되는 물체 경계에서만 큰 픽셀 변화가 나타나게 되고, 나머지 영역은 픽셀 변화가 두드러지게 나타나지 않는다. 즉 움직이는 물체의 내부 영역은 유사한 색상이나 패턴을 가지므로, 실제 움직임이 발생했더도 픽셀값의 차이가 크지 않아 차분맵(d_t,t+1)에서 잘 나타나지 않는다.

따라서 시간 차분부(230)는 차분맵(d_t,t+1)과 2개의 프레임(I_t, I_t+1)을 인가받아 학습된 방식에 따라 신경망 연산을 수행함으로써, 차분맵(d_t,t+1)에서 획득된 경계로부터 움직이는 물체 영역을 나타내는 경계 내부 영역과 외부 영역을 구분함으로써 초기 마스크(

)를 획득한다. 다만 시간 차분부(230)는 차분맵(d_t,t+1)으로 획득된 경계에 따라 단순히 경계 내부 영역만을 검출한다. 따라서 동적 객체가 아닌 배경에서도 물결과 같은 움직임 의해 차분맵(d_t,t+1)에 경계가 나타난 경우, 시간 차분부(230)는 해당 경계 영역을 동적 객체 영역과 마찬가지로 움직임 영역으로 구분하게 된다. 이에 도 2에 나타난 바와 같이, 초기 마스크(

)에는 동적 객체 영역뿐만 아니라, 배경에서의 움직임에 따른 영역도 나머지 영역과 구분되었음을 알 수 있다.

상기한 시간 차분부(230)는 인공 신경망으로 구현되므로 차분맵(d_t,t+1)을 제외한 2개의 프레임(I_t, I_t+1)만으로도 초기 마스크(

)를 획득하도록 학습될 수 있다. 다만, 2개의 프레임(I_t, I_t+1)만을 이용하여 초기 마스크(

)를 획득하는 경우, 인공 신경망이 더 많은 연산을 수행하도록 구성되어야 할 뿐만 아니라, 움직임 영역을 검출하는 성능이 저하될 수 있다.

이러한 문제를 방지하기 위해 본 실시예의 초기 마스크 획득부(200)는 차분 검출부(210)를 포함하여, 미리 2개의 프레임(I_t, I_t+1) 사이의 차이를 나타내는 차분맵(d_t,t+1)을 간단한 연산을 통해 획득하여, 이를 강조맵으로 시간 차분부(230)로 전송함으로써, 시간 차분부(230)가 더 적은 연산으로도 높은 움직임 영역 검출 성능을 가질 수 있도록 한다.

배경 인페인팅부(300)는 초기 마스크 획득부(200)에서 획득된 초기 마스크(

)와 제1 프레임(I_t)을 인가받고, 제1 프레임(I_t)을 기반으로 초기 마스크(

)에 의해 지정된 움직임 영역을 배경으로 채워 배경 이미지(

)를 생성한다.

배경 인페인팅부(300)는 제1 마스크 결합부(310), 배경 채움부(320), 제2 마스크 결합부(330) 및 배경 강화부(340)를 포함할 수 있다.

제1 마스크 결합부(310)는 초기 마스크(

)와 제1 프레임(I_t)을 인가받아 결합한다. 제1 마스크 결합부(310)는 우선 초기 마스크(

)와 제1 프레임(I_t)을 원소 곱(Hadamard product)하여 마스킹된 제1 프레임을 획득한다. 여기서 마스킹된 제1 프레임은 제1 프레임(I_t)에서 움직임 영역을 제외한 나머지 영역이 초기 마스크(

)에 의해 제거되어 움직임 영역의 픽셀 정보만이 포함된다. 그리고 제1 프레임(I_t)에서 마스킹된 제1 프레임을 차감하여, 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 정적 마스크 이미지(

)를 획득한다. 정적 마스크 이미지(

)에서 움직임 영역의 픽셀값은 제거된 상태(예를 들면 픽셀값이 0)로 획득된다.

그리고 정적 마스크 이미지(

)와 초기 마스크(

)를 결합하여, 마스크 결합 정적 이미지를 출력한다.

배경 채움부(320)는 마스크 결합 정적 이미지를 인가받아, 초기 마스크(

)에 의해 지정된 움직임 영역, 즉 정적 마스크 이미지(

)에서 픽셀값이 누락된 영역을 주변 픽셀값을 이용하여 슈퍼 픽셀(super-pixel) 수준으로 개략적으로 채워 슈퍼 픽셀 이미지(

)를 획득한다.

배경 채움부(320)는 미리 학습된 인공 신경망으로 구현되어, 학습된 방식에 따라 신경망 연산을 수행하여 마스크 결합 정적 이미지에서 픽셀값이 누락된 영역의 다수의 픽셀들을 유사한 특성을 가져야 하는 주변 픽셀과 함께 클러스터링하고, 다수의 클러스터 각각에 대한 대표 픽셀값인 슈퍼 픽셀값을 추정하여 누락된 영역의 픽셀값을 채움으로써, 슈퍼 픽셀 이미지(

)를 획득할 수 있다. 이때 배경 채움부(320)는 누락 영역의 주변 픽셀의 위치별 픽셀값 변화에 따라 누락 영역에 포함된 다수의 픽셀을 서로 다른 클러스터로 클러스터링하고, 동일 클러스터에 포함된 픽셀들의 픽셀값을 대응하는 주변 픽셀의 픽셀값의 대표값인 슈퍼 픽셀값으로 지정하여 슈퍼 픽셀 이미지(

)를 획득한다.

여기서 배경 채움부(320)의 동작은 수학식 3으로 표현될 수 있다.

수학식 3에 따르면, 배경 채움부(320)는 정적 마스크 이미지(

)에서 누락된 영역의 픽셀값을 주변 픽셀에 따른 슈퍼 픽셀값으로 채운 슈퍼 이미지(I_SP)에 초기 마스크(

)를 결합하여, 누락된 영역에 대한 픽셀값만이 남도록 한 뒤 다시, 누락된 영역이 존재하는 정적 마스크 이미지(

)와 결합함으로서, 누락된 영역이 슈퍼 픽셀값으로 채워진 슈퍼 픽셀 이미지(

)를 획득하는 것으로 볼 수 있다.

도 2에 도시된 바와 같이, 슈퍼 픽셀 이미지(

)는 누락된 영역이 없는 배경 이미지의 형태로 획득되지만, 누락된 영역에 포함된 픽셀들의 픽셀값이 대표값인 슈퍼 픽셀값으로 지정되어, 제1 프레임(I_t)에서의 움직임 영역은 다른 영역에 비해 흐리게 나타나게 되었음을 알 수 있다.

제2 마스크 결합부(330)는 슈퍼 픽셀 이미지(

)와 초기 마스크(

)를 인가받아 결합하여, 마스크 결합 슈퍼 픽셀 이미지를 획득하여 배경 강화부(340)로 인가한다.

배경 강화부(340)는 마스크 결합 슈퍼 픽셀 이미지를 인가받아 슈퍼 픽셀 이미지(

)에서 슈퍼 픽셀로 채워져 흐리게 나타난 움직임 영역의 각 픽셀값을 주변 픽셀값을 기반으로 다시 추정하여 원본 이미지인 제1 프레임(I_t)과 유사한 품질의 배경 강화 이미지(

)를 획득한다.

배경 강화부(340) 또한 미리 학습된 이공 신경망으로 구현되어, 학습된 방식에 따라 마스크 결합 슈퍼 픽셀 이미지에 대해 신경망 연산을 수행하여, 초기 마스크(

)에 의해 확인되는 움직임 영역의 각 픽셀값을 슈퍼 픽셀 이미지(

)를 기반으로 재추정한다.

여기서 재추정된 픽셀값을 갖는 이미지를 재추정 이미지(I_E)라고 할 수 있으며, 배경 강화부(340)의 동작은 수학식 4로 표현될 수 있다.

즉 배경 강화부(340)는 움직임 영역의 픽셀값이 재추정된 재추정 이미지(I_E)에 초기 마스크(

)를 결합하여, 움직임 영역에 대해 재추정된 픽셀값만이 남도록 한 뒤 다시, 정적 마스크 이미지(

)와 결합함으로서, 움직임 영역이 재추정된 픽셀값으로 채워진 배경 강화 이미지(

)를 획득하는 것으로 볼 수 있다.

본 실시예에서 배경 인페인팅부(300)가 배경 채움부(320)와 배경 강화부(340)를 별도로 구비하여, 슈퍼 픽셀 이미지(

)를 먼저 획득하고, 이후 배경 강화 이미지(

)를 획득하는 것은 더욱 정확하게 추정된 배경 이미지를 획득하기 위해서이다. 본 실시예에서 배경 강화 이미지(

)는 배경 모델링에 의해 획득된 배경 모델이자, 배경 이미지이다.

배경 인페인팅부(300)는 배경 채움부(320)를 구비하지 않고 배경 강화부(340)만을 포함하여도, 움직임 영역이 채워진 배경 이미지를 획득할 수 있다. 다만, 움직임 영역이 크게 형성된 경우, 움직임 영역에 포함된 픽셀들이 잘못된 주변 픽셀을 참조하여 픽셀값을 채워, 픽셀값에 오차가 포함되는 경우가 빈번하게 발생하게 된다. 즉 배경 이미지에 노이즈가 포함될 수 있으며, 이는 부정확한 배경 모델을 생성하여 동적 객체 검출에 오류가 발생하게 하는 요인이 될 수 있다. 이에 본 실시에의 배경 인페인팅부(300)는 배경 채움부(320)를 이용하여 움직임 영역의 픽셀값을 슈퍼 픽셀의 픽셀값으로 개략적으로 먼저 채운 이후, 배경 강화부(340)를 이용하여 다시 각 픽셀값을 정밀하게 재추정하여 배경 강화 이미지(

)를 획득함으로써 정확한 배경 모델을 획득한다.

도 3은 프레임 이미지와 슈퍼 픽셀 이미지 및 배경 강화 이미지의 일 예를 나타낸다.

도 3에서 a)는 3개의 서로 다른 데이터 셋의 2개의 프레임(I_t, I_t+1)을 나타내고, b)는 a)의 프레임(I_t, I_t+1)들로부터 획득된 슈퍼 픽셀 이미지(

)를 나타내며, c)는 b)의 슈퍼 픽셀 이미지(

)에서 획득된 배경 강화 이미지(

)를 나타낸다.

도 3에 도시된 바와 같이, 본 실시예에서 배경 인페인팅부(300)는 배경 채움부(320)와 배경 강화부(340)를 포함하여 움직임 영역의 픽셀값을 추정함으로써, 원본 프레임(I_t)과 유사한 품질로 모델링된 배경 이미지를 획득할 수 있다.

배경 마스크 획득부(400)는 배경 강화 이미지(

)와 제2 프레임(I_t+1)을 인가받아 제2 프레임(I_t+1)에서 배경 영역을 마스킹하여 전경 영역만이 나타날 수 있도록 하는 배경 마스크(M_t+1)를 획득한다. 즉 연속하는 2개의 프레임(I_t, I_t+1) 중 시간적으로 이후에 입력된 제2 프레임(I_t+1)에서 배경을 제거하기 위한 배경 마스크(M_t+1)를 획득한다.

배경 마스크 획득부(400)는 잔여 움직임 마스크 획득부(410), 제3 마스크 결합부(420) 및 전경 분할부(430)를 포함할 수 있다.

잔여 움직임 마스크 획득부(410)는 배경 강화 이미지(

)와 제2 프레임(I_t+1)을 인가받아 배경 강화 이미지(

)와 제2 프레임(I_t+1) 사이의 그레이스케일에서의 차이에 따라 이진 마스크 형태를 갖는 잔여 움직임 마스크(

)를 획득한다.

배경 마스크 획득부(400)는 배경 강화 이미지(

)가 원본 프레임(I_t)과 유사한 품질로 배경이 모델링된 배경 이미지이므로, 제2 프레임(I_t+1)과 배경 강화 이미지(

) 사이의 차이로 동적 객체 영역과 배경 영역을 구분해야 한다.

그러나 배경 강화 이미지(

)가 기본적으로 제1 프레임(I_t)을 기반으로 획득되므로, 제2 프레임(I_t+1)과의 차이가 존재할 수 있으며, 특히 동적 객체 이외에 배경에서 움직임에 의한 움직임 영역의 잔재가 여전히 존재할 수 있다.

이에 잔여 움직임 마스크 획득부(410)는 이와 같은 배경의 움직임 잔재를 제거할 수 있도록 배경 강화 이미지(

)와 제2 프레임(I_t+1) 사이의 차이에 따른 잔여 움직임 영역을 나타내는 잔여 움직임 마스크(

)를 획득한다.

여기서 잔여 움직임 마스크(

)는 수학식 5와 같이 계산되어 획득될 수 있다.

여기서 Π(a,b)는 2개의 이미지(a, b)를 그레이스케일로 변환한 후, 차분하는 그래이스케일 변환 차분연산자이다.

제3 마스크 결합부(420)는 배경 강화 이미지(

)와 제2 프레임(I_t+1) 및 잔여 움직임 마스크(

)를 결합하여 마스크 결합 배경 강화 이미지를 획득하고, 획득된 마스크 결합 배경 강화 이미지를 전경 분할부(430)로 전달한다.

전경 분할부(430)는 미리 학습된 인공 신경망으로 구현되어, 학습된 방식에 따라 마스크 결합 배경 강화 이미지에 대해 신경망 연산을 수행하여, 배경 마스크(M_t+1)를 획득한다.

전경 분할부(430)는 배경 강화 이미지(

)와 제2 프레임(I_t+1)을 기반으로 잔여 움직임 마스크(

)에서 지정된 잔여 움직임 영역에서 동적 객체에 의한 잔여 움직임 영역과 배경의 움직임에 의한 잔여 움직임 영역을 구분하여, 동적 객체에 의한 잔여 움직임 영역은 유지하되 배경의 움직임에 의한 잔여 움직임 영역을 다른 배경 영역과 마찬가지로 마스킹하여, 전경과 배경을 분할함으로써 배경 마스크를 획득한다.

동적 객체 검출부(500)는 제2 프레임(I_t+1)과 배경 마스크(M_t+1)를 인가받고, 제2 프레임(I_t+1)을 배경 마스크(M_t+1)로 마스킹함으로써, 동적 객체 영역을 검출한다. 그리고 동적 객체 검출부(500)는 미리 학습된 인공 신경망을 이용하여 동적 객체 영역에 대해 학습된 방식에 따라 신경망 연산을 수행하여 검출된 동적 객체 영역의 객체를 식별할 수도 있다. 이 경우, 동적 객체 검출부(500)는 동적 객체 영역을 검출하는 동적 객체 영역 검출부와 인공 신경망으로 구현되어 동적 객체를 식별하는 객체 식별부로 구성될 수 있다.

한편 본 실시예의 동적 객체 검출 장치에서는 다수의 인공 신경망이 이용되므로, 다수의 인공 신경망을 학습시키기 위한 학습부(미도시)가 더 포함될 수 있다.

학습부는 우선 시간 차분부(230)를 학습시키기 위한 시간 차분 손실(L_TD)을 시간 차분부(230)에서 획득된 초기 마스크(

)와 두 프레임(I_t, I_t+1) 사이의 차이를 기반으로 움직임 영역을 미리 검출하여 획득된 초기 마스크의 진리값(M_i(t,t+1))을 이용하여 수학식 6과 같이 계산한다.

그리고 학습부는 배경 인페인팅부(300)의 배경 채움부(320)와 배경 강화부(340)를 학습시키기 위해, 동적 객체가 포함되지 않고 배경만이 포함되도록 별도로 획득된 진리 이미지(I^GT)를 이용한다.

학습부는 배경 채움부(320)를 학습시키기 위한 슈퍼 픽셀 손실(L_SP)을 수학식 7에 따라 계산할 수 있다.

여기서 I_SP는 상기한 바와 같이, 정적 마스크 이미지(

)에서 누락된 영역의 픽셀값을 주변 픽셀에 따른 슈퍼 픽셀값으로 채운 슈퍼 이미지(I_SP)이고,

는 진리 이미지(I^GT)의 픽셀들을 클러스터링하여 슈퍼 픽셀의 픽셀값으로 치환하여 획득된 진리 슈퍼 픽셀 이미지이다.

또한 학습부는 배경 강화부(340)를 학습시키기 위해 컨텍스트 재구성(contextual-reconstruction) 손실(

)과 MSE(Mean Squared Error) 손실(

)을 각각 계산한다. 컨텍스트 재구성 손실(

)은 움직임 영역에서 픽셀값이 재추정된 재추정 이미지(I_E)와 진리 이미지(I^GT) 사이의 오차로 수학식 8로 계산될 수 있다.

그리고 MSE 손실(

)은 재추정 이미지(I_E)에 포함된 고주파수 세부 사항에 내재된 불확실성을 제어하기 위한 손실로서 수학식 9로 계산될 수 있다.

한편, 학습부는 전경 분할부(430)를 학습시키기 위해, 가중 이진 교차 엔트로피 손실을 나타내는 전경 손실(L_FG)을 수학식 10에 따라 계산한다.

여기서

는 제2 프레임(I_t+1)에서 전경과 배경이 미리 분리되어 획득된 진리 배경 마스크이고, β는 참인 양수를 증가시키면서 거짓 음수를 줄이기 위해 사용되는 밸런스 파라미터이다.

수학식 6 내지 10에 따라 시간 차분 손실(L_TD), 슈퍼 픽셀 손실(L_SP), 컨텍스트 재구성 손실(

), MSE 손실(

) 및 전경 손실(L_FG)이 계산되면, 학습부는 총 손실(L)을 수학식 11에 따라 계산하고, 계산된 총 손실(L)을 역전파하여 동적 객체 검출 장치의 인공 신경망을 학습시킨다.

여기서 λ_SP, 및 λ_E 는 손실 가중치이다.

학습부는 기지정된 횟수만큼 반복하여 학습을 수행하거나 계산된 총 손실(L)이 기지정된 문턱값 이하가 될 때까지 반복하여 학습을 수행할 수 있다.

그리고 학습부는 동적 객체 검출 장치의 인공 신경망을 학습시키는 학습 시에만 구비되고, 학습이 완료된 이후에는 제거될 수도 있다.

결과적으로 본 실시예에 따른 동적 객체 검출 장치는 단지 연속하는 2개의 프레임(I_t, I_t+1)만으로도 동적 객체가 제거된 배경 이미지를 용이하게 모델링할 수 있으며, 모델링된 배경 이미지를 기반으로 동적 객체 영역을 정확하게 검출할 수 있다. 따라서 낮은 연산 복잡도로 배경의 순간적인 변화나 동적 배경에도 강건한 배경 모델을 생성할 수 있어 실시간에 가까운 고속으로 동적 객체를 정확하게 검출할 수 있다.

도 4는 본 발명의 일 실시예에 따른 동적 객체 검출 방법을 나타낸다.

도 1 및 도 2를 참조하여, 도 4의 동적 객체 검출 방법은 초기 마스크 획득 단계와 배경 모델링 단계, 배경 마스크 추출 단계 및 동적 객체 검출 단계를 포함할 수 있다.

초기 마스크 획득 단계에서는 우선 시간적으로 연속하는 2개의 프레임(I_t, I_t+1)을 획득한다(S10). 그리고 2개의 프레임(I_t, I_t+1) 사이의 차이를 RGB 평면에서 2개의 프레임(I_t, I_t+1)의 서로 대응하는 픽셀간 유클리드 거리로 계산하여 차분맵(d_t,t+1)을 획득한다(S20).

이후 미리 학습된 인공 신경망에 2개의 프레임(I_t, I_t+1)과 차분맵(d_t,t+1)을 입력하여, 신경망 연산을 수행함으로써 움직임이 발생된 움직임 영역과 나머지 영역이 이진 마스크 형태로 구분된 초기 마스크(

)를 생성한다(S30).

초기 마스크(

)가 획득되면, 배경 모델링 단계에서는 제1 프레임(I_t)에서 초기 마스크(

)에 의해 지정되는 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 정적 마스크 이미지(

)를 획득한다(S40).

그리고 미리 학습된 인공 신경망에 정적 마스크 이미지(

)와 초기 마스크(

)를 입력하여 신경망 연산함으로써 초기 마스크(

)에 의해 지정된 움직임 영역, 즉 정적 마스크 이미지(

)에서 픽셀값이 누락된 영역을 주변 픽셀값을 기반으로 다수의 클러스터로 클러스터링하고, 각 클러스터를 주변 픽셀값을 기반으로 획득되는 대표 픽셀값인 슈퍼 픽셀값을 갖는 슈퍼 픽셀로 채워 슈퍼 픽셀 이미지(

)를 획득한다(S50).

슈퍼 픽셀 이미지(

)가 획득되면, 미리 학습된 인공 신경망에 슈퍼 픽셀 이미지(

)와 초기 마스크(

)를 입력하고 신경망 연산을 수행하여, 슈퍼 픽셀 이미지(

)에서 슈퍼 픽셀로 채워진 영역의 각 픽셀값을 재추정함으로써, 제1 프레임(I_t)과 유사한 품질의 배경 강화 이미지(

)를 획득한다(S60).

여기서 배경 강화 이미지(

)는 제1 프레임(I_t)에서 동적 객체 영역이 인공 신경망에 의해 추정된 배경으로 채워져 모델링된 배경 모델이다.

배경 마스크 획득 단계에서는 배경 강화 이미지(

)와 제2 프레임(I_t+1) 사이의 그레이스케일에서의 차이를 계산하여, 초기 마스크(

)의 동적 객체 영역과 배경 움직임 영역 중 제거되지 않은 배경의 잔여 움직임 영역이 이진 마스크 형태로 나타나는 잔여 움직임 마스크(

)를 획득한다(S70).

그리고 배경 강화 이미지(

)와 제2 프레임(I_t+1) 및 잔여 움직임 마스크(

)를 미리 학습된 인공 신경망에 인가하여 신경망 연산을 수행함으로써, 배경의 잔여 움직임 영역을 제거하여 동적 객체 영역인 전경과 배경이 구분된 배경 마스크(M_t+1)를 생성한다(S80).

배경 마스크(M_t+1)가 생성되면, 동적 객체 검출 단계에서는 제2 프레임(I_t+1)을 배경 마스크(M_t+1)로 마스킹함으로써, 동적 객체 영역을 검출한다(S90). 동적 객체 검출 단계는 검출된 동적 객체 영역에 대해 인공 신경망을 이용하여 미리 학습된 방식에 따라 신경망 연산을 수행함으로써 검출된 동적 객체 영역의 객체를 식별하는 단계를 더 포함할 수도 있다.

본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100: 영상 획득부 200: 초기 마스크 획득부
210: 차분 검출부 220: 차분맵 결합부
230: 시간 차분부 300: 배경 인페인팅부
310: 제1 마스크 결합부 320: 배경 채움부
330: 제2 마스크 결합부 340: 배경 강화부
400: 배경 마스크 획득부 410: 잔여 움직임 마스크 획득부
420: 제3 마스크 결합부 430: 전경 분할부
500: 동적 객체 검출부

Claims

시간적으로 연속하는 제1 및 제2 프레임 사이에서 변화가 발생된 움직임 영역을 검출하여 초기 마스크를 획득하는 초기 마스크 획득부;
상기 초기 마스크와 상기 제1 프레임을 인가받고, 미리 학습된 방식에 따라 신경망 연산을 수행하여, 상기 제1 프레임을 기반으로 상기 초기 마스크에 의해 지정된 움직임 영역을 배경으로 채워 배경 강화 이미지를 획득하는 배경 인페인팅부;
상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 동적 객체 영역과 함께 배경의 잔여 움직임 영역을 검출하여 잔여 움직임 마스크를 생성하고, 미리 학습된 방식에 따라 상기 제2 프레임을 기반으로 상기 잔여 움직임 마스크에서 잔여 움직임 영역이 배경으로 구분된 배경 마스크를 획득하는 배경 마스크 획득부; 및
상기 제2 프레임에서 상기 배경 마스크에 의해 마스킹 되지 않는 동적 객에 영역을 검출하는 동적 객체 검출부를 포함하는 동적 객체 검출 장치.
제1항에 있어서, 상기 초기 마스크 획득부는
상기 제1 및 제2 프레임을 인가받아, 상기 제1 및 제2 프레임에서 동일 위치의 픽셀을 차분하여 차분맵을 획득하는 차분 검출부; 및
미리 학습된 인공 신경망으로 구현되고, 상기 제1 및 제2 프레임과 상기 차분맵을 인가받아 신경망 연산을 수행하여 상기 제1 및 제2 프레임 사이에 움직임이 발생된 움직임 영역과 나머지 영역을 상기 차분맵을 기반으로 구분하여 상기 초기 마스크를 이진 마스크 형태로 생성하는 시간 차분부를 포함하는 동적 객체 검출 장치.
제2항에 있어서, 상기 차분 검출부는
RGB 이미지인 상기 제1 및 제2 프레임에서 3 채널 RGB 공간 상의 벡터로 표현되는 서로 대응하는 픽셀 사이의 유클리드 거리로 계산하여 상기 차분맵을 획득하는 동적 객체 검출 장치.
제2항에 있어서, 상기 배경 인페인팅부는
미리 학습된 인공 신경망으로 구현되고, 상기 제1 프레임에서 상기 초기 마스크에 의해 지정되는 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 정적 마스크 이미지와 상기 초기 마스크를 인가받아 신경망 연산하여, 정적 마스크 이미지에서 상기 초기 마스크에 의해 지정된 움직임 영역의 픽셀값을 주변 픽셀값을 기반으로 하는 대표 값인 슈퍼 픽셀값을 갖는 슈퍼 픽셀로 채워 슈퍼 픽셀 이미지를 획득하는 배경 채움부; 및
미리 학습된 인공 신경망으로 구현되고, 상기 슈퍼 픽셀 이미지와 상기 초기 마스크를 인가받아 신경망 연산하여, 상기 슈퍼 픽셀 이미지에서 슈퍼 픽셀로 채워진 움직임 영역의 각 픽셀값을 주변 픽셀값을 기반으로 재추정하여 배경 강화 이미지를 획득하는 배경 강화부를 포함하는 동적 객체 검출 장치.
제4항에 있어서, 상기 배경 인페인팅부는
상기 초기 마스크와 상기 제1 프레임을 원소 곱하여 마스킹된 제1 프레임을 획득하고, 상기 제1 프레임에서 상기 마스킹된 제1 프레임을 차감하여, 상기 초기 마스크에 의해 지정된 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 상기 정적 마스크 이미지를 획득하는 제1 마스크 결합부를 더 포함하는 동적 객체 검출 장치.
제4항에 있어서, 상기 배경 마스크 획득부는
미리 학습된 인공 신경망으로 구현되고, 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이에 따라 획득되는 잔여 움직임 마스크를 상기 배경 강화 이미지와 상기 제2 프레임과 함께 인가받아 신경망 연산하여, 상기 잔여 움직임 마스크에서 지정된 잔여 움직임 영역에서 동적 객체에 의한 잔여 움직임 영역과 배경의 움직임에 의한 잔여 움직임 영역을 구분하고, 구분된 배경의 움직임에 의한 잔여 움직임 영역을 상기 잔여 움직임 마스크의 배경으로 전환하여 상기 배경 마스크를 획득하는 전경 분할부를 포함하는 동적 객체 검출 장치.
제6항에 있어서, 상기 배경 마스크 획득부는
상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 상기 제2 프레임에서 상기 배경 강화 이미지와 상이하게 나타나는 잔여 움직임 영역을 지정하는 이진 마스크인 상기 잔여 움직임 마스크를 획득하는 잔여 움직임 마스크 획득부를 더 포함하는 동적 객체 검출 장치.
제6항에 있어서, 상기 동적 객체 검출부는
상기 제2 프레임과 상기 배경 마스크를 인가받아, 상기 제2 프레임을 상기 배경 마스크로 마스킹하여 상기 제2 프레임에서 동적 객체가 위치하는 동적 객체 영역을 검출하는 동적 객체 영역 검출부를 포함하는 동적 객체 검출 장치.
제8항에 있어서, 상기 동적 객체 검출부는
미리 학습된 인공 신경망으로 구현되고, 검출된 상기 동적 객체 영역을 인가받아 신경망 연산을 수행하여, 상기 동적 객체 영역에 포함된 동적 객체를 식별하는 객체 식별부를 더 포함하는 동적 객체 검출 장치.
제6항에 있어서, 상기 동적 객체 검출 장치는
학습 과정에서 인공 신경망으로 구현되는 상기 시간 차분부와 상기 배경 채움부, 상기 배경 강화부 및 상기 전경 분할부를 학습시키기 위한 학습부를 더 포함하고,
상기 학습부는
상기 시간 차분부를 학습시키기 위한 시간 차분 손실(L_TD)초기 마스크(
)와 두 프레임(I_t, I_t+1) 사이의 차이를 기반으로 움직임 영역을 미리 검출하여 획득된 초기 마스크의 진리값(M_i(t,t+1))을 이용하여 수학식

에 따라 계산하고,
상기 배경 채움부를 학습시키기 위한 슈퍼 픽셀 손실(L_SP)을 수학식

(여기서 I_SP는 정적 마스크 이미지(
)에서 누락된 영역의 픽셀값을 주변 픽셀에 따른 슈퍼 픽셀값으로 채운 슈퍼 이미지(I_SP)이고,
는 진리 이미지(I^GT)의 픽셀들을 클러스터링하여 슈퍼 픽셀의 픽셀값으로 치환하여 획득된 진리 슈퍼 픽셀 이미지이다.)
에 따라 계산하며,
상기 배경 강화부를 학습시키기 위한 컨텍스트 재구성 손실(
)과 MSE 손실(
) 중 상기 재구성 손실(
)을 움직임 영역에서 픽셀값이 재추정된 재추정 이미지(I_E)와 진리 이미지(I^GT) 사이의 오차로 수학식

으로 계산하고,
상기 MSE 손실(
)을 수학식

으로 계산하며,
상기 전경 분할부를 학습시키기 위해 가중 이진 교차 엔트로피 손실로 계산되는 전경 손실(L_FG)을 수학식

(여기서
는 제2 프레임(I_t+1)에서 전경과 배경이 미리 분리되어 획득된 진리 배경 마스크이고, β는 참인 양수를 증가시키면서 거짓 음수를 줄이기 위해 사용되는 밸런스 파라미터이다.)
으로 계산하고,
총 손실을 수학식

(여기서 λ_SP, 및 λ_E 는 손실 가중치이다.)
로 계산하여, 계산된 상기 총 손실을 역전파하는 동적 객체 검출 장치.
시간적으로 연속하는 제1 및 제2 프레임 사이에서 변화가 발생된 움직임 영역을 검출하여 초기 마스크를 획득하는 단계;
상기 초기 마스크와 상기 제1 프레임을 인가받고, 미리 학습된 방식에 따라 신경망 연산을 수행하여, 상기 제1 프레임을 기반으로 상기 초기 마스크에 의해 지정된 움직임 영역을 배경으로 채워 배경 강화 이미지를 획득하는 단계;
상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 동적 객체 영역과 함께 배경의 잔여 움직임 영역을 검출하여 잔여 움직임 마스크를 생성하고, 미리 학습된 방식에 따라 상기 제2 프레임을 기반으로 상기 잔여 움직임 마스크에서 잔여 움직임 영역이 배경으로 구분된 배경 마스크를 획득하는 단계; 및
상기 제2 프레임에서 상기 배경 마스크에 의해 마스킹 되지 않는 동적 객에 영역을 검출하는 단계를 포함하는 동적 객체 검출 방법.
제11항에 있어서, 상기 초기 마스크를 획득하는 단계는
상기 제1 및 제2 프레임을 인가받아, 상기 제1 및 제2 프레임에서 동일 위치의 픽셀을 차분하여 차분맵을 획득하는 단계; 및
미리 학습된 인공 신경망을 이용하여 상기 제1 및 제2 프레임과 상기 차분맵에 대해 신경망 연산을 수행하여 상기 제1 및 제2 프레임 사이에 움직임이 발생된 움직임 영역과 나머지 영역을 상기 차분맵을 기반으로 구분하여 상기 초기 마스크를 이진 마스크 형태로 생성하는 단계를 포함하는 동적 객체 검출 방법.
제12항에 있어서, 상기 차분맵을 획득하는 단계는
RGB 이미지인 상기 제1 및 제2 프레임에서 3 채널 RGB 공간 상의 벡터로 표현되는 서로 대응하는 픽셀 사이의 유클리드 거리로 계산하여 상기 차분맵을 획득하는 동적 객체 검출 방법.
제12항에 있어서, 상기 배경 강화 이미지를 획득하는 단계는
미리 학습된 인공 신경망을 이용하여 상기 제1 프레임에서 상기 초기 마스크에 의해 지정되는 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 정적 마스크 이미지와 상기 초기 마스크에 대해 신경망 연산하여, 정적 마스크 이미지에서 상기 초기 마스크에 의해 지정된 움직임 영역의 픽셀값을 주변 픽셀값을 기반으로 하는 대표 값인 슈퍼 픽셀값을 갖는 슈퍼 픽셀로 채워 슈퍼 픽셀 이미지를 획득하는 단계; 및
배경 강화 이미지를 획득하기 위해, 미리 학습된 인공 신경망을 이용하여 상기 슈퍼 픽셀 이미지와 상기 초기 마스크에 대해 신경망 연산하여, 상기 슈퍼 픽셀 이미지에서 슈퍼 픽셀로 채워진 움직임 영역의 각 픽셀값을 주변 픽셀값을 기반으로 재추정하는 단계를 포함하는 동적 객체 검출 방법.
제14항에 있어서, 상기 배경 강화 이미지를 획득하는 단계는
상기 슈퍼 픽셀 이미지를 획득하는 단계 이전, 상기 초기 마스크와 상기 제1 프레임을 원소 곱하여 마스킹된 제1 프레임을 획득하고, 상기 제1 프레임에서 상기 마스킹된 제1 프레임을 차감하여, 상기 초기 마스크에 의해 지정된 움직임 영역을 제외한 정적 영역의 픽셀 정보만이 포함되는 상기 정적 마스크 이미지를 획득하는 단계를 더 포함하는 동적 객체 검출 방법.
제14항에 있어서, 상기 배경 마스크를 획득하는 단계는
상기 배경 마스크를 획득하기 위해, 미리 학습된 인공 신경망을 이용하여 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이에 따라 획득되는 잔여 움직임 마스크와 상기 배경 강화 이미지 및 상기 제2 프레임에 대해 신경망 연산하여, 상기 잔여 움직임 마스크에서 지정된 잔여 움직임 영역에서 동적 객체에 의한 잔여 움직임 영역과 배경의 움직임에 의한 잔여 움직임 영역을 구분하고, 구분된 배경의 움직임에 의한 잔여 움직임 영역을 상기 잔여 움직임 마스크의 배경으로 전환하는 단계를 포함하는 동적 객체 검출 방법.
제16항에 있어서, 상기 배경 마스크를 획득하는 단계는
상기 마스크의 배경으로 전환하는 단계 이전, 상기 배경 강화 이미지와 상기 제2 프레임 사이의 차이를 계산하여, 상기 제2 프레임에서 상기 배경 강화 이미지와 상이하게 나타나는 잔여 움직임 영역을 지정하는 이진 마스크인 상기 잔여 움직임 마스크를 획득하는 단계를 더 포함하는 동적 객체 검출 방법.
제16항에 있어서, 상기 동적 객에 영역을 검출하는 단계는
상기 제2 프레임과 상기 배경 마스크를 인가받아, 상기 제2 프레임을 상기 배경 마스크로 마스킹하여 상기 제2 프레임에서 동적 객체가 위치하는 동적 객체 영역을 판별하는 단계를 포함하는 동적 객체 검출 방법.
제18항에 있어서, 상기 동적 객에 영역을 검출하는 단계는
상기 동적 객체 영역을 판별하는 단계 이후, 미리 학습된 인공 신경망을 이용하여 검출된 상기 동적 객체 영역에 대해 신경망 연산을 수행하여, 상기 동적 객체 영역에 포함된 동적 객체를 식별하는 단계를 더 포함하는 동적 객체 검출 방법.
제16항에 있어서, 상기 동적 객체 검출 방법은
학습 단계를 더 포함하고,
상기 학습 단계는
상기 초기 마스크를 획득하는 단계에서 이용되는 인공 신경망을 학습시키기 위한 시간 차분 손실(L_TD)초기 마스크(
)와 두 프레임(I_t, I_t+1) 사이의 차이를 기반으로 움직임 영역을 미리 검출하여 획득된 초기 마스크의 진리값(M_i(t,t+1))을 이용하여 수학식

에 따라 계산하는 단계;
슈퍼 픽셀 이미지를 획득하는 단계에서 이용되는 인공 신경망을 학습시키기 위한 슈퍼 픽셀 손실(L_SP)을 수학식

(여기서 I_SP는 정적 마스크 이미지(
)에서 누락된 영역의 픽셀값을 주변 픽셀에 따른 슈퍼 픽셀값으로 채운 슈퍼 이미지(I_SP)이고,
는 진리 이미지(I^GT)의 픽셀들을 클러스터링하여 슈퍼 픽셀의 픽셀값으로 치환하여 획득된 진리 슈퍼 픽셀 이미지이다.)
에 따라 계산하는 단계;
상기 재추정하는 단계에서 이용되는 인공 신경망을 학습시키기 위한 컨텍스트 재구성 손실(
)과 MSE 손실(
) 중 상기 재구성 손실(
)을 움직임 영역에서 픽셀값이 재추정된 재추정 이미지(I_E)와 진리 이미지(I^GT) 사이의 오차로 수학식

으로 계산하고,
상기 MSE 손실(
)을 수학식

으로 계산하며,
상기 배경 마스크를 획득하는 단계에서 이용되는 인공 신경망을 학습시키기 위해 가중 이진 교차 엔트로피 손실로 계산되는 전경 손실(L_FG)을 수학식

(여기서
는 제2 프레임(I_t+1)에서 전경과 배경이 미리 분리되어 획득된 진리 배경 마스크이고, β는 참인 양수를 증가시키면서 거짓 음수를 줄이기 위해 사용되는 밸런스 파라미터이다.)
으로 계산하는 단계;
총 손실을 수학식

(여기서 λ_SP, 및 λ_E 는 손실 가중치이다.)
로 계산하는 단계; 및
계산된 상기 총 손실을 역전파하는 단계를 포함하는 동적 객체 검출 방법.