KR20190024689A

KR20190024689A - 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템

Info

Publication number: KR20190024689A
Application number: KR1020180091901A
Authority: KR
Inventors: 지아 리; 펑 스; 웨이헝 리우; 동칭 쪼우; 류현석; 박근주; 치앙 왕; 이현구
Original assignee: 삼성전자주식회사; 베이징 삼성 텔레콤 알 앤 디 센터
Priority date: 2017-08-29
Filing date: 2018-08-07
Publication date: 2019-03-08
Also published as: CN109426782A; US20190065885A1; US10769480B2; CN109426782B

Abstract

본 발명은 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공한다. 객체 검출 방법은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다. 본 발명에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.

Description

객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템{OBJECT DETECTION METHOD AND NEURAL NETWORK SYSTEM FOR OBJECT DETECTION}

본 발명은 객체 검출 분야에 관한 것으로, 좀 더 상세하게는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 관한 것이다.

객체 검출은 컴퓨터의 비전(vision) 분야에서 관심이 많은 주제이고, 객체 검출은 주로 이미지 또는 비디오에 대한 관심 대상을 식별하고 검출하는 것이다. 객체 검출은 자율 주행, 무인 항공기, 및 제스처 기반의 상호작용 시스템에 대한 분야들에서 중요한 역할을 담당한다. 이로 인하여, 객체 검출에 대한 연구들이 점점 관심 받고 있다.

일반적인 객체 검출 방법은 주로 변형 가능한 멤버 모듈 및 이의 변형을 사용하여 객체를 검출하고, 이러한 방법은 일반적으로 최대 응답 영역을 검색하기 위한 특징들로 이미지 디스크립터(descriptor)들(예를 들어, HOG (Histogram of Oriented Gradients), SIFT (Scale Invariant Feature Transformation) and LBP (Local Binary Patterns) 등)을 사용함으로써, 슬라이딩 윈도우를 통하여 전체 이미지를 가로지르며, 객체를 검출한다.

게다가, 깊이(depth) 학습 기술의 발전과 함께, 딥 뉴럴 네트워크에 기초한 객체 검출 방법이 나타나고, 이러한 방법은 고효율성으로 인하여 빠르고 널리 사용된다.

그러나, 상술된 방법들은 오로지 단일한 프레임 이미지에 기초하여 객체 검출 동작을 수행하므로, 단일 이미지에 기초한 객체 검출 국면에서 뛰어난 검출 효과를 갖지만, 비디오 이미지에 기초한 객체 검출에서 이상적인 검출 결과를 달성하기 어렵다.

최근에, 다이나믹 비전 센서(DVS, Dynamic Vision Sensor) 카메라는 시각적인 다이나믹 신호를 비동기의 마이크로초 정밀 이벤트 플로우로 인코딩할 수 있으며, 이벤트 플로우를 통하여 프레임 이미지들을 생성하여 빠르게 움직이는 객체를 추적할 수 있으므로, 널리 관심 받는다. 다이나믹 비전 센서 카메라를 통하여 캡쳐된 프레임 이미지들을 사용하여 객체를 검출함으로써, 빠르게 움직이는 객체는 정확하게 검출될 수 있다. 따라서, 객체의 이동 속도가 매우 빠를 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 비디오 이미지에 기초하여, 더 나은 객체 검출 결과가 상술된 두가지 방법들을 사용함으로써, 획득될 수 있다. 그러나, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라에 의하여 캡쳐된 이미지에 기초하여 객체를 정확하게 검출하기 어렵다.

본 발명의 예시적인 실시예는 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템을 제공하는 것을 목적으로 한다. 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체가 현재의 객체 검출 방법들에 의하여 정확하게 검출될 수 없는 결점을 극복할 수 있고, 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템은 적은 계산 양을 통하여 정확한 검출 결과를 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.

본 발명의 예시적인 실시예의 일 양상에 따른 객체 검출 방법이 제공되며, 객체 검출 방법은 (A) 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계, (B) 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계, (C) 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계, 및 (D) 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.

또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.

또한, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, (C) 단계는 (C1) 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하는 단계, 및 (C2) 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득하는 단계를 포함한다.

또한, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은

로 계산되되,

는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고,

의 범위 값은 [0, 1]이고,

는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고,

및

는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,

는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고,

는 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, i는 2차원 좌표를 나타낸다.

또한, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은

로 계산되되,

는 t번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수

는

및

의 곱셈에 사용되고, 함수

는 풀링된 함수이되, 함수

와

를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 함수

와

를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.

또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, (C) 단계는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용하는 단계를 포함한다.

또한, 이미지 시퀀스는 다이나믹 비전 센서 카메라에 의한 캡쳐를 수행함으로써 생성된다.

또한, (B) 단계는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득하는 단계를 포함한다.

본 발명의 예시적인 실시예의 다른 양상에 따른 객체 검출을 위한 뉴럴 네트워크 시스템이 제공되며, 뉴럴 네트워크 시스템은 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크, 현재 프레임의 특징 맵을 풀링하여 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크, 및 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함한다. 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.

또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득하고, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.

또한, 시간 도메인 풀링 서브네트워크는, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 이전 프레임의 풀링된 특징 맵 및 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득하고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득한다.

로 계산되되,

의 범위 값은 [0, 1]이고,

는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고,

및

는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,

로 계산되되,

는

및

의 곱셈에 사용되고, 함수

는 풀링된 함수이되, 함수

와

를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.

또한, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용한다.

또한, 특징 추출 서브네트워크는 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 현재 프레임의 특징 맵을 획득한다.

본 발명의 예시적인 실시예의 다른 양상에 따른 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장하도록 제공된다.

본 발명의 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템에 따르면, 객체가 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다.

도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.
도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.
도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.
도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.
도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다.

이하, 본 발명의 예시적인 실시예는 도면들을 참조하여 더욱 충분하게 설명될 것이며, 예시적인 실시예는 도면들에 도시된다. 다만, 예시적인 실시예는 여기에서 설명되는 예시적인 실시예들로 제한되어 해석된다기 보다 오히려, 다른 형식들로도 구현될 수 있다. 반면에, 이러한 예시적인 실시예들은 본 발명이 완전하고 완벽하도록 제공되고, 예시적인 실시예의 권리범위는 당업자들에 완전하게 전달될 것이다.

도 1은 본 발명의 예시적인 실시예에 따른 객체 검출 방법의 순서도이다.

도 1을 참조하면, S100 단계에서, 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지가 획득된다.

일례로, 이미지 시퀀스는 다이나믹 비전 센서 카메라(dynamic vision sensor camera)에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우(event flow)를 검출할 수 있고, 기결정된 기간(예를 들어, 20 밀리초) 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.

S200 단계에서, 현재 프레임의 특징 맵은 현재 프레임 이미지로부터 추출된다.

일례로, 현재 프레임의 특징 맵은 기결정된 시간들 동안 현재 프레임 이미지에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다. 예를 들어, 컨볼루션 커널은 미리 학습 및 훈련에 의하여 획득될 수 있고, 이후 현재 프레임의 특징 맵은 여러 번 컨볼루션 커널을 통하여 현재 프레임에 대해 컨볼루션 동작을 수행함으로써 획득될 수 있다.

S300 단계에서, 현재 프레임의 특징 맵은 현재 프레임의 풀링된(pooled) 특징 맵을 획득하도록 풀링되되, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.

여기에서, 이동 속도가 느린 객체는, 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 현재 프레임의 풀링된 특징 맵을 획득함으로써, 더욱 효율적으로 검출될 수 있다. (즉, 현재 프레임에 대하여 획득된 풀링된 특징 맵은 움직이는 객체에 관한 더 많은 정보를 포함한다.)

다이나믹 비전 센서 카메라는 상술된 바와 같이, 기결정된 기간 이내에 생성된 이벤트 플로우를 통하여 하나의 프레임 이미지를 생성하므로, 객체의 이동 속도가 느릴 때, 다이나믹 비전 센서 카메라는 단지 기결정된 시간 이내에 적은 양의 이벤트 플로우를 검출할 수 있다. 따라서, 생성된 프레임 이미지에 포함된 객체에 관한 정보가 적어지고, 그 결과, 다이나믹 비전 센서 카메라로부터 획득된 단일한 프레임 이미지로부터 객체를 정확하게 검출하기 어렵게 된다. 그러나, 다이나믹 비전 센서 카메라가 계속적으로 이벤트 플로우를 검출하므로, 다이나믹 비전 센서 카메라에 의하여 계속적으로 검출된 이벤트 플로우는 객체에 관한 더 많은 정보를 포함할 수 있다.

이하, 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시는 도 2를 참조하여 자세하게 설명될 것이다.

도 2는 본 발명의 예시적인 실시예에 따른 다이나믹 비전 센서 카메라에 의하여 프레임 이미지들을 생성하는 예시를 도시한 도면이다.

도 2의 (a) 및 (e)를 참조하면, 직사각형 프레임 전체는 객체의 이동 속도가 빠른 경우, 및 객체의 이동 속도가 느린 경우에서, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우를 나타낸다. 직사각형 프레임 전체 내에서 쇄선의 곡선은 이벤트 플로우의 밀도 또는 다른 정보를 반영하는데 사용되지 않고, 단지 이벤트 플로우를 개략적으로 나타낸다.

도 2의 (b)는 객체의 이동 속도가 빠른 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (c)는 객체의 이동 속도가 느린 경우에 기간 T 이내에 획득된 이벤트 플로우를 사용하여, 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다. 도 2의 (d)는 객체의 이동 속도가 느린 경우에 기간 T보다 긴 기간 T' 이내에 획득된 이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의하여 생성된 하나의 프레임 이미지를 나타낸다.

도 2의 (b)와 도 2의 (c)를 비교하면, 도 2의 (b)의 이미지에서 객체는 더욱 명료하고, 도 2의 (c)의 이미지에서 객체는 더욱 불명료한 것으로 보여진다. 따라서, 하나의 프레임 이미지는 객체의 이동 속도가 빠를 때, 객체를 더욱 정확하게 검출하는데 사용될 수 있는 반면, 하나의 프레임 이미지는 객체의 이동 속도가 느릴 때, 객체를 더욱 정확하게 검출하는데 사용되기 어려울 수 있다.

또한, 도 2의 (d)와 도 2의 (c)를 비교하면, 객체의 이동 속도가 느린 경우에 더욱 긴 기간 이내에 획득된 이벤트 플로우가 사용될 때, 생성된 이미지에서 객체는 더 명료한 것으로 보여진다. 즉, 더욱 긴 기간 이내에 획득된 이벤트 플로우를 사용하여 생성된 이미지는 객체에 관한 더 많은 정보를 포함할 수 있다.

따라서, 도 2로부터, 다이나믹 비전 센서 카메라에 의하여 획득되는 이벤트 플로우가 객체를 검출하기 위하여 충분한 정보를 포함하고, 더욱 긴 기간 내의 이벤트 플로우를 사용하는 것이 움직이는 객체에 대한 더욱 명료한 이미지를 생성할 수 있는 것으로 보여진다. 다만, 객체의 이동 속도가 매우 느릴 때, 더욱 긴 기간 내의 이벤트 플로우가 사용되더라도, 움직이는 객체에 대한 명료한 이미지는 획득될 수 없다. 따라서, 객체가 단일한 프레임 이미지로부터 정확하게 검출될 수 없다. 그러나, 본 발명에서, 현재 프레임의 풀링된 특징 맵은 현재 프레임의 풀링된 특징 맵이 현재 프레임 이전에 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하도록 복수의 풀링된 특징 맵들을 반복적으로 사용함으로써 획득될 수 있다. 따라서, 객체의 이동 속도가 매우 느린 경우에 현재 프레임의 풀링된 특징 맵으로부터 객체가 정확하게 검출될 수 있다.

특히, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 도 1의 S300 단계에서 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 여기에서, 첫번째 프레임 이미지가 획득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않기 때문에, 첫번째 프레임의 특징 맵이 첫번째 프레임의 풀링된 특징 맵을 획득하는데에만 사용될 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 첫번째 프레임의 특징 맵은 S300 단계에서 첫번째 프레임의 풀링된 특징 맵으로 사용될 수 있다.

다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 S300 단계에서 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용함으로써 획득될 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 특징 맵을 반복적으로 사용함으로써 획득될 수 있고, 이로 인하여 현재 프레임 이전에 획득된 이벤트 플로우를 더욱 충분하게 사용할 수 있다.

이하, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, S300 단계에서 현재 프레임의 풀링된 특징 맵을 획득하는 과정이 도 3을 참조하여, 자세하게 설명될 것이다.

도 3은 본 발명의 예시적인 실시예에 따른 객체 검출 방법에서 현재 프레임의 풀링된 특징 맵을 획득하는 단계들에 대한 순서도이다.

도 3을 참조하면, S310 단계에서, 현재 프레임의 가중치 이미지는 이전 프레임의 특징 맵과 현재 프레임의 특징 맵을 사용하여 획득된다.

여기에서, 현재 프레임의 가중치 이미지는 현재 프레임과 이전 프레임 사이의 관계를 나타내며, 예를 들어 유사도를 나타낸다. 현재 프레임과 이전 프레임 사이의 유사도가 높을수록, 가중치 값은 1에 가까워지고, 현재 프레임과 이전 프레임 사이의 유사도가 낮을수록, 가중치 값은 0에 가까워진다.

특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 현재 프레임의 가중치 이미지에서 가중치 값들 각각은 아래의 수학식 1을 통하여 계산된다.

수학식 1에서,

의 범위 값은 [0, 1]이고,

는 멀티 레이어 퍼셉트론(multilayer perceptron, MLP) 뉴럴 네트워크를 나타내고,

및

는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,

일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크(

)는 복수의 1x1 컨볼루션 레이어들과 범위 값 [0, 1]을 갖는 가중치 값을 출력하는 시그모이드 레이어(Sigmoid layer)를 갖는 말단에 의해 형성되는 완전 컨볼루션 네트워크(fully convolution network)를 통하여 구현될 수 있다. 상술된 네트워크는 단지 멀티 레이어 퍼셉트론 뉴럴 네트워크(

)의 예시로 이해될 것이고, 멀티 레이어 퍼셉트론 뉴럴 네트워크는 풀링된 특징 값(

)과 특징 값(

)을 입력들로 함에 따라 가중치 값을 출력할 수 있는 임의의 멀티 레이어 퍼셉트론 뉴럴 네트워크일 수 있다.

여기에서,

는 스칼라이고,

및

는 벡터들이다. 일례로,

및

는 좌표 i에 대한 각각의 채널 값들이 벡터 성분들이고, 각각의 채널 값들에 대한 범위 값들이 실수 범위인 벡터들일 수 있다.

에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고,

에 대한 성분들로써 채널 값들은 특징 값들인 것으로 이해될 것이다. 예를 들어,

및

는 좌표 i에 대한 레드 채널 값, 그린 채널 값, 및 블루 채널 값이 벡터 성분들인 백터들일 수 있다. 좌표 i는 X축 값과 Y축 값에 의하여 형성되는 2차원 좌표일 수 있다.

상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값(

)은 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값에 대응되는 가중치 값인 것으로 이해될 것이다.

S320 단계에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용함으로써 획득된다.

여기에서, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.

일례로, t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은 수학식 2를 통하여 계산될 수 있다.

수학식 2에서,

는

및

의 곱셈에 사용되고, 함수

는 풀링된 함수이되, 함수

와

를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.

여기에서, 현재 프레임의 풀링된 특징 값(

)을 획득하는 동안, 풀링된 결과에 대한 이전 프레임의 풀링된 특징 값(

)의 영향은 가중치 값(

)을

에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.

다시 도 1을 참조하면, S400 단계에서, 객체는 현재 프레임의 풀링된 특징 맵으로부터 검출된다. 여기에서, 객체는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 검출될 수 있고, 더 이상 상세하게 다루지 않는다.

도 4는 본 발명의 예시적인 실시예에 따른 객체 검출 과정에 대하여 도시한 도면이다.

도 4를 참조하면, 도 4의 (a)는 t-2번째 프레임의 특징 맵(

), t-1번째 프레임의 특징 맵(

), 및 t번째 프레임의 특징 맵(

)을 도시하고, 도 4의 (b)는 특징 맵들(

,

)에 대응되는 t-2번째 프레임, t-1번째 프레임, 및 t번째 프레임의 이미지들을 대응되는 위치에 도시한다. t값은 도 4의 예시에서, 2보다 큰 정수로 이해될 것이다.

t-2번째 프레임에 대하여, 우선 t-2번째 프레임의 가중치 이미지(

)는 이전 프레임(미도시)의 풀링된 특징 맵(미도시) 및 t-2번째 프레임의 특징 맵(

)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-2번째 프레임의 풀링된 특징 맵(

)은 t-2번째 프레임에 대하여 획득된 가중치 이미지(

), t-2번째 프레임 이전의 프레임의 풀링된 특징 맵, 및 t-2번째 프레임의 특징 맵(

)을 통하여 획득된다.

t-1번째 프레임에 대하여, 우선 t-1번째 프레임의 가중치 이미지(

)는 이전 프레임(즉, t-2번째 프레임)의 풀링된 특징 맵(

) 및 t-1번째 프레임의 특징 맵(

)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t-1번째 프레임의 풀링된 특징 맵(

)은 t-1번째 프레임에 대하여 획득된 가중치 이미지(

), t-2번째 프레임의 풀링된 특징 맵(

), 및 t-1번째 프레임의 특징 맵(

)을 통하여 획득된다.

t번째 프레임에 대하여, 우선 t번째 프레임의 가중치 이미지(

)는 이전 프레임(즉, t-1번째 프레임)의 풀링된 특징 맵(

) 및 t번째 프레임의 특징 맵(

)을 통하여 획득될 수 있다. 이후, 풀링(Pooling) 동작이 수행된다. 즉, t번째 프레임의 풀링된 특징 맵(

)은 t번째 프레임에 대하여 획득된 가중치 이미지(

), t-1번째 프레임의 풀링된 특징 맵(

), 및 t번째 프레임의 특징 맵(

)을 통하여 획득된다.

도 4의 (c)에서 위쪽 부분은 t번째 프레임에 대하여 최종적으로 획득된 풀링된 특징 맵을 도시한다. 상술된 분석으로부터, 현재 프레임(t번째 프레임)의 풀링된 특징 맵이 이전의 프레임의 풀링된 특징 맵을 반복적으로 사용함으로써 획득되는 풀링된 특징 맵이므로, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 것으로 보여진다.

도 4의 (c)에서 아래쪽 부분은 t번째 프레임의 풀링된 특징 맵으로부터 객체 검출의 검출 결과를 도시한다. 도 4의 (c)에서 아래쪽 부분에 도시된 그림에서의 프레임은 예측 프레임이고, 예측 프레임의 위치는 검출된 객체의 위치이다. 도 4의 예시에서, 검출된 객체는 사용자의 손이다.

본 발명의 객체 검출 방법에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 더 적은 계산 량을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체 검출의 효율성을 향상시킬 수 있다.

도 5는 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템의 블록도이다. 일례로, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 FRCNN(fast regional convolution neural network) 프레임 기반의 뉴럴 네트워크 시스템이다.

도 5에 도시된 바와 같이, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 특징 추출 서브네트워크(100), 시간 도메인 풀링 서브네트워크(200), 및 검출 서브네트워크(300)를 포함한다.

특히, 특징 추출 서브네트워크(100)는 복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출한다.

일례로, 이미지 시퀀스는 다이나믹 비전 센서(DVS) 카메라에 의한 캡쳐를 수행함으로써 생성될 수 있다. 여기에서, 다이나믹 비전 센서 카메라는 객체에 대해 캡쳐를 수행함으로써 움직이는 객체에 의하여 생성되는 이벤트 플로우를 검출할 수 있고, 기결정된 기간 이내에 생성된 이벤트 플로우를 사용하여 하나의 프레임 이미지를 생성할 수 있다. 따라서, 비전 센서 카메라는 시간 순서에 따른 복수의 프레임 이미지들을 포함하는 이미지 시퀀스를 생성할 수 있다.

시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 풀링된 특징 맵을 획득하도록 현재 프레임의 특징 맵을 풀링할 수 있으며, 현재 프레임의 풀링된 특징 맵은 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함한다.

이벤트 플로우를 사용하는 다이나믹 비전 센서 카메라에 의한 프레임 이미지들을 생성하는 예시, 및 다이나믹 비전 센서 카메라에 의하여 획득된 단일한 프레임 이미지를 사용하여 이동 속도가 느린 객체를 검출하기 어려운 이유는 도 2를 참조하여 자세하게 설명되었으며, 더 이상 여기에서 상세하게 다루지 않는다.

본 발명의 예시적인 실시예에 따르면, 일 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 첫번째 프레임 이미지가 ?득될 때, 어떤 이미지도 첫번째 프레임 이미지 이전에 획득되지 않으므로, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵만을 사용하여 첫번째 프레임의 풀링된 특징 맵을 획득할 수 있다. 일례로, 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 시간 도메인 풀링 서브네트워크(200)는 첫번째 프레임의 특징 맵을 첫번째 프레임의 풀링된 특징 맵으로 사용할 수 있다.

다른 실시예에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다. 여기에서, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 특징 맵을 반복적으로 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.

특히, 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 시간 도메인 풀링 서브네트워크(200)는 이전 프레임의 풀링된 특징 맵과 현재 프레임의 특징 맵을 사용하여 현재 프레임의 가중치 이미지를 획득할 수 있고, 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 사용하여 현재 프레임의 풀링된 특징 맵을 획득할 수 있다.

특히, 일례로, 현재 프레임 이미지가 t번째 프레임 이미지이고, t는 1보다 큰 정수인 경우, 시간 도메인 풀링 서브네트워크(200)는 현재 프레임의 가중치 이미지에서 가중치 값들 각각을 상술된 수학식 1을 통하여 계산할 수 있다.

수학식 1을 참조하면,

의 범위 값은 [0, 1]이고,

및

는 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고,

일례로, 멀티 레이어 퍼셉트론 뉴럴 네트워크(

)과 특징 값(

여기에서,

는 스칼라이고,

및

는 벡터들이다. 일례로,

및

에 대한 성분들로써 채널 값들은 풀링된 특징 값들이고,

및

상술된 수학식 1을 통하여 획득된 t번째 프레임의 가중치 이미지에서 좌표 i의 가중치 값(

이후, 현재 프레임의 풀링된 특징 맵은 이전 프레임의 풀링된 특징 맵, 현재 프레임의 특징 맵, 및 현재 프레임의 가중치 이미지를 포괄적으로 고려함으로써 더욱 정확하게 획득될 수 있다.

일례로, 시간 도메인 풀링 서브네트워크(200)는 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각을 상술된 수학식 2를 통하여 계산할 수 있다.

수학식 2를 참조하면,

는

및

의 곱셈에 사용되고, 함수

는 풀링된 함수이되, 함수

와

를 통하여 계산되는 값의 평균 값을 계산하는데 사용된다.

여기에서, 현재 프레임의 풀링된 특징 값(

)의 영향은 가중치 값(

)을

에 적용함으로써 다른 좌표들(i)에 따라 조절될 수 있다.

검출 서브네트워크(300)는 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출한다. 여기에서, 검출 서브네트워크(300)는 다양한 방법들을 통해 현재 프레임의 풀링된 특징 맵으로부터 객체를 검출할 수 있고, 더 이상 상세하게 다루지 않는다.

본 발명의 예시적인 실시예에 따른 객체를 검출하는 과정은 도 4를 참조하여 자세하게 설명되었고, 더 이상 여기에서 상세하게 다루지 않는다.

본 발명의 예시적인 실시예의 객체 검출을 위한 뉴럴 네트워크 시스템 및 객체 검출을 위한 현재의 뉴럴 네트워크 시스템들(예를 들어, LSTM(long and short term memory network), Seq-NMS(sequence non-maximum suppressionnetwork))을 예시들로 도입함으로써, 실험들을 통하여 획득된 RATP, LSTM, 및 Seq-NMS의 검출 정확도는 아래의 표에 도시된다.

검출 방법	검출 정확도（IOU=0.3）	평균 IOU
기본적인 뉴럴 네트워크	73.69%	0.634
RATP	79.37%	0.663
LSTM	79.78%	0.687
Seq-NMS	80.06%	0.810
LSTM+RATP	84.05%	0.682
Seq-NMS+RATP	86.53%	0.811

표 1을 참조하면, 제1 열은 객체를 검출하기 위한 검출 방법을 도시하고, 여기에서, 기본적인 뉴럴 네트워크는 임의의 다른 구조를 추가하지 않은 FRCNN을 나타내고, LSTM+RATP는 LSTM과 RATP를 공동으로 사용하는 검출 방법을 나타내고, Seq-NMS+RATP는 Seq-NMS와 RATP 공동으로 사용하는 검출 방법을 나타낸다. 제2 열은 IOU(Intersection over Union)의 임계 값이 0.3인 경우의 검출 정확도를 나타내고, 여기에서, 검출 정확도는 도 4의 객체를 예측하기 위한 예측 프레임의 정확도를 나타낼 수 있다. IOU의 임계 값이 0.3인 경우의 검출 정확도는, 예측 프레임에 대응되는 IOU 값이 0.3 이상일 때, 검출 결과가 올바른 것으로 결정되는 경우의 검출 정확도를 나타낸다. (즉, 예측 프레임은 올바른 예측 프레임이다.) 평균 IOU는 실험 과정 동안 실제 IOU들의 평균 값을 나타내며, 즉 올바른 예측 프레임에 대응되는 실제 IOU들의 평균 값을 나타낸다. 여기에서, IOU 평균은 도 4의 객체를 예측하기 위한 예측 프레임의 예측 위치의 정확도를 반영한다.

표 1로부터, 본 발명의 예시적인 실시예에 따른 뉴럴 네트워크 시스템(RATP)은 기본적인 뉴럴 네트워크 시스템의 검출 정확도보다 높은 검출 정확도를 갖고, 현재의 LSTM 및 Seq-NMS에 대한 검출 정확도와 실질적으로 동일한 검출 정확도를 갖는 것으로 보여진다. 나아가, 뉴럴 네트워크 시스템이 현재의 LSTM 또는 Seq-NMS와 함께 공동으로 사용될 경우, 검출 정확도는 LSTM 또는 Seq-NMS이 분리되어 사용될 경우의 검출 정확도보다 명백하게 높다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템과 현재의 LSTM 및 Seq-NMS는 객체 검출에 대하여 상호 보완적인 특성들을 갖는 것으로 보여진다. 따라서, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 현재의 LSTM 및 Seq-NMS의 검출 국면들에서의 부족함을 보완한다. 현재의 LSTM 및 Seq-NMS는 이동 속도가 높은 객체에 대하여 더 나은 검출 효과들을 생성하나, 본 발명의 예시적인 실시예에 따른 객체 검출을 위한 뉴럴 네트워크 시스템은 이동 속도가 낮은 객체를 검출하는 국면에서 현저한 이점을 갖는다.

본 발명의 객체 검출을 위한 뉴럴 네트워크에 따르면, 객체는 현재 프레임 이미지의 특징 맵의 정보와 현재 프레임 이미지 이전의 프레임들 각각의 풀링된 특징 맵들의 정보를 조합함으로써 더욱 정확하게 검출될 수 있다. 게다가, 본 발명의 객체 검출을 위한 뉴럴 네트워크 시스템은 엔드-투-엔드(end-to-end) 뉴럴 네트워크 시스템이므로, 적은 계산 양을 통하여 정확한 검출 결과를 신속하게 획득할 수 있고, 이로 인하여 객체를 검출하는 효율성을 향상시킬 수 있다.

본 발명의 예시적인 실시예에 따르면, 컴퓨터 판독 가능한 저장 매체가 더 제공된다. 컴퓨터 판독 가능한 저장 매체는 프로세서에 의하여 실행될 때, 프로세서가 상술된 객체 검출 방법을 수행하게 하는 프로그램 명령어들을 저장한다. 컴퓨터 판독 가능한 저장 매체는 컴퓨터 시스템에 의하여 읽혀지는 데이터를 저장할 수 있는 임의의 데이터 저장 장치이다. 컴퓨터 판독 가능한 저장 매체의 예시들은 ROM(Read-Only Memory), RAM(Random-Access Memory), CD-ROM들, 자기 테이프들, 플로피 디스크들, 광학 데이터 저장 장치들, 및 (유선 또는 무선 전송 경로를 경유하여 인터넷을 통한 데이터 전송과 같은) 캐리어를 포함한다. 또한, 컴퓨터 판독 가능한 저장 매체는 인터넷에 연결되는 컴퓨터 시스템으로 분산되어, 컴퓨터 판독 가능한 코드들이 분산된 방식으로 저장 및 실행될 수 있다. 또한, 본 발명을 달성하기 위한 기능적인 프로그램들, 코드들, 및 코드 세그먼트들이 본 발명의 권리범위 내에서 본 발명과 연관된 분야에 통상의 프로그래머들에 의하여 용이하게 설명될 수 있다.

본 발명의 상술된 실시예들은 단순히 예시적인 실시예들로 언급되어야 하고, 본 발명이 이에 제한되지 않는다. 당업자들은 이러한 예시적인 실시예들이 본 발며의 원리 및 사상으로부터 벗어나지 안게 변경될 수 있는 것으로 이해하여야 하며, 본 발명의 권리범위는 청구항들 및 이의 균등물들로 제한된다.

100: 특징 추출 서브네트워크
200: 시간 도메인 풀링 서브네트워크
300: 검출 서브네트워크

Claims

복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하는 단계;
상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 단계;
상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 단계; 및
상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 단계를 포함하되,
상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 객체 검출 방법.
제1 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하는 단계를 포함하고,
상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법.
제1 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지가 아닌 경우, 상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계는,
이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하는 단계; 및
상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 단계를 포함하는 객체 검출 방법.
제3 항에 있어서,
상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,

로 계산되되,
상기
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기
의 범위 값은 [0, 1]이고, 상기
는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기
및 상기
는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기
는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 객체 검출 방법.
제4 항에 있어서,
상기 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각은,

로 계산되되,
상기
는 t번째 프레임의 상기 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
는 상기
및 상기
의 곱셈에 사용되고, 함수
는 풀링된 함수이되, 상기 함수
와 상기
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 상기 함수
와 상기
를 통하여 계산되는 값의 평균 값을 계산하는데 사용되는 객체 검출 방법.
객체 검출을 위한 뉴럴 네트워크 시스템에 있어서,
복수의 프레임 이미지들을 포함하는 이미지 시퀀스에서 현재 프레임 이미지를 획득하고, 상기 현재 프레임 이미지로부터 현재 프레임의 특징 맵을 추출하는 특징 추출 서브네트워크;
상기 현재 프레임의 상기 특징 맵을 풀링하여 상기 현재 프레임의 풀링된 특징 맵을 획득하는 시간 도메인 풀링 서브네트워크; 및
상기 현재 프레임의 상기 풀링된 특징 맵으로부터 객체를 검출하는 검출 서브네트워크를 포함하되,
상기 현재 프레임의 상기 풀링된 특징 맵은 상기 현재 프레임 이전의 프레임 이미지들 각각에 대응되는 풀링된 특징 맵들 각각에 대한 정보를 포함하는 시스템.
제6 항에 있어서,
상기 현재 프레임 이미지가 첫번째 프레임 이미지인 경우, 상기 시간 도메인 풀링 서브네트워크는 첫번째 프레임의 특징 맵을 사용하여 상기 첫번째 프레임의 풀링된 특징 맵을 획득하고,
상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 시간 도메인 풀링 서브네트워크는 이전 프레임의 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템.
제7 항에 있어서,
상기 시간 도메인 풀링 서브네트워크는, 상기 현재 프레임 이미지가 상기 첫번째 프레임 이미지가 아닌 경우, 상기 이전 프레임의 상기 풀링된 특징 맵 및 상기 현재 프레임의 상기 특징 맵을 사용하여 상기 현재 프레임의 가중치 이미지를 획득하고, 상기 이전 프레임의 상기 풀링된 특징 맵, 상기 현재 프레임의 상기 특징 맵, 및 상기 현재 프레임의 상기 가중치 이미지를 사용하여 상기 현재 프레임의 상기 풀링된 특징 맵을 획득하는 시스템.
제8 항에 있어서,
상기 현재 프레임 이미지가 t번째 프레임 이미지이고, 상기 t는 1보다 큰 정수인 경우, 상기 현재 프레임의 상기 가중치 이미지에서 가중치 값들 각각은,

로 계산되되,
상기
는 t번째 프레임의 가중치 이미지에서 좌표 i에 대한 가중치 값을 나타내고, 상기
의 범위 값은 [0, 1]이고, 상기
는 멀티 레이어 퍼셉트론 뉴럴 네트워크를 나타내고, 상기
및 상기
는 상기 멀티 레이어 퍼셉트론 뉴럴 네트워크의 입력들이고, 상기
는 t-1번째 프레임의 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 상기
는 상기 t번째 프레임의 특징 맵에서 좌표 i에 대한 특징 값을 나타내고, 상기 i는 2차원 좌표를 나타내는 시스템.
제9 항에 있어서,
상기 시간 도메인 서브네트워크는 상기 t번째 프레임의 풀링된 특징 맵에서 풀링된 특징 값들 각각을,

로 계산하되,
상기
는 t번째 프레임의 상기 풀링된 특징 맵에서 좌표 i에 대한 풀링된 특징 값을 나타내고, 함수
는 상기
및 상기
의 곱셈에 사용되고, 함수
는 풀링된 함수이되, 상기 함수
와 상기
를 통하여 계산되는 값에서 최대 값을 선택하는데 사용되거나 상기 함수
와 상기
를 통하여 계산되는 값의 평균 값을 계산하는데 사용되는 시스템.