KR101912570B1

KR101912570B1 - 인공신경망을 이용한 물체 추적시스템

Info

Publication number: KR101912570B1
Application number: KR1020180080667A
Authority: KR
Inventors: 김성찬
Original assignee: 전북대학교산학협력단
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-10-26

Abstract

본 발명은 인공신경망을 이용한 물체추적시스템에 관한 것으로, 과거 영상 프레임들의 시간 상관관계 높음 정도를 반영하여 현재 영상 프레임에서 물체 위치를 예측하기 위한 것이다.
이를 위하여 본 발명은 입력 영상의 현재 영상 프레임에서 대상 물체의 위치 예측시 최대 N개의 과거 영상 프레임에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하는 물체 추적부를 포함하는 인공신경망을 이용한 물체 추적시스템에 있어서, 입력 영상의 현재 영상 프레임과 연속된 과거 영상 프레임들의 시간 상관관계를 분석하고 현재 영상 프레임에 대한 과거 영상 프레임들의 시간 상관관계 높음 정도를 예측하는 제1인공신경망, 및 입력 영상의 현재 영상 프레임과 하나 이상의 과거 영상 프레임들을 각각 입력받고 제1인공신경망에서 예측된 과거 영상 프레임들의 시간 상관관계 높음 정도를 반영하여 물체 형태와 움직임을 학습하고 현재 영상 프레임에서 대상 물체의 위치를 예측하여 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 제2인공신경망을 포함하여, 현재 영상 프레임과 특성이 다른 과거 영상 프레임들의 사용을 배제하여 물체의 형태나 크기 변화 등을 정확하게 추적할 수 있게 한다.

Description

인공신경망을 이용한 물체 추적시스템{The object tracking system using artificial neural networks}

본 발명은 인공신경망을 이용한 물체 추적시스템에 관한 것으로, 보다 상세하게는 비디오 영상에서 물체의 형태나 크기는 시간상으로 급격하지 않게 연속적으로 변하는 특징을 이용하여, 현재 영상 프레임에서 물체 위치 예측에 기여하는 과거 영상 프레임들의 기여도를 현재 영상 프레임과의 시간 상관관계 높음 정도에 따라 다르게 할 수 있도록 함으로써 참조 가능한 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있는 인공신경망을 이용한 물체 추적시스템에 관한 것이다.

일반적으로 비디오 영상에서 물체를 인식하거나 추적하는 문제에서 미래 영상 프레임들을 현재 프레임 분석에서 알 수 있으면 오프라인 분석, 그렇지 않으면 온라인 분석이라고 한다.

물체 추적은 온라인 방식에 해당하여, 물체 추적 연구들은 대부분 신경망을 이용해 초기 또는 주기적으로 물체의 형태를 학습하고 현재 영상 프레임에서 학습된 물체 형태와 가장 비슷한 영역을 찾아내는 방식에 기반을 두고 있다.

반면 오프라인 방식에서는 분석해야 할 영상 프레임들이 모두 알려져 있기 때문에 특정 프레임에서 예측 작업을 수행할 때 나머지 프레임들을 모두 활용하며, 시간적으로 인접한 영상 프레임들의 상관관계를 이용해 물체의 형태나 움직임을 학습하고 미래의 변화를 예측할 수 있다.

그러나 과거 영상 프레임들을 참고하지 않고 현재 영상 프레임만을 이용하는 경우에는 과거 영상 프레임들을 참고하지 않기 때문에 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계에 관한 정보를 활용할 수 없는 단점이 있고, 과거 영상 프레임들을 참고하는 경우에는 미리 정해진 개수의 과거 영상 프레임들을 이용하여 물체를 추적하게 하거나 또는 3차원 합성곱 연산시 기본적으로 모든 과거 영상 프레임들을 같은 중요도로 가정하여 영상들로부터 특징을 추출하게 되므로, 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계를 활용하는 것은 가능하지만 이전 영상 프레임들 중에 현재 영상 프레임과 전혀 다른 특성이 존재할 경우 부정확한 상관관계 정보가 도출될 가능성이 있어 항상 모든 과거 영상 프레임들이 도움이 되는 것은 아니다. 예를 들어 추적 물체가 배경에 의해 가려지는 상황이 발생하는 경우 이전 영상 프레임에서 현재 영상 프레임을 참고하는 것은 물체의 형태나 크기 분석에 오류를 제공할 가능성이 있다.

KR 10-1040049 B1 2011.06.02. 등록 KR 10-1731243 B1 2017.04.24. 등록 KR 10-1735365 B1 2017.05.08. 등록

따라서 본 발명은 상기의 문제점을 해결하기 위해 안출한 것으로서, 본 발명이 해결하고자 하는 기술적 과제는, 과거 영상 프레임들의 시간 상관관계 높음 정도를 현재 영상 프레임에서 물체 위치 예측시 반영할 수 있도록 함으로써 현재 영상 프레임에서의 물체 위치 예측에 기여하는 과거 영상 프레임들의 기여도를 다르게 하여, 참조 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있는 인공신경망을 이용한 물체 추적시스템을 제공하고자 하는 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시 형태는, 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상의 현재 영상 프레임에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하는 인공신경망을 이용한 물체 추적시스템에 있어서, 입력 영상의 현재 영상 프레임과 하나 이상의 과거 영상 프레임들을 입력받아 현재 영상 프레임과 연속된 과거 영상 프레임들의 시간 상관관계를 분석하고 현재 영상 프레임에 대한 과거 영상 프레임들의 시간 상관관계 높음 정도를 예측하는 제1인공신경망; 및, 입력 영상의 현재 영상 프레임과 하나 이상의 과거 영상 프레임들을 각각 입력받고 제1인공신경망에서 예측된 과거 영상 프레임들의 시간 상관관계 높음 정도를 반영하여 물체 형태와 움직임을 학습하고 현재 영상 프레임에서 대상 물체의 위치를 예측하여 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 제2인공신경망;을 포함하여, 현재 영상 프레임의 위치 예측을 위한 특징 추출에 기여하는 과거 영상 프레임들의 기여도가 현재 영상 프레임에 대한 과거 영상 프레임들의 시간 상관관계 높음 정도에 따라 가변되도록 구성한, 인공신경망을 이용한 물체 추적시스템이다.

본 발명에 의하면, 현재 영상 프레임에서 물체 위치 예측에 기여하는 과거 영상 프레임들의 기여도를 현재 영상 프레임의 특성에 따라 다르게 하여 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있게 되므로, 현재 영상 프레임과 비슷한 특성을 공유하는 과거 영상 프레임들로부터 물체의 형태와 움직임에 대한 고품질의 시간적인 정보를 얻어낼 수 있게 되며, 따라서 대상 물체를 정확하게 추적할 수 있는 이점을 제공한다.

도 1은 본 발명에 의한 인공신경망을 이용한 물체 추적시스템을 예시한 개략도이다.

이하, 본 발명의 바람직한 실시 형태에 따른 인공신경망을 이용한 물체 추적시스템의 구성과 동작 및 그에 의한 작용 효과를 첨부 도면을 참조하여 상세히 설명한다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명에 의한 인공신경망을 이용한 물체 추적시스템을 예시한 개략도로서, 도면에 예시된 바와 같이 본 발명의 인공신경망을 이용한 물체 추적시스템은, 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 입력받아 현재 영상 프레임(100)과 연속된 다수의 과거 영상 프레임들(200a-200n)의 시간 상관관계를 분석하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 예측하여 출력하는 제1인공신경망(300), 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 입력받고 제1인공신경망(300)에서 예측된 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 현재 영상 프레임(100)에서의 영상 특징 추출시 합성곱 연산에서 반영하여 현재 영상 프레임(100)에서 추적하는 물체를 둘러싸는 직사각형의 위치 정보를 예측하여 결과를 출력하는 제2인공신경망(400)을 포함하여, 현재 영상 프레임(100)의 위치 예측을 위한 특징 추출에 기여하는 과거 영상 프레임들(200a-200n)의 기여도가 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도에 따라 가변되도록 구성된다.

이러한 본 발명의 물체 추적시스템은 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들(100, 200a-200n)로 구성된 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임(200a-200n)에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하도록 구성되는 신경망을 이용한 물체 추적시스템에 적용되어 구현될 수 있다.

제1인공신경망(300)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 입력받아 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간 상관관계를 분석하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 예측하여 출력한다. 이러한 기능을 수행하기 위하여 제1인공신경망(300)은 제1특징추출 인공신경망(310), 제1완전연결 인공신경망(320), 및 최종출력 인공신경망(330)을 포함하여 구성될 수 있다.

제1특징추출 인공신경망(310)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)을 입력받아 영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석한다.

제1완전연결 인공신경망(320)은 하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하여 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계 높음 정도를 예측한다.

최종출력 인공신경망(330)은 제1완전연결 인공신경망(320)의 계층 분류 결과를 표시하는 1차원 벡터로서, 제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성되며, 제1완전연결 인공신경망(320)의 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계가 높은 정도를 수치로 출력한다. 이러한 최종출력 인공신경망(330)은, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 0과 1 사이의 값으로 표시하여 출력한다.

제2인공신경망(400)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 각각 입력받아, 제1인공신경망(300)에서 예측된 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 현재 영상 프레임(100)에서의 영상 특징 추출시 합성곱 연산에서 반영하여 물체 형태와 움직임을 학습하고 현재 영상 프레임(100)에서 대상 물체의 위치를 예측하여, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력한다. 이러한 기능을 수행하기 위하여 제2인공신경망(400)은 제2징추출 인공신경망(410), 제2완전연결 인공신경망(420), 및 경계상자 출력 인공신경망(430)을 포함하여 구성될 수 있다.

제2특징추출 인공신경망(410)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하되 제1인공신경망(300)에서 예측된 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 3차원 합성곱 연산들 수행시 입력 특징맵들의 선형 가중치의 합으로 반영하여 입력된 영상 프레임(100,200a-200n)들로부터 영상의 특징들을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석한다.

제2완전연결 인공신경망(420)은 하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환으로 계산된 변수들은 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하는 경계상자 회귀 알고리즘의 입력들이 된다.

경계상자 출력 인공신경망(430)은 현재 영상 프레임에서 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘을 포함하며, 이러한 경계상자 회귀(bounding box regression) 알고리즘은 제2완전연결 인공신경망(420)의 출력을 입력으로 받아 대상 물체를 가장 정확하게 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이를 계산한다. 즉, 제2특징추출 인공신경망(410) 및 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력한다. 이러한 경계상자 출력 인공신경망(430)은 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 4개 꼭지점들의 좌표, 또는 직사각형의 길이와 너비 및 중심좌표로 출력한다.

상기와 같은 제1인공신경망(300)과 제2인공신경망들(400)에서의 동작은 순차적으로 수행될 수도 있고, 거의 동시에 수행될 수도 있음은 물론이다.

이상과 같이 구성되는 본 발명에 따른 인공신경망을 이용한 물체 추적시스템의 작용 효과를 설명하면 다음과 같다.

먼저, 본 발명의 인공신경망을 이용한 물체 추적시스템은, 다수의 영상 프레임(100,200)들로 구성된 입력 영상이 비디오 카메라 또는 동영상 파일에서 주어지면, 제1인공신경망(300) 및 제2인공신경망(400)에 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)이 동시에 입력된다.

상기와 같이 제1인공신경망(300)에 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)이 입력되면, 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 제1특징추출 인공신경망(310)에서는 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징 추출 및 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하여 제1완전연결 인공신경망(320)으로 전달한다.

그리고 하나 이상의 완전연결 계층(fully-connected layer)들로 구성된 제1완전연결 인공신경망(320)에서는 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하여, 최종출력 인공신경망(330)으로 전달한다.

제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성된 최종출력 인공신경망(330)에서는 제1완전연결 인공신경망(320)에서 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계가 높은 정도를 0과 1 사이의 수치값으로 표시하여 출력함으로써, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계 높음 정도를 예측할 수 있게 한다.

이와 동시에 제2인공신경망(400)에 입력 영상의 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)이 각각 입력되면, 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 제2특징추출 인공신경망(410)에서는 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하되 제1인공신경망(300)에서 예측된 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 3차원 합성곱 연산들 수행시 입력 특징맵들의 선형 가중치의 합으로 반영하여 입력된 영상 프레임(100,200a-200n)들로부터 영상의 특징들을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하여 제2완전연결 인공신경망(420)으로 전달한다.

하나 이상의 완전연결 계층(fully-connected layer)들로 구성된 제2완전연결 인공신경망(420)에서는 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하여 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하여 경계상자 출력 인공신경망(430)으로 전달한다.

마지막으로 경계상자 출력 인공신경망(430)에서는 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2완전연결 인공신경망(420)의 출력을 입력받아 현재 영상 프레임에서 대상 물체의 위치를 예측한다. 이러한 경계상자 회귀(bounding box regression) 알고리즘에서는 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 가장 정확하게 둘러싸는 경계상자의 좌표정보, 즉 해당 대상 물체를 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이 등을 계산하여 직사각형의 4개 꼭지점들의 좌표, 또는 직사각형의 길이와 너비 및 중심좌표로 출력한다.

상기와 같은 동작을 수행하는 제2인공신경망(400)은 제1인공신경망(300)에서 전달되는 1차원 벡터값, 즉 현재 영상 프레임과의 시간적 상관관계가 높은 정도를 각 3차원 합성곱 연산에서 반영하여 영상들의 특징을 추출할 수 있게 되므로, 현재 영상 프레임과의 시간적 상관관계가 높은 과거 영상 프레임의 특징에 더 가중치를 부여하여 영상들의 특징을 추출할 수 있게 되며, 따라서 현재 영상 프레임에서 대상 물체의 위치 예측에 사용되는 과거 영상 프레임의 기여도는 현재 영상 프레임과의 시간적 상관관계가 높은 정도에 따라 달라질 수 있게 되며, 이로 인해 정확한 대상 물체의 형태 변화를 예측할 수 있게 된다.

즉, 본 발명에 의한 인공신경망을 이용한 물체 추적시스템에서는 현재 영상 프레임에서 물체 위치를 예측할 때, 최대 N개의 과거 영상 프레임을 참고할 수 있는 경우 인공신경망을 이용해 참고하는 과거 영상 프레임들이 현재 영상 프레임과 시간적인 상관관계가 얼마나 높은지를 제1인공신경망(300)으로 예측하고, 이를 현재 영상 프레임에서 추적 물체의 위치를 예측하는 제2인공신경망(400)에서 이용할 수 있게 하고, 반대로 현재 영상 프레임과의 상관관계가 낮은 과거 영상 프레임들은 현재 영상 프레임의 위치 예측에서 그만큼 덜 영향을 미치게 하므로, 기존의 인공신경망에서 3차원 합성곱 연산시 모든 과거 영상 프레임들을 같은 중요도로 가정하여 특징 추출시에 발생될 수 있는 오류를 미연에 방지할 수 있게 된다.

따라서 본 발명에 의한 물체 추적시스템은 비디오 영상의 분석이나 이해가 필요한 응용 분야, 예를 들면 자율 주행차량에서 조향 및 속도 조절 판단을 내리기 위해 전방이나 측방의 보행자 및 다른 차들을 인식하고 움직임을 추적하는 기술, 드론을 이용한 영상 촬영시 드론이 촬영 대상을 추적하면서 자동으로 촬영하는 기술, 공공장소의 CCTV가 보행자들을 감지하고 범죄용의자나 수배자를 인식한 후 추적하는 기술, 의료 분야에서 특정 조직의 움직임이나 대사 활동을 추적하고 시각화하여 진단하거나 수술 로봇을 제어하는 기술, 운동경기에서 판정의 정확성 여부 분석이나 각종 통계자료 산출을 위해 공이나 선수들의 움직임을 추적하는 가술 등에 다양하게 활용할 수 있게 될 것이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

100 : 현재 영상 프레임
200, 200a-200n : 과거 영상 프레임
300 : 제1인공신경망
310 : 제1특징추출 인공신경망
320 : 제1완전연결 인공신경망
330 : 최종출력 인공신경망
400 : 제2인공신경망
410 : 제2특징추출 인공신경망
420 : 제2완전연결 인공신경망
430 : 경계상자 출력 인공신경망

Claims

비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들(100, 200a-200n)로 구성된 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임(200a-200n)에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하는 인공신경망을 이용한 물체 추적시스템에 있어서,
입력 영상의 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 입력받아 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간 상관관계를 분석하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 예측하여 출력하는 제1인공신경망(300); 및
입력 영상의 현재 영상 프레임(100)과 하나 이상의 과거 영상 프레임들(200a-200n)을 각각 입력받고 제1인공신경망(300)에서 예측된 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 반영하여 물체 형태와 움직임을 학습하고 현재 영상 프레임(100)에서 대상 물체의 위치를 예측하여, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 제2인공신경망(400);을 포함하여,
현재 영상 프레임(100)의 위치 예측을 위한 특징 추출에 기여하는 과거 영상 프레임들(200a-200n)의 기여도가 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도에 따라 가변되도록 구성하며,
상기 제1인공신경망(300)은,
영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하는 제1특징추출 인공신경망(310);
하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하여 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계 높음 정도를 예측하는 제1완전연결 인공신경망(320); 및
상기 제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성되며, 상기 제1완전연결 인공신경망(320)의 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계가 높은 정도를 수치로 출력하는 최종출력 인공신경망(330);을 포함하여 구성되는 것을 특징으로 하는 인공신경망을 이용한 물체 추적시스템.
삭제
제1항에 있어서, 상기 최종출력 인공신경망(330)은,
현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 0과 1 사이의 값으로 표시하여 출력하는 것을 특징으로 하는 인공신경망을 이용한 물체 추적시스템.
제1항에 있어서, 상기 제2인공신경망(400)은,
영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 상기 제1인공신경망(300)에서 예측된 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간 상관관계 높음 정도를 3차원 합성곱 연산들 수행시 입력 특징맵들의 선형 가중치의 합으로 반영하여 입력된 영상 프레임(100,200a-200n)들로부터 영상의 특징들을 추출하는 제2특징추출 인공신경망(410);
하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 통해 여러 개의 계층으로 분류하여 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하는 제2완전연결 인공신경망(420); 및
현재 영상 프레임에서 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2완전연결 인공신경망(420)의 출력을 입력받아 제2특징추출 인공신경망(410) 및 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망(430);을 포함하여 구성되는 것을 특징으로 하는 인공신경망을 이용한 물체 추적시스템.