KR101912569B1 - 비디오 영상에서의 물체 추적시스템 - Google Patents

비디오 영상에서의 물체 추적시스템 Download PDF

Info

Publication number
KR101912569B1
KR101912569B1 KR1020180080661A KR20180080661A KR101912569B1 KR 101912569 B1 KR101912569 B1 KR 101912569B1 KR 1020180080661 A KR1020180080661 A KR 1020180080661A KR 20180080661 A KR20180080661 A KR 20180080661A KR 101912569 B1 KR101912569 B1 KR 101912569B1
Authority
KR
South Korea
Prior art keywords
artificial neural
neural network
image frame
current image
past
Prior art date
Application number
KR1020180080661A
Other languages
English (en)
Inventor
김성찬
Original Assignee
전북대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교산학협력단 filed Critical 전북대학교산학협력단
Priority to KR1020180080661A priority Critical patent/KR101912569B1/ko
Application granted granted Critical
Publication of KR101912569B1 publication Critical patent/KR101912569B1/ko
Priority to PCT/KR2018/014014 priority patent/WO2020013395A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 발명은 비디오 영상에서의 물체 추적시스템에 관한 것으로, 과거 영상 프레임들의 시간 상관관계를 이용하여 현재 영상 프레임에서 물체 위치를 예측하기 위한 것이다.
이를 위하여 본 발명은 입력 영상의 현재 영상 프레임에서 대상 물체의 위치 예측시 최대 N개의 과거 영상 프레임을 사용하여 물체를 예측하도록 구성되는 비디오 영상에서의 물체 추적시스템에 있어서, 입력 영상의 현재 영상 프레임과 최근 M(M≤N)개의 과거 영상 프레임들을 입력받아 시간 상관관계를 분석하고 현재 영상 프레임과 시간 상관관계가 높은 시간적으로 연속인 최근 M(M≤N)개의 과거 영상 프레임들의 개수를 결정하여 다수 개의 제2인공신경망들 중의 어느 하나를 선택하는 제1인공신경망, 입력 영상의 현재 영상 프레임과 서로 다른 개수의 과거 영상 프레임들을 각각 입력받아 시간 상관관계를 이용해 물체 형태와 움직임을 학습하고 현재 영상 프레임에서 물체 위치를 예측하여 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 다수 개의 제2인공신경망들을 포함하여, 현재 영상 프레임과 특성이 다른 과거 영상 프레임들의 사용을 배제하여 물체의 형태나 크기 변화 등을 정확하게 추적할 수 있게 한다.

Description

비디오 영상에서의 물체 추적시스템{The object tracking system of video images}
본 발명은 비디오 영상에서의 물체 추적시스템에 관한 것으로, 보다 상세하게는 비디오 영상에서 물체의 형태나 크기는 시간상으로 급격하지 않게 연속적으로 변하는 특징을 이용하여, 현재 영상 프레임에서 물체 위치 예측에 사용되는 과거 영상 프레임들의 개수를 현재 영상 프레임과의 시간 상관관계에 따라 다르게 할 수 있도록 함으로써 참조 가능한 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있는 비디오 영상에서의 물체 추적시스템에 관한 것이다.
일반적으로 비디오 영상에서 물체를 인식하거나 추적하는 문제에서 미래 영상 프레임들을 현재 프레임 분석에서 알 수 있으면 오프라인 분석, 그렇지 않으면 온라인 분석이라고 한다.
특히 온라인 방식의 물체 추적은, 물체 추적 연구들은 대부분 신경망을 이용해 초기 또는 주기적으로 물체의 형태를 학습하고 현재 영상 프레임에서 학습된 물체 형태와 가장 비슷한 영역을 찾아내는 방식에 기반을 두고 있다.
반면 오프라인 방식에서는 분석해야 할 영상 프레임들이 모두 알려져 있기 때문에 특정 프레임에서 예측 작업을 수행할 때 나머지 프레임들을 모두 활용하며, 시간적으로 인접한 영상 프레임들의 상관관계를 이용해 물체의 형태나 움직임을 학습하고 미래의 변화를 예측할 수 있다.
그러나 과거 영상 프레임들을 참고하지 않고 현재 영상 프레임만을 이용하는 경우에는 과거 영상 프레임들을 참고하지 않기 때문에 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계에 관한 정보를 활용할 수 없는 단점이 있고, 과거 영상 프레임들을 참고하는 경우에는 미리 정해진 개수의 과거 영상 프레임들을 이용하여 물체를 추적하게 하므로, 현재 영상 프레임과 이전 영상 프레임들과의 시간적인 상관관계를 활용하는 것은 가능하지만 이전 영상 프레임들 중에 현재 영상 프레임과 전혀 다른 특성이 존재할 경우 부정확한 상관관계 정보가 도출될 가능성이 있어 항상 모든 과거 영상 프레임들이 도움이 되는 것은 아니다. 예를 들어 추적 물체가 배경에 의해 가려지는 상황이 발생하는 경우 이전 영상 프레임에서 현재 영상 프레임을 참고하는 것은 물체의 형태나 크기 분석에 오류를 제공할 가능성이 있다.
KR 10-1040049 B1 2011.06.02. 등록 KR 10-1731243 B1 2017.04.24. 등록 KR 10-1735365 B1 2017.05.08. 등록
따라서 본 발명은 상기의 문제점을 해결하기 위해 안출한 것으로서, 본 발명이 해결하고자 하는 기술적 과제는, 과거 영상 프레임들의 시간 상관관계를 이용하여 현재 영상 프레임에서 물체 위치 예측에 사용되는 과거 영상 프레임들의 개수를 다르게 할 수 있도록 함으로써 참조 가능한 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있는 비디오 영상에서의 물체 추적시스템을 제공하고자 하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시 형태는, 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상의 현재 영상 프레임에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하도록 구성되는 물체 추적부를 포함하는 비디오 영상에서의 물체 추적시스템에 있어서, 물체 추적부는, 입력 영상의 현재 영상 프레임과 최근 M(M≤N)개의 과거 영상 프레임들을 입력받아 영상의 특징들을 추출하고 현재 영상 프레임과 연속된 과거 영상 프레임들의 시간 상관관계를 분석하여 현재 영상 프레임과의 시간 상관관계가 높은 시간적으로 연속인 최근 M(M≤N)개의 과거 영상 프레임들의 필요개수를 예측하고 다수 개의 제2인공신경망들 중에서 해당 필요개수의 과거 영상 프레임들을 사용하는 어느 하나의 제2인공신경망 선택정보를 출력하는 제1인공신경망; 및, 입력 영상의 현재 영상 프레임과 서로 다른 개수의 과거 영상 프레임들을 각각 입력받고 현재 영상 프레임과 연속된 과거 영상 프레임들의 시간 상관관계를 이용하여 물체 형태와 움직임을 학습하고 현재 영상 프레임에서 대상 물체의 위치를 각각 예측하여, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 다수 개의 제2인공신경망들;을 포함하여, 제1인공신경망에 의해 다수 개의 제2인공신경망들 중 어느 하나가 선택되도록 하여 현재 영상 프레임의 특성에 따라 시간 상관관계 분석에 필요한 과거 영상 프레임들의 필요개수가 가변되도록 한 비디오 영상에서의 물체 추적시스템이다.
본 발명에 의하면, 과거 영상 프레임들의 시간 상관관계를 이용하여 현재 영상 프레임에서 물체 위치 예측에 사용되는 과거 영상 프레임들의 개수를 다르게 참조하여 참조 가능한 모든 과거 영상 프레임을 항상 사용하지 않고도 물체의 형태 변화 또는 위치를 추적할 수 있게 되므로, 현재 영상 프레임과 비슷한 특성을 공유하는 과거 영상 프레임들로부터 물체의 형태와 움직임에 대한 고품질의 시간적인 정보를 얻어낼 수 있게 되며, 따라서 대상 물체를 정확하게 추적할 수 있는 이점을 제공한다.
도 1은 본 발명에 의한 비디오 영상에서의 물체 추적시스템을 예시한 개략도이다.
도 2a와 도 2b는 각각 도 1의 제1인공신경망 및 제2인공신경망의 상세 구성을 예시한 개략도이다.
도 3의 (a)와 (b)는 본 발명의 이해를 돕기 위하여 배경의 특성이 다른 영상들을 각각 발췌하여 예시한 참고화면들이다.
이하, 본 발명의 바람직한 실시 형태에 따른 비디오 영상에서의 물체 추적시스템의 구성과 동작 및 그에 의한 작용 효과를 첨부 도면을 참조하여 상세히 설명한다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 의한 비디오 영상에서의 물체 추적시스템을 예시한 개략도이고, 도 2a와 도 2b는 각각 도 1의 제1인공신경망 및 제2인공신경망의 상세 구성을 예시한 개략도이며, 도 3의 (a)와 (b)는 본 발명의 이해를 돕기 위하여 배경의 특성이 다른 영상들을 각각 예시한 참고화면으로서, 도 1에 예시된 바와 같이 본 발명의 비디오 영상에서의 물체 추적시스템은, 물체 추적부가, 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)을 입력받아 현재 영상 프레임(100)과 연속된 다수의 과거 영상 프레임들(200a-200n)의 배경 특성들을 분석하고 현재 영상 프레임(100)과 과거 영상 프레임들(200a-200n)의 시간적 상관관계(즉, 과거 영상 프레임들의 배경 특성들이 현재 영상 프레임과 일관적인지의 여부)에 따라 대상 물체의 위치 예측시 참고할 과거 영상 프레임들의 필요개수를 예측하는 제1인공신경망(300), 및 현재 영상 프레임(100)과 서로 다른 개수의 과거 영상 프레임들(200a-200n)을 각각 입력받고 다수의 과거 영상 프레임들(200a-200n)의 시간 상관관계를 이용하여 추적 대상 물체의 특징을 학습하고 현재 영상 프레임(100)에서 물체 위치를 각각 예측하는 다수 개의 제2인공신경망들(400a-400n)을 포함하여, 제1인공신경망(300)의 출력값으로 다수 개의 제2인공신경망들(400a-400n) 중 필요 개수에 대응하는 개수의 과거 영상 프레임을 사용하는 제2인공신경망이 선택되도록 구성하여, 현재 영상 프레임과 과거 영상 프레임들의 시간 상관관계에 따라 물체의 위치 예측에 사용되는 과거 영상 프레임들의 개수가 가변되도록 한다.
이러한 본 발명의 물체 추적시스템은 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들(100, 200a-200n)로 구성된 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임(200a-200n)에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하도록 구성되는 물체 추적부를 포함하는 시스템에 적용되어 구현될 수 있다.
제1인공신경망(300)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)을 입력받아 영상의 특징들을 추출하고 현재 영상 프레임(100)과 연속인 과거 영상 프레임들(200a-200n)의 배경 특성들(즉, 배경의 밝기, 광원 위치, 색깔 분포, 추적 물체와의 구분 정도 변화 등)을 분석하여, 현재 영상 프레임(100)과의 시간 상관관계가 높은(즉, 배경 특성들이 현재 영상 프레임(100)과 일관된) 시간적으로 연속인 최근 M(M≤N)개의 과거 영상 프레임들(200a-200n)의 개수를 예측하고, 다수 개의 제2인공신경망들(400a-400n) 중에서 해당 개수의 과거 영상 프레임들을 사용하는 어느 하나의 제2인공신경망을 선택할 수 있게 하여 이를 대상 물체의 최종 위치정보로 출력되게 한다. 이러한 기능을 수행하기 위하여 제1인공신경망(300)은 도 2a의 상세도에 예시된 바와 같이 제1특징추출 인공신경망(310), 제1완전연결 인공신경망(320), 및 최종출력 인공신경망(330)을 포함하여 구성될 수 있다.
제1특징추출 인공신경망(310)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)을 입력받아 영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징을 추출하고 현재 영상 프레임(100)과 연속인 과거 영상 프레임들(200a-200n)의 배경 특성들(즉, 배경의 밝기, 광원 위치, 색깔 분포, 추적 물체와의 구분 정도 변화 등)을 분석하여, 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석한다.
제1완전연결 인공신경망(320)은 하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행한다. 이러한 비선형 변환으로 계산된 변수들은 최종출력 인공신경망(330)에 전달하여 다수의 제2인공신경망들(400a-400n) 중에서 현재 영상 프레임(100)과의 시간 상관관계가 높고 시간적으로 연속인 과거 영상 프레임들을 사용하는 하나의 제2인공신경망을 예측하는 자료로 사용할 수 있게 한다.
최종출력 인공신경망(330)은 제1완전연결 인공신경망(320)의 계층 분류 결과를 표시하는 1차원 벡터로서, 제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성되며, 제1완전연결 인공신경망(320)에서 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여 다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망에 대한 정보를 출력한다. 여기서 1차원 벡터값은 다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망에 대한 선택정보를 1로 표시한다.
다수 개의 제2인공신경망들(400a-400n)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 현재 영상 프레임(100)과 서로 다른 개수의 과거 영상 프레임들(200a-200n)을 각각 입력받을 수 있도록 구성된다. 이러한 다수 개의 제2인공신경망들(400a-400n)은 도 1에 예시된 바와 같이 서로 다른 개수의 과거 영상 프레임들(200a-200n)이 각각 입력되도록 설정되는 것이 바람직하다. 예를 들어 비디오 카메라 또는 동영상 파일에서 주어지는 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 최대 N개의 과거 영상 프레임(200a-200n)을 참고할 수 있는 경우, 제2인공신경망들(400a-400n)의 개수는 N개까지 사용하여 대상 물체의 위치를 예측할 수 있으며, 도 1에서는 3개의 제2인공신경망들(400a,400b,400n)이 각각 과거 영상 프레임(200a-200n)들의 개수를 각각 8개, 4개, 및 0개 사용하는 경우를 예시하고 있다.
또한 이러한 다수 개의 제2인공신경망들(400a-400n)에서는 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간 상관관계를 이용해 물체 형태와 움직임을 학습하고 현재 영상 프레임(100)에서 대상 물체의 위치를 각각 예측하며, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 좌표정보(예를 들면 직사각형의 4개 꼭지점들의 좌표, 또는 직사각형의 길이와 너비 및 중심좌표)로 출력한다. 이들 다수 개의 제2인공신경망들(400a-400n)에서 각각 예측된 대상 물체의 위치정보는 제1인공신경망(300)에서 결정된 1차원 벡터값에 따라 그 중 어느 하나가 선택된다. 또한 각각의 제2인공신경망들(400a-400n)은 도 2b의 상세도에 예시된 바와 같이 제2특징추출 인공신경망(410), 제2완전연결 인공신경망(420), 및 경계상자 출력 인공신경망(430)을 포함하여 구성될 수 있다. 도 2b에는 하나의 제2인공신경망(400a)의 상세 구성을 대표적으로 발췌하여 예시하였으며, 나머지 다른 제2인공신경망들(400b-400n)의 구성도 이와 동일하게 구성될 수 있음을 미리 밝혀둔다.
제2특징추출 인공신경망(410)은 비디오 카메라 또는 동영상 파일에서 주어지는 다수의 영상 프레임(100,200a-200n)들로 구성된 입력 영상의 영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징들을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석한다.
제2완전연결 인공신경망(420)은 하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행한다. 이러한 비선형 변환으로 계산된 변수들은 경계상자 출력 인공신경망(430)으로 전달되어 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하는 경계상자 회귀 알고리즘의 입력들이 된다.
경계상자 출력 인공신경망(430)은 현재 영상 프레임에서 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘을 포함하며, 이러한 경계상자 회귀(bounding box regression) 알고리즘은 제2완전연결 인공신경망(420)의 출력을 입력으로 받아 대상 물체를 가장 정확하게 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이를 계산한다. 즉, 제2특징추출 인공신경망(410) 및 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 좌표정보(예를 들면 직사각형을 구성하는 4개 꼭지점들의 좌표, 또는 직사각형의 길이와 너비 및 중심좌표)로 출력한다.
상기와 같은 제1인공신경망(300)과 다수 개의 제2인공신경망들(400a-400n)에서의 동작은 순차적으로 수행될 수도 있고, 거의 동시에 수행될 수도 있음은 물론이다.
이상과 같이 구성되는 본 발명에 따른 비디오 영상에서의 물체 추적시스템의 작용 효과를 설명하면 다음과 같다.
먼저, 본 발명의 비디오 영상에서의 물체 추적시스템은, 다수의 영상 프레임(100,200)들로 구성된 입력 영상이 비디오 카메라 또는 동영상 파일에서 주어지면, 제1인공신경망(300) 및 제2인공신경망들(400a-400n)에 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)이 동시에 입력된다.
상기와 같이 제1인공신경망(300)에 입력 영상의 현재 영상 프레임(100)과 다수 개의 과거 영상 프레임들(200a-200n)이 입력되면, 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 제1특징추출 인공신경망(310)에서는 현재 영상 프레임(100)과 연속된 다수 개의 과거 영상 프레임들(200a-200n)의 시간적 상관관계 분석 및 추적 대상 물체의 영상 특징들을 추출하여 제1완전연결 인공신경망(320)으로 전달한다.
하나 이상의 완전연결 계층(fully-connected layer)들로 구성된 제1완전연결 인공신경망(320)에서는 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 최종출력 인공신경망(330)의 입력으로 전달한다.
그리고 제1완전연결 인공신경망(320)의 완전연결 계층들의 개수와 같게 구성된 최종출력 인공신경망(330)에서는 제1완전연결 인공신경망(320)의 계층 분류 결과, 즉 현재 영상 프레임(100)에서 대상 물체의 위치 예측을 위해 필요한 과거 영상 프레임들의 필요개수를 예측하여 1차원 벡터값으로 출력함으로써, 다수 개의 제2인공신경망들(400a-400n) 중에서 가장 정확한 위치정보를 선택하여 이를 대상 물체의 최종 위치정보로 출력할 수 있게 한다. 즉, 최종출력 인공신경망(330)에서는 다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망의 결과를 1로 표시한다.
이와 동시에 다수 개의 제2인공신경망들(400a-400n)에 입력 영상의 현재 영상 프레임(100)과 서로 다른 개수의 과거 영상 프레임들(200a-200n)이 각각 입력되면, 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성된 제2특징추출 인공신경망(410)에서는 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 이용해 추적 대상 물체의 영상 특징들을 추출하여 제2완전연결 인공신경망(420)으로 전달한다.
그리고 하나 이상의 완전연결 계층(fully-connected layer)들로 구성된 제2완전연결 인공신경망(420)에서는 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 경계상자 출력 인공신경망(430)으로 전달한다.
마지막으로 경계상자 출력 인공신경망(430)에서는 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2완전연결 인공신경망(420)의 출력을 입력받아 현재 영상 프레임에서 대상 물체의 위치를 예측한다. 이러한 경계상자 회귀(bounding box regression) 알고리즘에서는 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 가장 정확하게 둘러싸는 경계상자의 좌표정보, 즉 해당 대상 물체를 둘러싸는 직사각형의 중심좌표, 가로/세로의 길이 등을 계산하여 직사각형의 4개 꼭지점들의 좌표, 또는 직사각형의 길이와 너비 및 중심좌표로 출력한다.
상기와 같은 동작을 수행하는 다수 개의 제2인공신경망들(400a-400n)은 제1인공신경망(300)의 1차원 벡터값에 의해 그중 어느 하나가 선택될 수 있게 되므로, 현재 영상 프레임에서 대상 물체의 위치 예측에 사용되는 과거 영상 프레임의 개수도 현재 영상 프레임의 특성에 따라 각 현재 프레임마다 달라질 수 있게 되며, 이로 인해 정확한 대상 물체의 형태변화를 예측할 수 있게 된다.
즉, 도 3의 (a)와 (b)에는 시간 상관관계의 차이가 잘 드러난 두 가지 종류의 영상을 예시화면으로 제시하고 있는데, 각 영상 프레임들에서 왼쪽 위의 숫자는 프레임 번호를 나타내며, 번호가 작은 프레임일수록 시간상으로 앞선다.
첫 번째 영상(도 3의 (a))에서는 왼쪽 사람의 얼굴을 추적하는데, 현재 영상 프레임(4번)과 과거 영상 프레임들(1번 내지 3번)을 비교하면 1번과 2번의 과거 영상 프레임들에서는 배경의 영향(비가 내려 사람의 얼굴이 가려지고 번개가 치면서 조명의 변화로 얼굴 색이 달라짐)으로 추적 물체의 특징(외형 및 색깔)이 현재 영상 프레임(4번)과 매우 다르다. 따라서 1번과 2번의 과거 영상 프레임에서는 잘못된 정보로 추척 물체(얼굴)를 학습할 수 있다. 반면 3번의 과거 영상 프레임은 현재 영상 프레임과 영상의 특징이 매우 비슷하므로 좋은 학습 데이터가 된다.
두 번째 영상(도 3의 (b))에서는 첫 번째 영상(도 3의 (a))과 달리 배경의 변화가 매우 적어 가능한 많은 과거 영상 프레임들을 물체 형태 학습에 사용하는 것이 좋다는 것을 알 수 있다.
위와 같이 배경의 특성이 다른 두 영상들에서 볼 수 있는 것처럼, 현재 영상 프레임의 특성에 따라 시간적 상관관계 분석에 필요한 과거 영상 프레임들의 개수(M)은 달라진다. 따라서 모든 과거 영상 프레임을 항상 사용할 필요가 없으며 현재 영상 프레임마다 분석에 필요한 최근 과거 영상 프레임들의 개수도 달라질 수 있다는 것이 본 발명의 특징이며 이로 인해 정확한 물체의 형태 변화를 예측할 수 있게 된다.
이상의 본 발명에 의하면, 현재 영상 프레임에서 물체 위치 예측에 사용되는 과거 영상 프레임들의 개수를 현재 영상 프레임의 특성에 따라 다르게 결정할 수 있도록 하여 모든 과거 영상 프레임을 항상 사용하지 않고도 현재 영상 프레임 속의 물체를 정확하게 추적할 수 있게 되므로, 현재 영상 프레임과 비슷한 특성을 공유하는 이전 영상 프레임들로부터 물체의 형태와 움직임에 대한 고품질의 시간적인 정보를 얻어낼 수 있어 대상 물체를 정확하게 추적할 수 있게 된다.
따라서 본 발명에 의한 물체 추적시스템은 비디오 영상의 분석이나 이해가 필요한 응용 분야, 예를 들면 자율 주행차량에서 조향 및 속도 조절 판단을 내리기 위해 전방이나 측방의 보행자 및 다른 차들을 인식하고 움직임을 추적하는 기술, 드론을 이용한 영상 촬영시 드론이 촬영 대상을 추적하면서 자동으로 촬영하는 기술, 공공장소의 CCTV가 보행자들을 감지하고 범죄용의자나 수배자를 인식한 후 추적하는 기술, 의료 분야에서 특정 조직의 움직임이나 대사 활동을 추적하고 시각화하여 진단하거나 수술 로봇을 제어하는 기술, 운동경기에서 판정의 정확성 여부 분석이나 각종 통계자료 산출을 위해 공이나 선수들의 움직임을 추적하는 기술 등에 다양하게 활용할 수 있게 될 것이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 현재 영상 프레임
200, 200a-200n : 과거 영상 프레임
300 : 제1인공신경망
310 : 제1특징추출 인공신경망
320 : 제1완전연결 인공신경망
330 : 최종출력 인공신경망
400a-400n : 제2인공신경망들
410 : 제2특징추출 인공신경망
420 : 제2완전연결 인공신경망
430 : 경계상자 출력 인공신경망

Claims (4)

  1. 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들(100, 200a-200n)로 구성된 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임(200a-200n)에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하도록 구성되는 물체 추적부를 포함하는 비디오 영상에서의 물체 추적시스템에 있어서,
    상기 물체 추적부는,
    입력 영상의 현재 영상 프레임(100)과 최근 M(M≤N)개의 과거 영상 프레임들(200a-200n)을 입력받아 영상의 특징들을 추출하고 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 배경 특성들(배경의 밝기, 광원 위치, 색깔 분포, 추적 물체와의 구분 정도 변화)을 분석하여 현재 영상 프레임(100)과 일관된 배경특성을 가지는(현재 영상 프레임과의 시간적 상관관계가 높은), 시간적으로 연속인 최근 M(M≤N)개의 과거 영상 프레임들(200a-200n)의 개수를 예측하고, 다수 개의 제2인공신경망들(400a-400n) 중에서 해당 필요개수의 과거 영상 프레임들을 사용하는 어느 하나의 제2인공신경망 선택정보를 출력하는 제1인공신경망(300); 및
    입력 영상의 현재 영상 프레임(100)과 서로 다른 개수의 과거 영상 프레임들(200a-200n)을 각각 입력받고 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간 상관관계를 이용하여 물체 형태와 움직임을 학습하고 현재 영상 프레임(100)에서 대상 물체의 위치를 각각 예측하여, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 다수 개의 제2인공신경망들(400a-400n);을 포함하여,
    현재 영상 프레임과 과거 영상 프레임들의 시간 상관관계에 따라 물체의 위치 예측에 사용되는 과거 영상 프레임들의 개수가 가변되도록 한 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템.
  2. 제1항에 있어서, 상기 제1인공신경망(300)은,
    영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하는 제1특징추출 인공신경망(310);
    하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 최종출력 인공신경망(330)의 입력으로 제공하여 최종출력 인공신경망(330)에서 다수의 제2인공신경망들(400a-400n) 중에서 현재 영상 프레임(100)과의 시간 상관관계가 높고 시간적으로 연속인 과거 영상 프레임들을 사용하는 하나의 제2인공신경망을 예측하는 자료로 사용할 수 있게 하는 제1완전연결 인공신경망(320); 및
    상기 제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성되며, 상기 제1완전연결 인공신경망(320)에서 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여, 다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망에 대한 정보를 출력하는 최종출력 인공신경망(330);을 포함하여 구성되는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템.
  3. 제2항에 있어서, 상기 최종출력 인공신경망(330)은,
    다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망 선택 정보를 1로 표시하여 출력하는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템.
  4. 제1항에 있어서, 상기 다수 개의 제2인공신경망들(400a-400n)은,
    영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징들을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하는 제2특징추출 인공신경망(410);
    하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 경계상자 출력 인공신경망(430)의 입력으로 제공하여 경계상자 출력 인공신경망(430)에서 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하는 자료로 사용할 수 있게 하는 제2완전연결 인공신경망(420); 및
    현재 영상 프레임에서 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2완전연결 인공신경망(420)의 출력을 입력받아 제2특징추출 인공신경망(410) 및 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망(430);을 포함하여 구성되는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템.
KR1020180080661A 2018-07-11 2018-07-11 비디오 영상에서의 물체 추적시스템 KR101912569B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180080661A KR101912569B1 (ko) 2018-07-11 2018-07-11 비디오 영상에서의 물체 추적시스템
PCT/KR2018/014014 WO2020013395A1 (ko) 2018-07-11 2018-11-15 비디오 영상에서의 물체 추적 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180080661A KR101912569B1 (ko) 2018-07-11 2018-07-11 비디오 영상에서의 물체 추적시스템

Publications (1)

Publication Number Publication Date
KR101912569B1 true KR101912569B1 (ko) 2018-10-26

Family

ID=64099099

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180080661A KR101912569B1 (ko) 2018-07-11 2018-07-11 비디오 영상에서의 물체 추적시스템

Country Status (1)

Country Link
KR (1) KR101912569B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
KR20210030245A (ko) * 2019-09-05 2021-03-17 센스타임 인터내셔널 피티이. 리미티드. 이미지에서의 시퀀스를 인식하는 방법 및 장치, 전자 기기 및 기억 매체
CN112530553A (zh) * 2020-12-03 2021-03-19 中国科学院深圳先进技术研究院 软组织与工具之间的交互力估计方法及装置
WO2021060700A1 (ko) * 2019-09-24 2021-04-01 가톨릭대학교 산학협력단 비디오투시 연하검사 판독 장치 및 방법
US11308324B2 (en) 2019-08-26 2022-04-19 Samsung Electronics Co., Ltd. Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
KR20220129905A (ko) * 2021-03-17 2022-09-26 삼성전자주식회사 대상 객체를 추적하는 방법과 장치 및 전자 장치
US11544855B2 (en) 2020-03-18 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
US11669565B2 (en) 2021-02-22 2023-06-06 Si Analytics Co., Ltd. Method and apparatus for tracking object

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040049B1 (ko) 2010-12-02 2011-06-09 군산대학교산학협력단 영상 기반 감시 시스템에서 신속하고 강인한 다수 이동 물체 추적 방법
KR101709085B1 (ko) * 2015-12-16 2017-02-23 서강대학교산학협력단 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치
KR101731243B1 (ko) 2015-12-15 2017-04-28 군산대학교 산학협력단 유사한 색상을 지닌 다중 이동 물체의 식별 및 추적을 위한 영상 감시 장치 및 방법
KR101735365B1 (ko) 2017-01-19 2017-05-16 (주)나인정보시스템 학습 기반의 영상 내 관심 물체 검지 및 환경 변화에 강인한 물체 추적 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040049B1 (ko) 2010-12-02 2011-06-09 군산대학교산학협력단 영상 기반 감시 시스템에서 신속하고 강인한 다수 이동 물체 추적 방법
KR20170070715A (ko) * 2015-12-14 2017-06-22 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
KR101731243B1 (ko) 2015-12-15 2017-04-28 군산대학교 산학협력단 유사한 색상을 지닌 다중 이동 물체의 식별 및 추적을 위한 영상 감시 장치 및 방법
KR101709085B1 (ko) * 2015-12-16 2017-02-23 서강대학교산학협력단 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치
KR101735365B1 (ko) 2017-01-19 2017-05-16 (주)나인정보시스템 학습 기반의 영상 내 관심 물체 검지 및 환경 변화에 강인한 물체 추적 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sun et al. An improved multi-domain convolution tracking algorithm. ICGIP 2017, Vol. 10615, 2018년 4월, p. 106155M. *
김민지, 김성찬. 컨볼루션 특징 맵의 상관관계를 이용한 영상물체추적. 대한임베디드공학회논문지, vol. 11, no. 4, 2016년, pp. 219-225. *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
US11308324B2 (en) 2019-08-26 2022-04-19 Samsung Electronics Co., Ltd. Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
KR20210030245A (ko) * 2019-09-05 2021-03-17 센스타임 인터내셔널 피티이. 리미티드. 이미지에서의 시퀀스를 인식하는 방법 및 장치, 전자 기기 및 기억 매체
KR102421819B1 (ko) 2019-09-05 2022-07-15 센스타임 인터내셔널 피티이. 리미티드. 이미지에서의 시퀀스를 인식하는 방법 및 장치, 전자 기기 및 기억 매체
WO2021060700A1 (ko) * 2019-09-24 2021-04-01 가톨릭대학교 산학협력단 비디오투시 연하검사 판독 장치 및 방법
US11544855B2 (en) 2020-03-18 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
US11967088B2 (en) 2020-03-18 2024-04-23 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
CN112530553A (zh) * 2020-12-03 2021-03-19 中国科学院深圳先进技术研究院 软组织与工具之间的交互力估计方法及装置
US11669565B2 (en) 2021-02-22 2023-06-06 Si Analytics Co., Ltd. Method and apparatus for tracking object
KR20220129905A (ko) * 2021-03-17 2022-09-26 삼성전자주식회사 대상 객체를 추적하는 방법과 장치 및 전자 장치
US11790541B2 (en) 2021-03-17 2023-10-17 Samsung Electronics Co., Ltd. Method and apparatus with target object tracking
KR102637342B1 (ko) * 2021-03-17 2024-02-16 삼성전자주식회사 대상 객체를 추적하는 방법과 장치 및 전자 장치

Similar Documents

Publication Publication Date Title
KR101912569B1 (ko) 비디오 영상에서의 물체 추적시스템
Wang et al. Automatic laser profile recognition and fast tracking for structured light measurement using deep learning and template matching
Ibrahim et al. An automatic Arabic sign language recognition system (ArSLRS)
CN107545582B (zh) 基于模糊逻辑的视频多目标跟踪方法及装置
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
Xiong et al. Spatiotemporal modeling for crowd counting in videos
Bhagat et al. Indian sign language gesture recognition using image processing and deep learning
Javed et al. Knight/spl trade: a real time surveillance system for multiple and non-overlapping cameras
CN104378582B (zh) 一种基于ptz摄像机巡航的智能视频分析系统及方法
KR101912570B1 (ko) 인공신경망을 이용한 물체 추적시스템
WO2017150032A1 (en) Method and system for detecting actions of object in scene
Žemgulys et al. Recognition of basketball referee signals from real-time videos
Demiröz et al. Feature-based tracking on a multi-omnidirectional camera dataset
Lian et al. Spatial–temporal consistent labeling of tracked pedestrians across non-overlapping camera views
Bour et al. Crowd behavior analysis from fixed and moving cameras
KR20170097265A (ko) 다중 이동 객체 추적 시스템 및 이를 이용한 다중 이동 객체 추적 방법
KR101959436B1 (ko) 배경인식을 이용한 물체 추적시스템
CN111199556A (zh) 基于摄像头的室内行人检测和跟踪方法
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
Putro et al. An efficient face detector on a cpu using dual-camera sensors for intelligent surveillance systems
KR101675692B1 (ko) 구조 학습 기반의 군중 행동 인식 방법 및 장치
Ding et al. Opportunistic image acquisition of individual and group activities in a distributed camera network
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
Wang et al. Human detection based on a sequence of thermal images using deep learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant