KR101991043B1

KR101991043B1 - 비디오 서머리 방법

Info

Publication number: KR101991043B1
Application number: KR1020170153317A
Authority: KR
Inventors: 김윤; 안상섭; 심재민; 최승현; 전경미; 김민지; 이재원; 홍다솔; 최세헌
Original assignee: 주식회사 지오비전
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2019-06-19
Also published as: KR20190056161A

Abstract

비디오 서머리 방법이 개시된다. 본 개시에 따른 제1 기간의 소스 영상으로부터 상기 제1 기간보다 짧은 제2 기간의 서머리 영상을 생성하는 비디오 서머리 방법은 상기 소스 영상을 수신하는 단계, 상기 소스 영상에 포함되는 복수의 프레임들 중 일부인 제1 프레임들을 샘플링하는 단계, 상기 제1 프레임들에 대해서 객체와 배경을 분리함으로서 학습 데이터를 생성하는 단계, 상기 제1 학습 데이터에 기초하여 컨볼루션 신경망(Convolution Neural Network;CNN)을 학습시키고 이를 이용해 상기 복수의 프레임들 중 상기 제1 프레임들을 제외한 나머지 프레임들인 제2 프레임들에 대해서 제1 확률맵을 예측하는 단계 및 상기 제1 기간에 포함되는 상기 복수의 프레임들의 객체들을 동시에 디스플레이 함으로써 상기 서머리 영상을 생성하는 단계를 포함할 수 있다.

Description

비디오 서머리 방법{VIDEO SUMMARIZATION METHOD}

본 개시의 기술적 사상은 소스 영상을 요약함으로서 서머리 영상을 생성하고, 소스 영상에 포함되는 객체에 인덱싱을 수행하는 비디오 서머리 방법에 관한 것이다.

비디오 서머리(Video Summary)는 장시간의 비디오를 단시간의 비디오로 축약하는 기술로서 움직이는 물체를 추적하거나 분석해서 객체와 객체의 행동에 대하여 데이터 베이스를 구성하고 동일한 화면에 객체가 표시된 서로 다른 시간을 화면에 표시하는 기술을 말한다. 기존의 비디오 서머리 기술은 모든 프레임에 대해서 객체와 배경을 분리해야 했기 때문에 그 처리 시간이 오래 걸리는 단점이 있었다.

본 개시의 기술적 사상이 해결하고자 하는 일 과제는 컨볼루션 신경망(Convoltional Neural Network; CNN)을 이용하여 프레임에 대한 객체와 배경을 효율적으로 분리하는 비디오 서머리 방법을 제공하는 것이다.

본 개시의 기술적 사상이 해결하고자 하는 또 다른 과제는 객체 트래킹을 상황별로 서로 다르게 수행함으로서 효율적인 객체 인덱싱을 수행하는 비디오 서머리 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상의 일측면에 따른 제1 기간의 소스 영상으로부터 상기 제1 기간보다 짧은 제2 기간의 서머리 영상을 생성하는 비디오 서머리 방법은 상기 소스 영상을 수신하는 단계, 상기 소스 영상에 포함되는 복수의 프레임들 중 일부인 제1 프레임들을 샘플링하는 단계, 상기 제1 프레임들에 대해서 객체와 배경을 분리함으로서 학습 데이터를 생성하는 단계, 제 1 학습 데이터에 기초하여 컨볼루션 신경망(Convolution Neural Network;CNN)의 가중치를 조절하는 과정인 학습을 진행하는 단계 및 제1 프레임들을 제외한 나머지 프레임들인 제2 프레임들에 대해서 해당 신경망을 기반으로 제1 확률맵을 예측하는 단계, 상기 제1 기간에 포함되는 상기 복수의 프레임들의 객체들을 동시에 디스플레이 함으로써 상기 서머리 영상을 생성하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 제1 확률맵을 생성하는 단계는, 상기 제1 학습 데이터를 기초로 하여 컨볼루션 신경망(CNN)을 학습시키는 단계, 학습된 컨볼루션 신경망(CNN)을 기반으로 상기 제2 프레임들 각각에 대해 제2 확률맵을 예측하는 단계 및 상기 제2 확률맵을 기초로 하여 상기 제2 프레임들 각각에 대해 컨볼루션 신경망(CNN)을 기반으로 상기 제1 확률맵을 예측하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 제2 확률맵을 생성하는 단계는, 상기 제2 프레임들 각각에 대해서 다운 샘플링함으로서 제2 서브 프레임들을 생성하는 단계, 상기 제1 학습 데이터를 기초로 하여 컨볼루션 신경망(CNN)을 학습시키고 상기 제2 서브 프레임들 각각에 대해 학습된 컨볼루션 신경망(CNN)을 기반으로 제2 서브 확률맵을 예측하는 단계 및 상기 제2 서브 확률맵을 업 샘플링 함으로서 제3 서브 확률맵을 생성하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 제2 확률맵을 생성하는 단계는, 상기 제1 학습 데이터를 기초로 하여 컨볼루션 신경망(CNN)을 학습시키고 상기 제2 서브 프레임들 각각에 대해 학습된 컨볼루션 신경망(CNN)을 기반으로 제4 서브 확률맵을 예측하는 단계 및 상기 제3 서브 확률맵 및 상기 제4 서브 확률맵의 평균값을 계산함으로서 상기 제2 확률맵을 생성하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 서머리 영상을 생성하는 단계는, 상기 복수의 프레임들의 객체들 각각에 대해 상기 복수의 프레임들 각각의 녹화 시간을 인덱싱하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 복수의 프레임들의 객체들을 프레임의 흐름에 따라서 트래킹하는 단계를 더 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 트래킹 하는 단계는 상기 객체들의 상태에 기초하여 상기 객체들을 서로 다른 방법으로 트래킹하고 인덱스 넘버를 부여하고, 상기 서머리 영상을 생성하는 단계는 상기 인덱스 넘버에 기초하여 상기 객체들을 인덱싱하는 것을 특징으로 할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 트래킹하는 단계는, 상기 객체들이 상기 복수의 프레임들 각각에 새로 나타났는지 여부에 따라서 제1 분류하는 단계, 상기 제1 분류에 기초하여, 새로 나타난 객체에 대해서는 새로운 인덱스 넘버를 부여하는 단계 및 상기 제1 분류에 기초하여, 이전 프레임에 존재하는 객체에 대해서는 이전 프레임의 인덱스 넘버를 유지하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따라, 상기 트래킹하는 단계는, 상기 객체들이 서로 겹치는지 여부에 따라서 제2 분류하는 단계, 상기 제2 분류에 기초하여 서로 겹쳐지지 않는 제1 객체에 대해서 제1 인덱스 넘버를 부여하고, 제2 객체에 대해서 제2 인덱스 넘버를 부여하는 단계 및 상기 제2 분류에 기초하여 서로 겹쳐지는 복수의 객체에 대해서 제3 인덱스 넘버를 부여하는 단계를 포함할 수 있다.

본 개시의 기술적 사상의 또 다른 측면에 따른 제1 기간의 소스 영상으로부터 상기 제1 기간보다 짧은 제2 기간의 서머리 영상을 생성하는 비디오 처리 장치는 상기 소스 영상을 수신하고 컨볼루션 신경망을 이용하여 상기 소스 영상에는 포함되는 객체를 배경으로부터 추출하는 객체 추출부, 배경으로부터 추출된 상기 객체의 상태에 기초하여 상기 객체를 서로 다른 방법으로 트래킹하고 인덱싱하는 트래킹 부 및 인덱싱된 상기 객체를 서머리하여 상기 서머리 영상을 생성하는 서머리 부를 포함할 수 있다.

본 개시의 일 실시예에 따른 비디오 서머리 방법은 일부 프레임에 대해서 객체를 배경으로부터 분리하고, 상기 분리 결과를 이용하여 컨볼루션 신경망(CNN)을 통해 학습시킴으로서 전체 프레임에 대해서 효율적인 분리 동작을 수행할 수 있다.

본 개시의 일 실시예에 따른 비디오 서머리 방법은 분리된 객체에 대한 트래킹 수행시에 상황별로 서로 다른 방법에 따라서 트래킹을 수행함으로서 객체에 대해서 효율적으로 인덱싱할 수 있다.

도 1은 본 개시의 기술적 사상에 따른 비디오 처리 시스템을 나타내는 도면이다.
도 2은 본 개시의 예시적 실시예에 따른 비디오 처리 장치를 나타내는 블록도이다.
도 3는 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 순서도이다.
도 4은 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 도면이다.
도 5는 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 순서도이다. (S130에 CNN을 기반으로 예측함으로써 확률맵 생성)
도 6는 본 개시의 예시적 실시예에 따른 컨볼루션 신경망을 이용하여 타겟 프레임에 대한 확률맵을 생성하는 방법을 나타내는 도면이다.
도 7은 본 개시의 예시적 실시예에 따른 멀티-스케일 컨볼루션 신경망을 나타내는 도면이다.
도 8은 본 개시의 예시적 실시예에 따른 컨볼루션 신경망 구조를 나타내는 도면이다.
도 9은 본 개시의 예시적 실시예에 따른 트래킹 방법을 나타내는 순서도이다.
도 10는 본 개시의 예시적 실시예에 따른 객체 트래킹 방법을 나타내는 도면이다.
도 11는 본 개시의 예시적 실시예에 따른 객체 트래킹 방법을 나타내는 도면이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성된다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 개시의 기술적 사상에 따른 비디오 처리 시스템을 나타내는 도면이다.

도 1을 참조하면, 비디오 처리 장치(20)는 소스 영상(10)을 수신하고, 소스 영상(10)에 대해서 객체를 배경으로부터 추출하고, 그 결과를 이용하여 비디오 서머리를 수행할 수 있다. 본 명세서에서 객체는 정적인 배경에서 동적으로 움직이는 사람, 동물, 사물 등을 의미할 수 있다. 본 개시의 기술적 사상에 따르면, 소스 영상(10)에 대한 객체를 배경으로부터 추출하는 과정에서 컨볼루션 신경망이 사용될 수 있다. 딥러닝(deep learning) 기술의 핵심 계산 모형인 컨볼루션 신경망은, 각각의 뉴런이 인간의 시각 신경계에서 중복 영역의 응답 특성과 유사한 특성을 갖도록 다중 계층으로 배치된 인공신경망의 한 종류이다.

컨볼루션 신경망은 계층의 수가 많아질수록 복잡한 패턴의 영상 및 음성을 높은 인식률로 인식할 수 있다는 장점이 있다. 그에 따라, 오랫동안 정체 상태에 머물러 있던 영상 및 음성 인식률이 최근 들어 컨볼루션 신경망 기술에 의해 극적으로 높아지고 있다. 그 결과, 컨볼루션 신경망은 영상인식, 음성인식, 언어번역 등 다양한 머신러닝(machine learning) 분야에서 각광받고 있다. 또한, 컨볼루션 신경망은, 다중 계층 퍼셉트론(multi-layered perceptron)과 같은 기존의 전통적인 신경망 모델과 비교하여, 별도의 특징 추출 과정이 필요하지 않고 파라미터(parameter)에 소요되는 데이터 양이 적어 제한된 메모리 용량으로도 구현할 수 있다는 장점이 있다.

본 개시의 기술적 사상에 따르면 소스 영상(10)에 대한 배경과 객체를 분리하는 과정에서 컨볼루션 신경망이 사용됨에 따라서, 많은 양의 프레임에 대해서 개별적으로 객체를 배경으로부터 추출할 필요없이 일부 프레임에 대한 추출 결과를 기초로 학습된 학습 데이터를 이용하여 나머지 프레임에 대해서 객체를 배경으로부터 추출하기 때문에 소모되는 처리 과정이 단순해질 수 있고, 처리 시간이 단축될 수 있다.

본 개시의 비디오 서머리 방법은 소스 영상(10)을 입력받아 소스 영상으로부터 입수자 또는 대상 객체를 검출하여 추적하는 비디오 처리 장치(20) 상의 프로그램 시스템(30)에 의해 실시될 수 있다. 즉, 일 실시예에서, 상기 동적 배경을 가진 영상에 대한 비디오 서머리 방법은 프로그램으로 구성되어 비디오 처리 장치(20)에 설치되어 실행될 수 있다. 일 실시예에서, 상기 비디오 서머리 방법은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 일 실시예에서, 상기 비디오 서머리 방법은 스테레오 영상(또는 이미지)의 워터마킹 등만을 전용으로 처리하는 전용 비디오 처리 장치(20)로 개발될 수도 있다.

도 1에서는 비디오 처리 장치(20)가 컴퓨터인 것으로 도시되어 있으나, 이는 일 예시일 뿐이고, 비디오 처리 장치(20)는 워크스테이션, 넷북(net-book), PDA(Personal Digital Assistants), 포터블(portable) 컴퓨터, 웹 타블렛(web tablet), 무선 전화기(wireless phone), 모바일 폰, 스마트 폰, e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 네비게이션 장치, 블랙박스, 디지털 카메라, DMB (Digital Multimedia Broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 영상 녹화기(digital picture recorder), 디지털 영상 재생기(digital picture player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player) 등과 같이 비디오 처리를 위한 계산 능력을 갖고 있는 컴퓨팅 장치를 포함할 수 있다.

일 실시예에서, 비디오 처리 장치(20)는 디스플레이 장치를 포함하고, 소스 영상(10)에 대한 비디오 서머리를 수행한 결과 생성된 서머리 영상을 디스플레이 장치를 통해 출력할 수 있다.

소스 영상(10)은 연속적인 시간상에서 다수의 프레임으로 구성된 영상일 수있다. 예를 들어, 현재 프레임이 t시간에서의 프레임이면, 이전 프레임은 t-1, t-2, t-3 등의 시간에서의 프레임이고, 이후 프레임은 t+1, t+2, t+3,... 등의 시간에서의 프레임일 수 있다. 영상은 시간적으로 연속된 다수의 프레임으로 구성될 수 있다. 즉, 촬영 영상은 ..., t-3, t-2, t-1, t, t+1, t+2, t+3, ... 시간 대의 프레임으로 구성될 수 있다. 본 명세서에서 비디오 처리가 수행되고 있는 프레임을 현재 프레임이라고하고, 그 후 시간에 대한 프레임을 이후 프레임, 그 전 시간에 대한 프레임을 이전 프레임이라고 칭한다. 영상은 다수의 프레임으로 구성되나, 이하에서, 특별히 구별의 필요성이 없으면, 프레임과 영상을 혼용하기로 한다.

도 2은 본 개시의 예시적 실시예에 따른 비디오 처리 장치를 나타내는 블록도이다.

도 2을 참조하면, 비디오 처리 장치(20)는 객체 추출부(110), 트래킹 부(120) 및 서머리 부(130)를 포함할 수 있다. 객체 추출부(110)는 소스 영상(SCV)을 수신하고, 소스 영상에 포함되는 객체를 배경으로부터 추출할 수 있다. 본 개시의 기술적 사상에 따르면, 비디오 처리 장치는 컨볼루션 신경망에 기초하여 객체를 배경으로부터 추출할 수 있다. 이에 관해서는 도 5 내지 도 8에서 후술한다.

트래킹 부(120)는 추출한 객체을 트래킹하고, 트래킹한 객체에 인덱싱을 수행할 수 있다. 본 개시의 일 실시예에 따르면, 트래킹 부(120)는 추출한 객체를 인덱싱하기 위한 트래킹 과정에서 상황 별로 서로 다른 방법으로 트래킹할 수 있다. 이에 관해서는 도 9 내지 도 11에서 후술한다.

서머리 부(130)는 추출되어 인덱싱된 복수의 객체를 하나의 비디오로 서머리함으로서 서머리 영상(SMV)를 생성할 수 있다. 서머리 영상(SMV)은 소스 영상(SCV)에 비해 짧은 길이를 가질 수 있다.

도 3는 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 순서도이다.

도 1 및 도 3를 참조하면, 비디오 처리 장치(20)는 소스 영상(10)을 수신할 수 있다(S10). 비디오 처리 장치(20)는 컨볼루션 신경망에 기초하여 소스 영상(10)의 객체를 배경으로부터 추출할 수 있다(S20). 비디오 처리 장치(20)는 추출한 객체를 인덱싱할 수 있다(S30). 본 개시의 일 실시예에 따르면, 비디오 처리 장치(20)는 추출한 객체를 인덱싱하기 위한 트래킹 과정에서 상황 별로 서로 다른 방법으로 트래킹할 수 있다. 이에 관해서는 도 9 등에서 후술한다. 비디오 처리 장치(20)는 인덱싱된 객체를 서머리함으로서 서머리 영상을 생성할 수 있다(S40).

도 4은 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 도면이다.

도 1 및 도 4을 참조하면, 비디오 처리 장치(20)는 제1 기간의 길이를 갖는 소스 영상(10)을 수신할 수 있다. 도 4에 도시된 프레임은 소스 영상(10)에 포함되고, 제1 시간(t1) 내지 제5 시간(t5)에 대응되는 프레임일 수 있다. 비디오 처리 장치(20)는 소스 영상(10)에 포함되는 객체를 배경으로부터 추출할 수 있다. 본 개시의 일 실시예에 따르면, 비디오 처리 장치(20)는 소스 영상(10)에 포함되는 프레임 중 일부 프레임을 샘플링하고, 샘플링한 상기 일부 프레임에 대해서 객체 추출 알고리즘(예를 들면, Pixel-Based Adaptive Word Consensus Swgmenter; PAWCS)을 이용하여 객체를 추출할 수 있다. 또한, 비디오 처리 장치(20)는 상기 객체 추출 알고리즘을 이용하여 생성한 객체 추출 결과를 학습 데이터로서 이용하여 상기 일부 프레임을 제외한 나머지 프레임들에 대해서 객체를 추출할 수 있다. 나머지 프레임들에 대해서 객체를 추출하는 과정에서, 비디오 처리 장치(20)는 상기 객체 추출 결과에 기초한 컨볼루션 신경망을 이용하여 상기 나머지 프레인들에 포함되는 객체를 추출할 수 있다.

상기와 같은 방법으로 추출된 객체들은 비디오 처리 장치(20)에 포함된 데이터 베이스에 저장될 수 있다. 일 실시예에서 데이터 베이스는 적어도 하나의 메모리를 포함할 수 있고, 상기 적어도 하나의 메모리는 동적 랜덤 억세스 메모리(DRAM)(예를 들면, DDR SDRAM (Double Data Rate Synchronous Dynamic Ramdom Access Memory), LPDDR(Low Power Double Data Rate) SDRAM, GDDR (Graphics Double Data Rate) SDRAM, RDRAM (Rambus Dynamic Ramdom Access Memory)), 정적 랜덤 억세스 메모리(SRAM), 래치(Latch), 플립플롭(Flip-Flop), 레지스터(Register) 등과 같은 휘발성 메모리 장치일 수 있고, 낸드 플래시 메모리(NAND Flash Memory), 수직형 낸드 플래시 메모리(VNAND), 노아 플래시 메모리(NOR Flash Memory), 저항성 램(RRAM), 상변화 메모리(PRAM), 자기저항 메모리(MRAM), 강유전체 메모리(FRAM), 스핀주입 자화반전 메모리(STT-RAM) 등과 같은 비휘발성 메모리 장치일 수 있다.

비디오 처리 장치(20)는 수집된 복수의 시점의 복수의 객체들에 대해서 인덱싱을 수행할 수 있다. 일 실시예에서, 비디오 처리 장치(20)는 복수의 객체들에 각 시점에 대한 정보를 추가함으로서 객체 인덱싱을 수행할 수 있다. 제1 시점(t1)에 대응되는 프레임에 포함되는 객체에는 제1 시간(t1)이 인덱싱 될 수 있고, 제2 시점(t2)에 대응되는 프레임에 포함되는 객체에는 제2 시간(t2)이 인덱싱 될 수 있고, 제3 시점(t3)에 대응되는 프레임에 포함되는 객체에는 제3 시간(t3)이 인덱싱 될 수 있고, 제5 시점(t5)에 대응되는 프레임에 포함되는 객체에는 제5 시간(t5)이 인덱싱 될 수 있다. 다만, 제4 시점(t4)의 프레임의 경우 객체가 없기 때문에 서머리 영상에서 표시되는 객체가 없을 수 있다. 비디오 처리 장치(20)는 객체 인덱싱을 수행한 복수의 객체들 및 배경을 한 화면에 출력함으로서 서머리 영상을 생성할 수 있다. 서머리 영상은 제2 기간의 길이를 가질 수 있고, 일 실시예에서, 제2 기간은 소스 영상의 제1 기간보다 더 짧을 수 있다. 또 다른 실시예에서 서머리 영상은 하나의 장면(또는 픽쳐)으로 구성될 수 있다.

도 5는 본 개시의 예시적 실시예에 따른 비디오 서머리 방법을 나타내는 순서도이다. 자세하게는 도 5는 도 3의 추출 단계(S20)을 나타내는 순서도이다.

도 1 및 도 5를 참조하면, 비디오 처리 장치(20)는 소스 영상에 포함되는 제1 프레임을 샘플링할 수 있다(S110). 일 예시에서, 비디오 처리 장치(20)는 소스 영상의 복수의 프레임 중 등간격의 N(N은 1이상의 자연수)개의 프레임을 제1 프레임으로서 샘플링할 수 있다. 비디오 처리 장치(20)는 제1 프레임들에 포함된 객체를 배경으로부터 추출함으로서 학습 데이터를 생성할 수 있다(S120). 일 실시예에서 비디오 처리 장치(20)는 PAWCS 알고리즘을 이용하여 제1 프레임들에 포함된 객체를 배경으로부터 추출할 수 있고, 학습 데이터는 제1 프레임들에 포함된 객체를 나타내는 확률맵일 수 있다.

비디오 처리 장치(20)는 생성한 학습 데이터에 기초하여 컨볼루션 신경망을학습시키고 소스 영상의 복수의 프레임 중 제1 프레임을 제외한 나머지 제2 프레임에 대해서 해당 컨볼루션 신경망을 이용하여 확률맵을 예측해낼 수 있다(S130). 일 실시예에서 제1 확률맵은 제2 프레임의 각 픽셀별 객체가 있을 확률을 나타낼 수 있다.

도 6는 본 개시의 예시적 실시예에 따른 컨볼루션 신경망을 이용하여 타겟 프레임에 대한 확률맵을 생성하는 방법을 나타내는 도면이다. 도 6는 도 5의 확률맵 생성 단계(S130)을 나타내는 도면일 수 있다.

도 1, 도 5 및 도 6를 참조하면, 비디오 처리 장치(20)는 타겟 프레임(TF)에 대해서 제1 컨볼루션 신경망(CNN1)을 적용함으로서 제1 확률맵(PM1)을 생성할 수 있다. 제1 확률맵을 생성하는 과정에서 도 5에서 상술한 학습 데이터가 활용될 수 있다. 즉, 비디오 처리 장치(20)는 제1 프레임에 대한 객체 추출 알고리즘에 따라서 생성한 학습 데이터를 이용하여 컨볼루션 신경망을 학습시킬 수 있고 해당 컨볼루션 신경망을 이용해 타겟 프레임(TF)에 대한 제1 확률맵(PM1)을 예측할 수 있다.

본 개시의 일 실시예에 따르면, 제1 컨볼루션 신경망(CNN1)은 멀티-스케일 컨볼루션 신경망(Multi Scale Convoltion Neural Network)일 수 있다. 멀티-스케일 컨볼루션 신경망은 타겟 프레임(TF)에 대한 다운 샘플링을 수행한 프레임에 대해서 컨볼루션 신경망에 따른 확률맵을 생성하고 다시 업 샘플링할 수 있다. 비디오 처리 장치(20)는 결과적으로 생성된 복수의 확률맵들에 대해 평균값을 제1 확률맵(PM)으로 결정할 수 있다. 비디오 처리 장치(20)는 멀티-스케일 컨볼루션 신경망을 사용함으로서 사이즈가 서로 다른 객체에 대해서도 정확한 확률맵을 생성할 수 있다. 이에 관해서는 도 7에서 상세하게 후술한다.

비디오 처리 장치(20)는 제1 확률맵(PM1)을 활용하여 타겟 프레임(TF)에 대해서 다시 제2 컨볼루션 신경망(CNN2)을 적용함으로서 제2 확률맵(PM2)을 생성할 수 잇다. 제2 확률맵(PM2)은 타겟 프레임에 포함된 객체 확률 정보를 포함할 수 있다. 제2 컨볼루션 신경망(CNN2)에 대해서는 도 8에서 후술한다.

본 명세서에서는 상술한 바와 같이 타겟 프레임(TF)에 대해서 제1 컨볼루션 신경망(CNN1)을 수행하고, 그 결과에 대해서 다시 제2 컨볼루션 신경망(CNN2)을 수행하는 방법을 연속 컨볼루션 신경망(Cascade Convolution Neural Network; Cascade CNN))이라고 칭할 수 있다. 본 개시의 기술적 사상에 따른 비디오 처리 장치(20)는 타겟 프레임(TF)에 대해서 연속 컨볼루션 신경망(Cascade CNN)을 수행함에 따라서, 필터의 사이즈에 대한 영향이 감소하고, 인접 픽셀간의 의존성이 높아질 수 있다.

도 7은 본 개시의 예시적 실시예에 따른 멀티-스케일 컨볼루션 신경망을 나타내는 도면이다. 도 7은 도 6의 제1 컨볼루션 신경망(CNN1)을 나타내는 도면일 수 있다.

도 1 및 도 7을 참조하면, 비디오 처리 장치(20)는 타겟 프레임(TF)에 대해 제1 정수(n1)의 비율로 다운 샘플링을 수행함으로서 제1 서브 타겟 프레임(TF1)을 생성하고, 제2 정수(n2)의 비율로 다운 샘플링을 수행함으로서 제2 서브 타겟 프레임(TF2)을 생성할 수 있다. 비디오 처리 장치(20)는 다운 샘플링에 의해 생성한 제1 서브 타겟 프레임(TF1) 및 제2 서브 타겟 프레임(TF2)에 대해서 컨벌루션 신경망(CNN)을 이용하여 제1 서브 확률맵(MP1_1) 및 제2 서브 확률맵(MP1_2)을 각각 생성하고, 다운 샘플링을 수행하지 않은 타겟 프레임(TF)에 대해서 컨벌루션 신경망(CNN)을 이용하여 제3 서브 확률맵(MP1_3)을 생성할 수 있다. 상기 제1 서브 확률맵(MP1_1), 제2 서브 확률맵(MP1_2) 및 타겟 프레임(TF)에 대해서 수행하는 컨벌루션 신경망(CNN)에 대해서는 도 8에서 후술한다.

비디오 처리 장치(20)는 제1 서브 확률맵(MP1_1)에 대해서 제1 정수(n1)의 비율로 업 샘플링을 수행함으로서 제4 서브 확률맵(MP1_4)을 생성하고, 제2 서브 확률맵(MP1_2)에 대해서 제2 정수(n2)의 비율로 업 샘플링을 수행함으로서 제5 서브 확률맵(MP1_5)을 생성할 수 있다. 비디오 처리 장치(20)는 결과적으로 생성한 제3 서브 확률맵(MP1_3), 제4 서브 확률맵(MP1_4) 및 제5 서브 확률맵(MP1_5)에 대한 평균 연산을 수행하여 제1 확률맵(MP1)을 생성할 수 있다.

본 명세서에서 상술한 제1 확률맵(MP1) 생성 방법은 멀티-스케일 컨벌루션 신경망(Multi-Scale CNN)이라고 칭할 수 있다. 멀티-스케일 신경망에 따라서 다양한 스케일로 다운-샘플링 후 생성한 서브 확률맵(MP1_1, MP1_2)을 업스케일링 한 후 그에 대한 평균 연산을 통해 제1 확률맵(MP1)을 생성함에 따라서, 본 개시의 기술적 사상에 따른 비디오 처리 장치(20)는 필터의 다양한 사이즈에도 불구하고 정확히 객체를 배경으로부터 추출할 수 있다.

도 7에서는 두 개의 정수(n1, n2)에 기초하여 두 개의 서브 확률맵(MP1_1, MP1_2)을 생성하는 실시예를 도시하였으나 이는 일 실시예이고, 본 개시의 기술적 사상은 두 개보다 많거나 적을 정수에 기초하여 두 개보다 많거나 적은 서브 확률맵을 생성하는 실시예도 적용될 수 있음은 당연하다.

도 8은 본 개시의 예시적 실시예에 따른 컨볼루션 신경망 구조를 나타내는 도면이다.

도 8을 참조하면, 컨볼루션 신경망(CNN)은 입력 레이어(10), 히든 레이어(20) 및 출력 레이어(30)를 포함할 수 있다. 입력 레이어(10)는 입력 영상 데이터(50)를 입력 받을 수 있다. 히든 레이어(20)는 다수의 레이어(21, 22)로 구성되고, 각 레이어(21, 22)는 컨볼루션 레이어(23, 25) 및 서브 샘플링 레이어(24, 26)을 포함할 수 있다. 컨볼루션 레이어(23, 25)는 컨볼루션 필터를 이용하여 각 레이어(21, 22)에 입력된 영상 데이터(50, 52)에 컨볼루션 연산을 수행하고, 특징 맵(feature map)(51, 53)를 생성할 수 있다. 이때, 특징 맵(51, 53)는 입력 영상 데이터(50)의 다양한 특징이 표현된 영상 데이터를 의미할 수 있고, 일 실시예에서, 특징 맵(51, 53은 객체에 대한 확률 맵일 수 있다. 서브 샘플링 레이어(24, 26)는 샘플링 또는 풀링(pooling)을 통해 특징 맵(51, 53)의 크기를 감소시킬 수 있다. 출력 레이어(30)는 특징 맵(54)에 표현된 다양한 특징을 조합하여 영상 데이터(50)의 클래스(class)를 분류할 수 있다. 이때, 출력 레이어(30)는 완전 연결 레이어(fully connected layer)로 구성될 수 있다.

컨볼루션 신경망(CNN)의 구조(예컨대, 히든 레이어의 수, 각 레이어에서의 필터의 수와 크기 등)는 미리 결정될 수 있고, 각 레이어에서의 필터(특히, 컨볼루션 필터)의 가중치 메트릭스(weight matrix)는 이미 어느 클래스에 속할지 정답이 알려진 데이터들을 이용하여 적절한 값으로 산정된다. 이와 같이 이미 정답이 알려진 데이터들을 '학습 데이터'라고 하고, 필터의 가중치 메트릭스를 결정하는 과정을 '학습'이라고 한다. 일 실시예에 따르면, 가중치 메트릭스는 객체 추출 알고리즘에 따라서 생성한 학습 데이터(예를 들면, 도 5의 S120의 결과)일 수 있다. 일 실시예에 따르면 가중치 메트릭스는 컨볼루션 신경망(CNN)에 의해서 생성된 확률맵(예를 들면, 도 6의 PM1)일 수 있다.

도 8에 도시된 예는, 4개의 컨볼루션 필터를 이용하여 4개의 특징 맵(51)를 생성하는 제1 컨볼루션 레이어(23), 및 6개의 컨볼루션 필터를 이용하여 6개의 특징 맵(53)를 생성하는 제2 컨볼루션 레이어(25)를 포함하는 컨볼루션 신경망(CNN)의 구조를 도시한 것이다. 이때, 4개의 특징 맵(51)는 4개의 채널을, 6개의 특징 맵(53)는 6개의 채널을 가질 수 있다.

도 9은 본 개시의 예시적 실시예에 따른 트래킹 방법을 나타내는 순서도이다. 도 9은 도 3의 인덱싱 단계(S30)을 자세히 나타내는 순서도일 수 있다.

도 1, 도 3 및 도 9을 참조하면, 배경으로부터 추출된 객체에 대해서 비디오 처리 장치(20)는 추출된 객체가 프레임에 새로 나타난 객체인지 여부에 따라서 제1 분류를 수행할 수 있다(S210). 비디오 처리 장치(20)는 새로 나타난 객체에 대해서는 새롭게 인덱스 넘버를 부여할 수 있다. 일 실시예에서 인덱스 넘버는 상기 객체를 포함하는 현재 프레임에 대응되는 시간일 수 있고, 일 실시예에서 현재 프레임에 대응되는 시간은 현재 프레임이 녹화된 시간일 수 있다.

또한 비디오 처리 장치(20)는 새로 나타나지 않고 이전 프레임에 존재하는 객체에 대해서는 이전 프레임의 동일한 객체에 대한 인덱스 넘버를 유지할 수 있다. 일 실시예에서, 상기 인덱스 넘버는 현재 프레임에 대응되는 시간 또는 현재 프레임이 녹화된 시간일 수 있다. 또 다른 실시예에서 상기 인덱스 넘버는 이전 프레임에 대응되는 시간 또는 이전 프레임이 녹화된 시간일 수 있다. 이에 관해서는 도 10에서 후술한다.

비디오 처리 장치(20)는 적어도 하나의 객체가 겹치는지 여부에 따라서 제2 분류를 수행할 수 있다(S220). 비디오 처리 장치(20)는 적어도 하나의 객체를 정상적으로 추적하는 경우 및 적어도 하나의 객체가 겹치는 경우로 프레임을 분류할 수 있다. 일 예시에서, 비디오 처리 장치(20)는 적어도 하나의 객체를 정상적으로 추적하는 경우 상기 적어도 하나의 객체에 부여된 인덱스 넘버를 프레임간에 유지할 수 있다. 또한, 비디오 처리 장치(20)는 적어도 하나의 객체가 서로 겹치는 경우, 상기 적어도 하나의 객체가 겹치는 동안 상기 객체들의 인덱스 넘버를 함께 겹쳐진 객체에 부여할 수 있다. 그후 적어도 하나의 객체가 나누어지는 경우, 비디오 처리 장치(20)는 이전 인덱스 넘버를 다시 해당하는 객체에 부여할 수 있다. 이에 관해서는 도 11에서 후술한다.

비디오 처리 장치(20)는 제1 분류 및 제2 분류의 결과에 기초하여 서로 다른 방법으로 트래킹을 수행할 수 있다(S230). 비디오 처리 장치(20)는 트래킹된 객체에 대해서 인덱싱을 수행할 수 있다(S240). 일 실시예에서 비디오 처리 장치(20)는 같은 프레임에서 트래킹된 객체 별로 서로 다른 정보를 인덱싱할 수 있고, 또 다른 실시예에서 비디오 처리 장치(20)는 같은 프레임에서 트래킹된 객체에 대해 같은 정보를 인덱싱할 수 있다. 일 실시예에서 트래킹 과정에서 상술한 인덱스 넘버가 사용될 수 있고, 비디오 처리 장치(20)는 객체가 포함된 프레임의 녹화 시간을 인덱싱할 수 있다.

본 개시의 기술적 사상에 따르면, 객체의 출현 여부에 관한 제1 분류 및 적어도 하나의 객체가 겹쳐지는지 여부에 대한 제2 분류에 따라서 서로 다른 방법으로 트래킹하고 인덱스 넘버를 부여함으로서, 서머리 영상 생성 단계(예를 들면, 도 3의 S40)에서 객체에 해당하는 정보가 정확하게 출력될 수 있다.

도 10는 본 개시의 예시적 실시예에 따른 객체 트래킹 방법을 나타내는 도면이다. 도 10는 도 9의 제1 분류 단계(S210) 및 이에 따른 객체 트래킹 단계(S230)을 나타내는 도면일 수 있다.

도 1 및 도 10를 참조하면, 제1 객체(Ob1)는 프레임 내에 이미 존재하는 객체일 수 있고, 제2 객체(Ob2)는 프레임에 새롭게 나타난 객체일 수 있다.

비디오 처리 장치(20)는 객체가 프레임에 새로 나타난 객체인지 여부에 따라서 제1 분류를 수행하고, 서로 다른 방법으로 트래킹할 수 있다. 비디오 처리 장치(20)는 새로 나타나지 않고 이전 프레임에 존재하는 제1 객체(Ob1)에 대해서는 이전 프레임의 동일한 객체에 대한 제1 인덱스 넘버(IN1)를 유지할 수 있다. 일 실시예에서, 상기 제1 인덱스 넘버(IN1)는 현재 프레임에 대응되는 시간 또는 현재 프레임이 녹화된 시간일 수 있다. 또 다른 실시예에서 제1 인덱스 넘버(IN1)는 이전 프레임에 대응되는 시간 또는 이전 프레임이 녹화된 시간일 수 있다.

비디오 처리 장치(20)는 새로 나타난 제2 객체(Ob2)에 대해서는 새롭게 제2 인덱스 넘버(IN2)를 부여할 수 있다. 일 실시예에서 인덱스 넘버는 상기 객체를 포함하는 현재 프레임에 대응되는 시간일 수 있고, 일 실시예에서 현재 프레임에 대응되는 시간은 현재 프레임이 녹화된 시간일 수 있다.

일 실시예에서, 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)는 같은 정보를 포함할 수 있고, 예를 들어 현재 프레임이 출력되는 시간 정보일 수 있다. 또 다른 실시예에서, 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)는 다른 정보를 포함할 수 있고, 예를 들어 각 인덱스 넘버에 대응되는 객체가 출현하는 프레임이 출력되는 시간 정보 또는 각 객체를 해당하는 고유 인덱스일 수 있다.

도 11는 본 개시의 예시적 실시예에 따른 객체 트래킹 방법을 나타내는 도면이다. 도 11는 도 9의 제2 분류 단계(S220) 및 이에 따른 객체 트래킹 단계(S230)을 나타내는 도면일 수 있다.

도 1 및 도 11을 참조하면, 제1 장면(Scene1)은 객체가 서로 겹치지 않는 장면을 나타낼 수 있다. 제1 장면(Scene1)에서 객체는 서로 겹치지 않기 때문에 비디오 처리 장치(20)는 제1 객체(Ob1) 및 제2 객체(Ob2)에 대해서 정상적으로 트래킹할 수 있다. 그 결과에 따라서 제1 객체(Ob1)에는 제1 인덱스 넘버(IN1)가 부여되고, 제2 객체(Ob2)에는 제2 인덱스 넘버(IN1)가 부여될 수 있다.

제2 장면(Scene2)은 제1 객체(Ob1) 및 제2 객체(Ob2)가 겹치는 장면을 나타낼 수 있다. 비디오 처리 장치(20)는 겹쳐진 제1 객체(Ob1) 및 제2 객체(Ob2)를 같이 인식하고 제3 인덱스 넘버(IN3)를 부여할 수 있다. 일 실시예에서 제3 인덱스 넘버(IN3)는 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)의 정보가 모두 포함될 수 있다.

제3 장면(Scene3)에서 제1 객체(Ob1) 및 제2 객체(Ob2)가 다시 나누어지는 장면을 나타낼 수 있다. 겹쳐진 제1 및 제2 객체(Ob1, Ob2)가 다시 나누어짐에 따라서 비디오 처리 장치(20)는 제1 객체(Ob1)에 제1 장면(Scene1)에서 제1 객체(Ob1)에 대응된 제1 인덱스 넘버(IN1)를 부여할 수 있고, 제2 객체(Ob2)에 제2 장면(Scene2)에서 제2 객체(Ob2)에 대응된 제2 인덱스 넘버(IN2)를 부여할 수 있다.

일 실시예에서, 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)는 같은 정보를 포함할 수 있고, 예를 들어 현재 프레임이 출력되는 시간 정보일 수 있다. 이 경우 제3 인덱스 넘버(IN3)는 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)와 같을 수 있다. 또 다른 실시예에서, 제1 인덱스 넘버(IN1) 및 제2 인덱스 넘버(IN2)는 다른 정보를 포함할 수 있고, 예를 들어 각 인덱스 넘버에 대응되는 객체가 출현하는 프레임이 출력되는 시간 정보 또는 각 객체를 해당하는 고유 인덱스일 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

제1 기간의 소스 영상으로부터 상기 제1 기간보다 짧은 제2 기간의 서머리 영상을 생성하는 비디오 서머리 방법으로서,
상기 소스 영상을 수신하는 단계;
상기 소스 영상에 포함되는 복수의 프레임들 중 일부인 제1 프레임들을 샘플링하는 단계;
상기 제1 프레임들에 대해서 객체와 배경을 분리함으로서 제1 학습 데이터를 생성하는 단계;
상기 제1 학습 데이터에 기초하여 컨볼루션 신경망(Convolution Neural Network;CNN)을 학습시키고 이를 이용하여 상기 복수의 프레임들 중 상기 제1 프레임들을 제외한 나머지 프레임들인 제2 프레임들에 대해서 제1 확률맵을 생성하는 단계; 및
상기 제1 기간에 포함되는 상기 복수의 프레임들의 객체들을 동시에 디스플레이 함으로써 상기 서머리 영상을 생성하는 단계;를 포함하고,
상기 제1 확률맵을 생성하는 단계는,
상기 제1 학습 데이터를 기초로 하여 컨볼루션 신경망(Convolution Neural Network;CNN)을 학습시키고 상기 제2 프레임들 각각에 대해 해당 컨볼루션 신경망(CNN)을 기반으로 제2 확률맵을 생성하는 단계; 및
상기 제2 확률맵을 기초로 하여 상기 제2 프레임들 각각에 대해 학습된 컨볼루션 신경망(CNN)을 기반으로 상기 제1 확률맵을 생성하는 단계;를 포함하고,
상기 제2 확률맵을 생성하는 단계는,
상기 제2 프레임들 각각에 대해서 다운 샘플링함으로서 제2 서브 프레임들을 생성하는 단계;
상기 제1 학습 데이터를 기초로 하여 학습된 컨볼루션 신경망(CNN)을 기반으로 상기 제2 서브 프레임들 각각에 대해 제2 서브 확률맵을 생성하는 단계; 및
상기 제2 서브 확률맵을 업 샘플링 함으로서 제3 서브 확률맵을 생성하는 단계; 를 포함하는 것을 특징으로 하는 비디오 서머리 방법.
삭제
삭제
제1항에 있어서,
상기 제2 확률맵을 생성하는 단계는,
상기 제1 학습 데이터를 기초로 하여 학습된 컨볼루션 신경망(CNN)을 기반으로 상기 제2 서브 프레임들 각각에 대해 제4 서브 확률맵을 예측하는 단계;및
상기 제3 서브 확률맵 및 상기 제4 서브 확률맵의 평균값을 계산함으로서 상기 제2 확률맵을 생성하는 단계;를 포함하는 것을 특징으로 하는 비디오 서머리 방법.
제1항에 있어서,
상기 서머리 영상을 생성하는 단계는,
상기 복수의 프레임들의 객체들 각각에 대해 상기 복수의 프레임들 각각의 녹화 시간을 인덱싱하는 단계;를 포함하는 비디오 서머리 방법.
제1항에 있어서,
상기 복수의 프레임들의 객체들을 프레임의 흐름에 따라서 트래킹하는 단계;를 더 포함하는 비디오 서머리 방법.
제6항에 있어서,
상기 트래킹 하는 단계는 상기 객체들의 상태에 기초하여 상기 객체들을 서로 다른 방법으로 트래킹하고 인덱스 넘버를 부여하고;
상기 서머리 영상을 생성하는 단계는 상기 인덱스 넘버에 기초하여 상기 객체들을 인덱싱하는 것을 특징으로 하는 비디오 서머리 방법.
제6항에 있어서,
상기 트래킹하는 단계는,
상기 객체들이 상기 복수의 프레임들 각각에 새로 나타났는지 여부에 따라서 제1 분류하는 단계;
상기 제1 분류에 기초하여, 새로 나타난 객체에 대해서는 새로운 인덱스 넘버를 부여하는 단계; 및
상기 제1 분류에 기초하여, 이전 프레임에 존재하는 객체에 대해서는 이전 프레임의 인덱스 넘버를 유지하는 단계;를 포함하는 것을 특징으로 하는 비디오 서머리 방법.
제6항에 있어서,
상기 트래킹하는 단계는,
상기 객체들이 서로 겹치는지 여부에 따라서 제2 분류하는 단계;
상기 제2 분류에 기초하여 서로 겹쳐지지 않는 제1 객체에 대해서 제1 인덱스 넘버를 부여하고, 제2 객체에 대해서 제2 인덱스 넘버를 부여하는 단계; 및
상기 제2 분류에 기초하여 서로 겹쳐지는 복수의 객체에 대해서 제3 인덱스 넘버를 부여하는 단계;를 포함하는 것을 특징으로 하는 비디오 서머리 방법.
제1 기간의 소스 영상으로부터 상기 제1 기간보다 짧은 제2 기간의 서머리 영상을 생성하는 비디오 처리 장치로서,
상기 소스 영상을 수신하고 컨볼루션 신경망을 이용하여 상기 소스 영상에는 포함되는 객체를 배경으로부터 추출하는 객체 추출부;
배경으로부터 추출된 상기 객체의 상태에 기초하여 상기 객체를 서로 다른 방법으로 트래킹하고 인덱싱하는 트래킹 부; 및
인덱싱된 상기 객체를 서머리하여 상기 서머리 영상을 생성하는 서머리 부;를 포함하고,
상기 객체 추출부는,
상기 소스 영상에 포함되는 복수의 프레임들 중 일부인 제1 프레임들을 샘플링하고, 상기 제1 프레임들에 대해서 객체와 배경을 분리함으로서 제1 학습 데이터를 생성하고, 상기 제1 학습 데이터에 기초하여 컨볼루션 신경망을 학습시키고 상기 복수의 프레임들 중 상기 제1 프레임들을 제외한 나머지 프레임들인 제2 프레임들 각각을 다운 샘플링함으로써 생성된 제2 서브 프레임들 각각에 대해 상기 제1 학습 데이터를 기초로 한 컨볼루션 신경망을 이용하여 제2 서브 확률맵을 생성하고, 상기 제2 서브 확률맵을 업 샘플링 함으로서 제3 서브 확률맵 및 제4 서브 확률맵을 생성하고, 상기 제3 서브 확률맵 및 상기 제4 서브 확률맵의 평균값을 이용하여 상기 소스 영상의 객체를 배경으로부터 추출하는 것을 특징으로 하는 비디오 처리 장치.