KR20180003858A

KR20180003858A - 영상 요약 장치 및 영상 처리 장치

Info

Publication number: KR20180003858A
Application number: KR1020160083546A
Authority: KR
Inventors: 이배근
Original assignee: 주식회사 케이티
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2018-01-10
Also published as: KR102071388B1

Abstract

영상을 요약하는 장치는 촬영 장치로부터 메인 영상을 수신하는 수신부, 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부, 상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부 및 상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부를 포함한다.

Description

영상 요약 장치 및 영상 처리 장치{APPARATUS FOR SUMMARIZING VIDEO AND APPARATUS FOR PROCESSING VIDEO}

본 발명은 영상 요약 장치 및 영상 처리 장치에 관한 것이다.

디지털 영상 저장 장치(DVR, Digital Video Recorder)란, 카메라에 잡히는 영상을 비디오 테이프를 사용하지 않고, 디지털화시킴으로써, 하드디스크(HDD)에 압축 및 저장하는 영상 저장 장치를 의미한다. 디지털 영상 저장 장치는 디지털 이미지로 변환된 녹화 영상을 반영구적으로 HDD에 저장하는 기능, 사용자가 녹화한 데이터를 검색하는 기능, 복수의 카메라 영상을 1대의 모니터를 통해 분할하여 감시할 수 있도록 하는 멀티플렉서 기능, 실시간으로 화면을 감시할 수 있는 화상 전송 기능 등을 제공하고 있다.

이러한 DVR에서 제공하는 기능과 관련하여, 한국등록특허인 제 10-1203971호는 디브이알 및 그의 영상 재생방법에 대해 개시하고 있다.

최근에는, DVR을 대체하는 장치로서, 네트워크 비디오 녹화기(NVR, Network Video Recorder)가 제시되고 있다. 네트워크 비디오 녹화기는 IP 카메라를 통해 디지털 영상을 전송받아 압축 저장하는 기능을 제공하며, IP 전용 저장 장치이므로 아날로그를 디지털로 변환하는 장치가 필요 없다는 장점을 가지고 있다.

그러나 디지털 영상 저장 장치 및 네트워크 비디오 녹화기 모두 대용량의 영상 데이터의 경우, 많은 저장 용량을 필요로 하게 된다. 따라서, 데이터 용량을 감소시면서, 필요한 영상을 저장할 수 있도록 하는 방안이 요구되고 있다.

메인 영상을 디코딩하지 않은 비트스트림 영역에서 이벤트 발생 구간에 기초하여 실시간으로 비디오 요약을 수행할 수 있도록 하는 영상 요약 장치 및 영상 처리 장치를 제공하고자 한다. 메인 영상에서 불필요한 영상 데이터를 삭제하고, 중요 데이터만을 보존함으로써, 영상 보안 플랫폼에서 저장 용량을 감소시킬 수 있는 영상 요약 장치 및 영상 처리 장치를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 촬영 장치로부터 메인 영상을 수신하는 수신부, 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부, 상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부 및 상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부를 포함하는 영상 요약 장치를 제공할 수 있다.

또한, 본 발명의 다른 실시예는, 메인 영상을 수신하는 메인 영상 수신부, 요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치로부터 상기 메인 영상에 대한 요약 영상을 수신하는 요약 영상 수신부 및 상기 메인 영상 또는 상기 요약 영상을 처리하여 출력하는 출력부를 포함하고, 상기 영상 요약 장치에 의해 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고, 상기 메인 영상은 상기 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 상기 요약 영상은 상기 분할될영상 조각이 합성되어 생성되는 것인 영상 처리 장치를 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 메인 영상을 디코딩하지 않은 비트스트림 영역에서 이벤트 발생 구간에 기초하여 실시간으로 비디오 요약을 수행할 수 있도록 하는 영상 요약 장치 및 영상 처리 장치를 제공할 수 있다. 메인 영상에서 불필요한 영상 데이터를 삭제하고, 중요 데이터만을 보존함으로써, 영상 보안 플랫폼에서 저장 용량을 감소시킬 수 있는 영상 요약 장치 및 영상 처리 장치를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 영상 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 영상 요약 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 메인 영상을 복수의 영상 조각으로 분할하여 합성하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a 내지 도 4c는 본 발명의 일 실시예에 따른 영상 요약 장치에서 각 프레임에 대한 모션 벡터의 평균값에 기초하여 이벤트가 포함되는 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 영상 요약 장치에서 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 영상 요약 장치에서 기설정된 파티션으로 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 7은 본 발명의 일 실시예에 따른 영상 요약 장치에서 영샹을 요약하는 방법의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성도이다.
도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에서 영상 요약 서비스를 제공하는 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

종래에는 비디오를 요약하기 위해 비트스트림 영역에서 움직임 벡터에 기반하여 비디오를 요약하는 방법과 비디오 복호화 후, 각 비디오의 프레임별로 영상 특징을 찾아 유사 특징을 가진 프레임들을 클러스터링하는 방법을 이용하였다.

비트스트림 영역에서 움직임 벡터에 기반하여 비디오를 요약하는 방법은 카메라 앵글이 움직이거나, 카메라 패닝, 줌 등 영상 전체의 움직임을 표현하는 글로벌 모션 벡터를 추정한 후, 블록 단위 모션 벡터와 글로벌 모션 벡터를 차분하여 로컬 모션 벡터를 획득함으로써, 움직임이 큰 프레임을 이벤트가 발생한 프레임으로 추정하는 방법이다. 그러나 이 방법은 카메라의 움직임이 선형적인 경우, 이벤트 발생 감지에서 높은 정확도를 나타내지만, 와핑(warping) 또는 주밍(zooming) 등과 같이 카메라 움직임이 비선형적인 경우, 이벤트 발생을 감지 못하는 단점을 가지고 있다.

비디오 복호화 후, 각 비디오의 프레임별로 영상 특징을 찾아 유사 특징을 가진 프레임들을 클러스터링하는 방법은 사물의 코너(corner) 엣지(edge), 블록(block) 등과 같이 스케일이 변하거나, 영상의 오리엔테이션(orientation)이 변하더라도, 변하지 않는 영상 고유 특징을 추출하여, 그 특징을 디스크립션(description)하는 방법이다. 이 방법은 인접 영상 간에 유사한 특징점을 갖는다는 특징을 가지고 있으며, 영상의 특징을 추출하는 알고리즘으로 SIFT(Scale Invariant Feature Transform), SURF(Speed Up Robust Feature), ALP(A Low-degree Polynomian keypoint detector) 등을 이용하며, 영상의 특징점을 추출한 후, k-means, SVM(Support Vector Machine)과 같은 분류기를 이용하여 유사 영상을 묶어 이벤트 단위로 클러스터링할 수 있다. 그러나 이 방법은 장면 전환(scene change) 등의 검출에서 높은 정확도를 갖는다는 장점을 가지고 있지만, 배경이 복잡한 영상에서 영상의 특징점을 잘 찾지 못하여 성능이 떨어진다는 단점을 가지고 있다. 또한, 복호화된 영상을 이용하여 비디오 요약에 필요한 분석을 수행하므로, 복잡도가 높고, 저장 용량이 제한적인 NVR(Network Video Recorder) 또는 영상 보안 플랫폼에서 사용하기 어려운 단점을 가지고 있다.

따라서, 본 발명을 통해 저장 용량을 감소시키면서, 정확도 높은 영상 요약 서비스를 제공하는 영상 요약 장치를 제시하고자 한다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 영상 제공 시스템의 구성도이다. 도 1을 참조하면, 영상 제공 시스템(1)은 복수의 촬영 장치(110), 영상 요약 장치(120) 및 영상 처리 장치(130)를 포함할 수 있다. 도 1에 도시된 복수의 촬영 장치(110), 영상 요약 장치(120) 및 영상 처리 장치(130)는 영상 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.

도 1의 영상 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 영상 요약 장치(120)는 네트워크를 통해 복수의 촬영 장치(110) 또는 영상 처리 장치(130)와 동시에 또는 시간 간격을 두고 연결될 수 있다.

네트워크는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보교환이 가능한 연결구조를 의미하는 것으로, 이러한 네트워크의 일예는, Wi-Fi, 블루투스(Bluetooth), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, 5G, LTE 등이 포함되나 이에 한정되지는 않는다.

복수의 촬영 장치(110)는 특정 위치에 설치될 수 있으며, 복수의 촬영 장치(110)는 카메라 앵글을 고정 또는 이동시켜 영상을 촬영할 수 있다. 예를 들어, 촬영된 영상은 CCTV 영상일 수 있다. 고화질 CCTV는 대용량의 영상 데이터를 계속 저장해야 하므로, 많은 저장 용량을 필요로 하고 있다. 따라서, 본원 발명은 영상 데이터의 용량을 줄이면서, CCTV 영상에서 필요한 부분만을 빠르게 검색할 수 있다.

복수의 촬영 장치(110)는 촬영 영상에 포함된 각 프레임을 구성하는 복수의 블록을 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나의 모드를 이용하여 인코딩할 수 있다. 인트라 예측 모드는 현재 프레임을 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 영상인 잔차 영상을 인코딩하는 모드이다. 인터 예측 모드는 이전 프레임과 현재 프레임 사이에서 발생한 움직임 정보를 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 잔차 영상을 인코딩하는 모드이다. 스킵 모드는 프레임을 구성하는 블록 중 현재 블록의 모션 벡터를 인코딩하지 않고, 이전 프레임의 특정 블록 또는 현재 프레임의 특정 블록에서 모션 벡터를 유도하여 예측 신호를 생성하는 모드이다.

복수의 촬영 장치(110)는 촬영 영상에 포함된 각 프레임을 구성하는 복수의 블록을 복수의 파티션을 이용하여 인코딩할 수 있다. 예를 들어, 복수의 촬영 장치(110)는 복수의 파티션 중 어느 하나를 이용하여 예측 유닛을 생성하고, 파티션 별로 서로 다른 예측 모드(인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나)를 이용하여 예측 영상을 생성할 수 있다.

복수의 촬영 장치(110)는 인코딩한 촬영 영상의 메인 영상을 영상 처리 장치(130)로 제공할 수 있다. 또는, 복수의 촬영 장치(110)는 인코딩한 촬영 영상에 대한 요약 영상의 생성을 위해 메인 영상을 영상 요약 장치(120)로 제공할 수 있다.

영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신할 수 있다. 영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신하면, 영상 요약의 개시 시점 및 종료 시점의 프레임 넘버, POC(Picture Order Count), 시스템 아웃풋 참조 시간(Present Time Stamp) 중 어느 하나로 구성된 메타데이터를 생성할 수 있다.

영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기 및 메타데이터에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 이 때, 영상 요약 장치(120)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다.

예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다.

다른 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.

이 때, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나에 의해 인코딩되면, 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 예를 들어, 메인 영상에서 사람 또는 객체의 움직임이 없었음에도 메인 영상에 포함된 복수의 프레임이 이벤트가 포함되는 구간으로 판단한 경우, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다.

또한, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되면, 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 예를 들어, 메인 영상에서 카메라로부터 멀리 떨어진 위치에서 사람 또는 객체의 움직임이 발생하였지만 메인 영상에 포함된 복수의 프레임에서 이벤트의 미발생으로 판단된 경우, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다.

영상 요약 장치(120)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 영상 요약 장치(120)는 인코딩된 메인 영상을 디코딩하지 않고, 결정된 구간에 기초하여 메인 영상을 영상 조각으로 분할할 수 있다. 달리 말해, 영상 요약 장치(120)는 메인 영상로부터 적어도 하나 이상의 프레임으로 구성된 영상(또는 영상 조각)을 추출할 수 있다.

예를 들어, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 이 때, 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 영상 요약 장치(120)는 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 또한, 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 영상 요약 장치(120)는 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 영상 요약 장치(120)는 이벤트 개시 시점을 나타내는 프레임이 키 프레임이 아닌 경우, 프레임과 가까운 키 프레임으로 영상 조각을 생성할 수 있다. 여기서, 프레임과 가까운 키 프레임은 현재 시간 보다 이전 시간에 위치한 키 프레임일 수 있다.

다른 예를 들어, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.

영상 요약 장치(120)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.

영상 처리 장치(130)는 촬영 장치(110) 또는 영상 요약 장치(120)로부터 메인 영상을 수신할 수 있다. 이 때, 사용자로부터 요약 영상에 대한 요청을 입력받은 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다.

영상 처리 장치(130)는 메인 영상 또는 요약 영상을 처리하여 디스플레이에 출력할 수 있다.

도 2는 본 발명의 일 실시예에 따른 영상 요약 장치의 구성도이다. 도 2를 참조하면, 영상 요약 장치(120)는 수신부(210), 구간 결정부(220), 영상 분할부(230) 및 영상 합성부(240)를 포함할 수 있다.

수신부(210)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신할 수 있다.

구간 결정부(220)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 구체적으로, 구간 결정부(220)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다. 모션 벡터의 평균값은 메인 영상을 구성하는 프레임 내의 모션 벡터의 절대 값의 합을 메인 영상을 구성하는 프레임 내의 모션 벡터의 절대값으로 나눈 값을 의미하며, 모션 벡터의 평균값이 클수록 메인 영상에 움직임이 많이 발생한 것일 수 있다.

예를 들어, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 또한, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.

구간 결정부(220)는 메인 영상에 포함된 각 프레임을 구성하는 복수의 블록이 인코딩된 모드에 따라 구간을 결정할 수 있다.

예를 들어, 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩되면, 구간 결정부(220)는 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 인트라 예측 모드는 현재 프레임을 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 영상인 잔차 영상을 인코딩하는 모드이다. 인터 예측 모드는 이전 프레임과 현재 프레임 사이에서 발생한 움직임 정보를 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 잔차 영상을 인코딩하는 모드이다. 스킵 모드는 프레임을 구성하는 블록 중 현재 블록의 모션 벡터를 인코딩하지 않고, 이전 프레임의 특정 블록 또는 현재 프레임의 특정 블록에서 모션 벡터를 유도하여 예측 신호를 생성하는 모드이다. 이 때, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다. 예를 들어, 스킵 모드의 비율은 다음과 같은 같은 공식에 의해 도출될 수 있다.

다른 예를 들어, 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되면, 구간 결정부(220)는 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 어느 하나를 이용하여 예측 유닛으로 생성될 수 있으며, 파티션 별로 서로 다른 예측 모드(예를 들어, 인트라 예측 모드, 인터 예측 모드, 스킵 모드)가 이용될 수 있다. 예를 들어, 기설정된 파티션으로서 작은 파티션으로 인코딩된 블록의 비율은 다음과 같은 공식에 의해 도출될 수 있다.

이 때, 구간 결정부(220)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율 보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 카메라로부터 멀리 떨어진 위치에서 객체의 움직임이 발생하였다고 판단하여 이벤트가 발생하였다고 결정할 수 있다.

영상 분할부(230)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 이 때, 영상 분할부(230)는 촬영 장치(110)에서 인코딩된 메인 영상을 디코딩하지 않고, 결정된 구간에 기초하여 메인 영상을 영상 조각으로 분할할 수 있다. 예를 들어, 1 프레임 내지 20 프레임으로 구성된 메인 영상 중 3 프레임 내지 6 프레임에서 이벤트가 발생한 경우, 영상 분할부(230)는 3 프레임 내지 6 프레임을 영상 조각으로 분할하고, 12 프레임 내지 15 프레임에서 이벤트가 발생한 경우, 영상 분할부(230)는 12 프레임 내지 15 프레임을 영상 조각으로 분할할 수 있다.

영상 분할부(230)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 예를 들어, 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 또는, 영상 분할부(230)는 이벤트가 포함된 모든 영상 조각을 재구성할 수도 있다.

다른 예를 들어, 영상 분할부(230)는 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.

영상 분할부(230)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 분할부(230)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.

영상 합성부(240)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다. 예를 들어, 영상 합성부(240)는 3 프레임 내지 6 프레임을 포함하는 제 1 영상 조각과 12 프레임 내지 15 프레임을 포함하는 제 2 영상 조각을 합성하여 하나의 요약 영상으로 생성할 수 있다.

도 3은 본 발명의 일 실시예에 따른 메인 영상을 복수의 영상 조각으로 분할하여 합성하는 과정을 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 메인 영상은 F1 프레임 내지 F11 프레임을 포함하는 복수의 프레임(300)으로 구성될 수 있다. 복수의 프레임(300) 중 F1 프레임 내지 F4 프레임(310), F8 프레임 내지 F10 프레임(320)에서 이벤트가 발생한 경우, 영상 요약 장치(120)는 F1 프레임 내지 F4 프레임(310) 및 F8 프레임 내지 F10 프레임(320)을 각각의 서브 비트 스트림(sub-bitstream)으로 영상 조각을 생성하고, 생성된 두 개의 영상 조각을 합성하여, 요약 영상 비트 스트림(330)으로 생성할 수 있다.

도 4a 내지 도 4c는 본 발명의 일 실시예에 따른 각 프레임에 대한 모션 벡터의 평균값에 기초하여 이벤트가 포함되는 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.

도 4a는 메인 영상을 도시한 예시적인 도면이다. 도 4a를 참조하면, 메인 영상(400)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임을 통해 카메라 뒤에 위치한 사람이 카메라 전경으로 나타나고 있음을 알 수 있다.

도 4b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 4a 및 도 4b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(410)과 모션 벡터 시퀀스 평균값(420)을 나타낸 그래프로, 객체의 움직임이 발생하는 경우, 모션 벡터의 프레임 평균값이 모션 벡터의 시퀀스 평균값 보다 크다는 것을 알 수 있다. 모션 벡터의 시퀀스 평균값은 시퀀스 내 모든 프레임에 대해 모션 벡터의 프레임 평균값을 평균한 값을 나타낼 수 있다.

도 4c는 메인 영상의 모션 벡터의 프레임 평균값을 프레임 별로 나타낸 그래프이다. 도 4a 내지 도 4c를 참조하면, 메인 영상의 18 프레임 내지 88 프레임 중 모션 벡터 프레임 평균값(430)이 모션 벡터 시퀀스 평균값(440)보다 큰 22 프레임~83 프레임에서 이벤트가 발생하였음을 알 수 있다. 영상 요약 장치(120)는 이벤트의 시작 프레임인 22 프레임과 이벤트의 종료 프레임인 83 프레임을 벡터(22, 83)로 구성된 메타데이터에 기초하여 메인 영상 요약을 수행할 수 있다. 메타데이터는 전체 시퀀스에 대한 모션 벡터 시퀀스의 평균값과 각 이벤트의 간격을 나타내는 벡터로 나타낼 수 있다.

예를 들어, 영상 요약 장치(120)는 22 프레임과 83 프레임 외에 이벤트가 발생하지 않은 경우, 특정 프레임 넘버가 22 내지 83에 포함되지 않으면, 해당 프레임 데이터를 삭제할 수 있다. 또한, 특정 프레임 넘버가 22 내지 83에 포함된 경우, 영상 요약 장치(120)는 해당 프레임 데이터를 영상 조각으로 분할 후, 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.

도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.

도 5a는 메인 영상을 도시한 예시적인 도면이다. 도 5a를 참조하면, 메인 영상(500)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임(예를 들어, 325 프레임 내지 329 프레임)을 통해 어떤 사람 또는 객체가 발견되지 않았음을 알 수 있다.

도 5b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 5a 및 도 5b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(510)과 모션 벡터 시퀀스 평균값(520)을 나타낸 그래프로, 도 5a에서 메인 영상에서 사람 또는 객체의 어떠한 움직임도 발견할 수 없었음에도, 모션 벡터 프레임의 평균값(510)이 모션 벡터 시퀀스 평균값(520)보다 큰 것을 알 수 있다.

도 5c는 메인 영상에 포함된 각 프레임 별 예측 모드의 비율을 나타내는 통계를 도시한 도면이다. 도 5a 내지 도 5c를 참조하면, 메인 영상에 포함된 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드(540), 인터 예측 모드(550) 및 스킵 모드(560) 중 어느 하나에 의해 인코딩될 수 있다.

예를 들어, 메인 영상의 325 프레임(531)은 인트라 예측 모드(540)에서 0.1%, 인터 예측 모드(550)에서 16.6%, 스킵 모드(560)에서 83.3%를 나타내며, 326 프레임(532)은 인트라 예측 모드(540)에서 1.1%, 인터 예측 모드(550)에서 14.6%, 스킵 모드(560)에서 84.3%를 나타내고, 327 프레임(533)은 인트라 예측 모드(540)에서 16.5%, 인터 예측 모드(550)에서 55.6%, 스킵 모드(560)에서 27.9%를 나타내고, 328 프레임(534)은 인트라 예측 모드(540)에서 1.8%, 인터 예측 모드(550)에서 44.9%, 스킵 모드(560)에서 53.3%를 나타내고, 329 프레임(535)은 인트라 예측 모드(540)에서 1.9%, 인터 예측 모드(550)에서 36.9%, 스킵 모드(560)에서 61.3%를 나타낼 수 있다.

도 5d는 메인 영상에 포함된 각 프레임 별 예측 모드의 비율을 나타내는 그래프를 도시한 도면이다. 도 5a의 메인 영상은 카메라의 움직임이 없었으므로, 배경에 해당하는 부분이 스킵 모드(580)로 부호화된 것일 수 있다. 스킵 모드(580)는 이전 프레임에서 모션과 텍스쳐 정보를 모두 유도하여 현재 프레임에서 재사용하는 모드를 의미한다. 도 5d를 참조하면, 327 프레임에서 스킵 모드(580)의 비율이 매우 낮게 선택되었으며, 이로 인해, 상대적으로 인터 예측 모드(570)가 많이 선택되면서, 모션 벡터 프레임의 평균값이 높아진 것을 알 수 있다.

즉, 영상 요약 장치(120)는 주변 프레임(예를 들어, 326 프레임, 328 프레임)의 모션 벡터 프레임의 평균값이 작고, 현재 프레임(예를 들어, 327 프레임)의 스킵 모드(580)의 비율이 작고, 현재 프레임(예를 들어, 327 프레임)의 모션 벡터 프레임의 평균값이 큰 경우에 대해, 이벤트가 발생하지 않았다고 판단할 수 있다. 또는, 영상 요약 장치(120)는 특정 프레임에서 모션 벡터 프레임의 평균값이 크고, 스킵 모드(580)의 비율이 작은 경우에 대해, 이벤트가 발생하지 않았다고 판단할 수 있다.

도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 기설정된 파티션으로 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.

도 6a는 메인 영상을 도시한 예시적인 도면이다. 도 6a를 참조하면, 메인 영상(600)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임(예를 들어, 157 프레임 내지 161 프레임)을 통해 카메라로부터 멀리 떨어진 위치에서 객체가 지나가고 있음을 알 수 있다. 이는, 카메라와 객체와의 거리가 멀어 메인 영상에서 객체의 크기가 작게 나타난 것으로, 이벤트가 발생하였음을 알 수 있다.

도 6b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 6a 및 도 6b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(610)과 모션 벡터 시퀀스 평균값(620)을 나타낸 그래프로, 도 6a의 메인 영상에서 카메라로부터 멀리 떨어진 위치에서 사람이 지나가고 있음에도, 모션 벡터 프레임의 평균값(610)이 모션 벡터 시퀀스의 평균값(620) 보다 작은 것을 알 수 있다. 이러한 경우, 메인 영상에서 객체와 카메라 사이의 거리가 멀어 객체가 작은 객체로 나타나는 경우, 객체의 움직임이 많이 발생되더라도, 영상 요약 장치(120)는 모션 벡터의 크기가 크지 않아 이벤트로 감지하지 못할 수 있다.

도 6c는 이벤트를 감지하지 못하는 경우에 적용 가능한 복수의 파티션(630)을 도시한 예시적인 도면이다. 복수의 파티션(630)은 예를 들어, inter 16*16 파티션, inter 16*8 파티션, inter 8*16 파티션, inter 8*8 파티션, intra 16*16 파티션, intra 8*8 파티션, intra 4*4 파티션을 포함할 수 있다. 도 6a 내지 도 6c를 참조하면, 메인 영상에서 객체와 카메라 사이의 거리가 멀어 객체가 작은 객체로 나타나는 경우, 영상 요약 장치(120)는 inter 8*8 파티션(640) 및 intra 4*4 파티션(650)과 같이 프레임을 작은 파티션으로 분할하여 이벤트 발생 구간을 결정할 수 있다.

예를 들어, 메인 영상은 H.264/AVC에서 inter 8*8 또는 intra 4*4로 부호화될 수 있으며, HEVC에서는 inter 8*8로 부호화될 수 있다. 영상 요약 장치(120)는 복수의 파티션에서 특정 모드 또는 특정 크기로 부호화된 블록의 비율이 임계값 이상인 경우, 카메라로부터 거리가 먼 위치에서 이벤트가 발생하였음을 판단할 수 있다.

영상 요약 장치(120)는 스킵 모드의 비율과 기설정된 파티션으로 인코딩된 블록의 비율을 고려하여 카메라로부터 거리가 먼 위치에서 이벤트가 발생하였음을 판단할 수 있다. 예를 들어, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션(예를 들어, inter 8*8 및 intra 4*4 파티션)으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다. 이 때, 스킵 모드로 인코딩된 블록의 비율과 기설정된 파티션으로 인코딩된 블록의 비율에 대한 임계값을 선택적으로 설정될 수 있으며, 작은 파티션으로 인코딩된 블록을 포함하는 프레임에 대해서는 작은 임계값을 설정할 수 있다.

도 7은 본 발명의 일 실시예에 따른 영상 요약 장치에서 영샹을 요약하는 방법의 순서도이다. 도 7에 도시된 실시예에 따른 영상 요약 장치(120)에 의해 수행되는 영상을 요약하는 방법은 도 1에 도시된 실시예에 따른 영상 처리 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 7에 도시된 실시예에 따른 영상 요약 장치(120)에 의해 수행되는 영상을 요약하는 방법에도 적용된다.

단계 S710에서 영상 요약 장치(120)는 촬영 장치(110)로부터 메인 영상을 수신할 수 있다.

단계 S720에서 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 영상 요약 장치(120)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다. 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 다른 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.

S730에서 영상 요약 장치(120)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 예를 들어, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 또는, 영상 요약 장치(120)는 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 다른 예를 들어, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.

S740에서 영상 요약 장치(120)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.

도 7에서는 도시되지 않았으나, 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩된 경우, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정하는 단계를 더 포함할 수 있다. 이 때, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다.

도 7에서는 도시되지 않았으나, 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩된 경우, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정하는 단계를 더 포함할 수 있다. 이 때, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율 보다 크고, 연재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다.

도 7에서는 도시되지 않았으나, 영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신하는 단계 및 인코딩된 메인 영상을 디코딩하지 않고 결정도니 구간에 기초하여 메인 영상을 영상 조각으로 분할하는 단계를 더 포함할 수 있다.

상술한 설명에서, 단계 S710 내지 S740은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 8은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성도이다. 도 8을 참조하면, 영상 처리 장치(130)는 메인 영상 수신부(810), 요약 영상 수신부(820) 및 출력부(830)를 포함할 수 있다.

메인 영상 수신부(810)는 촬영 장치(110)로부터 메인 영상을 수신할 수 있다.

요약 영상 수신부(820)는 요약 영상에 대한 요청을 입력받은 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다. 요약 영상은 영상 요약 장치(120)에 의해 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고, 메인 영상이 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 분할된 영상 조각이 합성되어 생성되는 것일 수 있다.

출력부(830)는 메인 영상 또는 요약 영상을 처리하여 출력할 수 있다.

도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에서 영상 요약 서비스를 제공하는 방법의 순서도이다. 도 9에 도시된 실시예에 따른 영상 처리 장치(130)에 의해 수행되는 영상 요약 서비스를 제공하는 방법은 도 1에 도시된 실시예에 따른 영상 처리 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 8에 도시된 실시예에 따른 영상 처리 장치(130)에 의해 수행되는 영상 요약 서비스를 제공하는 방법에도 적용된다.

단계 S910에서 영상 처리 장치(130)는 메인 영상을 수신할 수 있다. 단계 S920에서 영상 처리 장치(130)는 요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다. 요약 영상은 영상 요약 장치(120)에 의해 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함된 구간이 결정되고, 메인 영상이 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 분할된 영상 조각이 합성되어 생성되는 것일 수 있다. 단계 S930에서 영상 처리 장치(130)는 메인 영상 또는 요약 영상을 처리하여 출력할 수 있다.

상술한 설명에서, 단계 S910 내지 S930은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 1 내지 도 9를 통해 설명된 영상 요약 장치에 의한 영상 요약 방법 및 영상 처리 장치에 의한 영상 처리 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 9를 통해 설명된 영상 요약 장치에 의한 영상 요약 방법 및 영상 처리 장치에 의한 영상 처리 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 촬영 장치
120: 영상 요약 장치
130: 영상 처리 장치
210: 수신부
220: 구간 결정부
230: 영상 분할부
240: 영상 합성부
810: 메인 영상 수신부
820: 요약 영상 수신부
830: 출력부

Claims

영상을 요약하는 장치에 있어서,
촬영 장치로부터 메인 영상을 수신하는 수신부;
상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부;
상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부; 및
상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부
를 포함하는 것인, 영상 요약 장치.
제 1 항에 있어서,
상기 구간 결정부는 상기 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
제 2 항에 있어서,
상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 상기 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 상기 이벤트가 포함되는 구간으로 결정하도록 구성되는 것인, 영상 요약 장치.
제 2 항에 있어서,
상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 상기 이벤트가 포함되는 구간으로 결정하도록 구성되는 것인, 영상 요약 장치.
제 4 항에 있어서,
상기 임계값은 상기 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정되는 것인, 영상 요약 장치.
제 5 항에 있어서,
상기 임계값은 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트 되는 것인, 영상 요약 장치.
제 2 항에 있어서,
상기 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩되고
상기 구간 결정부는 상기 각 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
제 7 항에 있어서,
상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 상기 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값 보다 상대적으로 크고, 상기 현재 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율이 상기 주변 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율 보다 큰 경우, 상기 이벤트가 발생하지 않았다고 결정하는 것인, 영상 요약 장치.
제 7 항에 있어서,
상기 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되고,
상기 구간 결정부는 상기 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
제 9 항에 있어서,
상기 구간 결정부는 상기 현재 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율이 상기 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율 보다 크고, 상기 현재 프레임을 구성하는 복수의 블록 중 상기 기설정된 파티션으로 인코딩된 블록의 비율이 상기 주변 프레임을 구성하는 복수의 블록 중 상기 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 상기 이벤트가 발생하였다고 결정하는 것인, 영상 요약 장치.
제 1 항에 있어서,
상기 수신부는 상기 촬영 장치로부터 인코딩된 상기 메인 영상을 수신하고,
상기 영상 분할부는 상기 인코딩된 메인 영상을 디코딩하지 않고 상기 결정된 구간에 기초하여 상기 메인 영상을 상기 영상 조각으로 분할하도록 구성되는 것인, 영상 요약 장치.
제 1 항에 있어서,
상기 영상 분할부는 상기 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
제 12 항에 있어서,
상기 영상 분할부는 상기 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
제 12 항에 있어서,
상기 영상 분할부는 상기 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
제 1 항에 있어서,
상기 영상 분할부는 상기 추출된 각 구간의 이벤트 지속 시간에 기초하여 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
제 15 항에 있어서,
상기 영상 분할부는 상기 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
영상 요약 서비스를 제공하는 영상 처리 장치에 있어서,
메인 영상을 수신하는 메인 영상 수신부;
요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치로부터 상기 메인 영상에 대한 요약 영상을 수신하는 요약 영상 수신부; 및
상기 메인 영상 또는 상기 요약 영상을 처리하여 출력하는 출력부
를 포함하고,
상기 영상 요약 장치에 의해 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고,
상기 메인 영상은 상기 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고,
상기 요약 영상은 상기 분할될영상 조각이 합성되어 생성되는 것인, 영상 처리 장치.
제 17 항에 있어서,
상기 구간은 상기 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균 값에 기초하여 결정되는 것인, 영상 처리 장치.
제 18 항에 있어서,
상기 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 적어도 하나 이상에 의해 인코딩되고,
상기 구간은 상기 각 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 결정되는 것인, 영상 처리 장치.
제 19 항에 있어서,
상기 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되고,
상기 구간은 상기 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 결정되는 것인, 영상 처리 장치.