KR20180003858A - 영상 요약 장치 및 영상 처리 장치 - Google Patents

영상 요약 장치 및 영상 처리 장치 Download PDF

Info

Publication number
KR20180003858A
KR20180003858A KR1020160083546A KR20160083546A KR20180003858A KR 20180003858 A KR20180003858 A KR 20180003858A KR 1020160083546 A KR1020160083546 A KR 1020160083546A KR 20160083546 A KR20160083546 A KR 20160083546A KR 20180003858 A KR20180003858 A KR 20180003858A
Authority
KR
South Korea
Prior art keywords
image
frame
frames
main image
encoded
Prior art date
Application number
KR1020160083546A
Other languages
English (en)
Other versions
KR102071388B1 (ko
Inventor
이배근
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020160083546A priority Critical patent/KR102071388B1/ko
Publication of KR20180003858A publication Critical patent/KR20180003858A/ko
Application granted granted Critical
Publication of KR102071388B1 publication Critical patent/KR102071388B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]

Abstract

영상을 요약하는 장치는 촬영 장치로부터 메인 영상을 수신하는 수신부, 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부, 상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부 및 상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부를 포함한다.

Description

영상 요약 장치 및 영상 처리 장치{APPARATUS FOR SUMMARIZING VIDEO AND APPARATUS FOR PROCESSING VIDEO}
본 발명은 영상 요약 장치 및 영상 처리 장치에 관한 것이다.
디지털 영상 저장 장치(DVR, Digital Video Recorder)란, 카메라에 잡히는 영상을 비디오 테이프를 사용하지 않고, 디지털화시킴으로써, 하드디스크(HDD)에 압축 및 저장하는 영상 저장 장치를 의미한다. 디지털 영상 저장 장치는 디지털 이미지로 변환된 녹화 영상을 반영구적으로 HDD에 저장하는 기능, 사용자가 녹화한 데이터를 검색하는 기능, 복수의 카메라 영상을 1대의 모니터를 통해 분할하여 감시할 수 있도록 하는 멀티플렉서 기능, 실시간으로 화면을 감시할 수 있는 화상 전송 기능 등을 제공하고 있다.
이러한 DVR에서 제공하는 기능과 관련하여, 한국등록특허인 제 10-1203971호는 디브이알 및 그의 영상 재생방법에 대해 개시하고 있다.
최근에는, DVR을 대체하는 장치로서, 네트워크 비디오 녹화기(NVR, Network Video Recorder)가 제시되고 있다. 네트워크 비디오 녹화기는 IP 카메라를 통해 디지털 영상을 전송받아 압축 저장하는 기능을 제공하며, IP 전용 저장 장치이므로 아날로그를 디지털로 변환하는 장치가 필요 없다는 장점을 가지고 있다.
그러나 디지털 영상 저장 장치 및 네트워크 비디오 녹화기 모두 대용량의 영상 데이터의 경우, 많은 저장 용량을 필요로 하게 된다. 따라서, 데이터 용량을 감소시면서, 필요한 영상을 저장할 수 있도록 하는 방안이 요구되고 있다.
메인 영상을 디코딩하지 않은 비트스트림 영역에서 이벤트 발생 구간에 기초하여 실시간으로 비디오 요약을 수행할 수 있도록 하는 영상 요약 장치 및 영상 처리 장치를 제공하고자 한다. 메인 영상에서 불필요한 영상 데이터를 삭제하고, 중요 데이터만을 보존함으로써, 영상 보안 플랫폼에서 저장 용량을 감소시킬 수 있는 영상 요약 장치 및 영상 처리 장치를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 촬영 장치로부터 메인 영상을 수신하는 수신부, 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부, 상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부 및 상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부를 포함하는 영상 요약 장치를 제공할 수 있다.
또한, 본 발명의 다른 실시예는, 메인 영상을 수신하는 메인 영상 수신부, 요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치로부터 상기 메인 영상에 대한 요약 영상을 수신하는 요약 영상 수신부 및 상기 메인 영상 또는 상기 요약 영상을 처리하여 출력하는 출력부를 포함하고, 상기 영상 요약 장치에 의해 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고, 상기 메인 영상은 상기 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 상기 요약 영상은 상기 분할될영상 조각이 합성되어 생성되는 것인 영상 처리 장치를 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 메인 영상을 디코딩하지 않은 비트스트림 영역에서 이벤트 발생 구간에 기초하여 실시간으로 비디오 요약을 수행할 수 있도록 하는 영상 요약 장치 및 영상 처리 장치를 제공할 수 있다. 메인 영상에서 불필요한 영상 데이터를 삭제하고, 중요 데이터만을 보존함으로써, 영상 보안 플랫폼에서 저장 용량을 감소시킬 수 있는 영상 요약 장치 및 영상 처리 장치를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 영상 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 영상 요약 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 메인 영상을 복수의 영상 조각으로 분할하여 합성하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a 내지 도 4c는 본 발명의 일 실시예에 따른 영상 요약 장치에서 각 프레임에 대한 모션 벡터의 평균값에 기초하여 이벤트가 포함되는 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 영상 요약 장치에서 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 영상 요약 장치에서 기설정된 파티션으로 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 7은 본 발명의 일 실시예에 따른 영상 요약 장치에서 영샹을 요약하는 방법의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성도이다.
도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에서 영상 요약 서비스를 제공하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
종래에는 비디오를 요약하기 위해 비트스트림 영역에서 움직임 벡터에 기반하여 비디오를 요약하는 방법과 비디오 복호화 후, 각 비디오의 프레임별로 영상 특징을 찾아 유사 특징을 가진 프레임들을 클러스터링하는 방법을 이용하였다.
비트스트림 영역에서 움직임 벡터에 기반하여 비디오를 요약하는 방법은 카메라 앵글이 움직이거나, 카메라 패닝, 줌 등 영상 전체의 움직임을 표현하는 글로벌 모션 벡터를 추정한 후, 블록 단위 모션 벡터와 글로벌 모션 벡터를 차분하여 로컬 모션 벡터를 획득함으로써, 움직임이 큰 프레임을 이벤트가 발생한 프레임으로 추정하는 방법이다. 그러나 이 방법은 카메라의 움직임이 선형적인 경우, 이벤트 발생 감지에서 높은 정확도를 나타내지만, 와핑(warping) 또는 주밍(zooming) 등과 같이 카메라 움직임이 비선형적인 경우, 이벤트 발생을 감지 못하는 단점을 가지고 있다.
비디오 복호화 후, 각 비디오의 프레임별로 영상 특징을 찾아 유사 특징을 가진 프레임들을 클러스터링하는 방법은 사물의 코너(corner) 엣지(edge), 블록(block) 등과 같이 스케일이 변하거나, 영상의 오리엔테이션(orientation)이 변하더라도, 변하지 않는 영상 고유 특징을 추출하여, 그 특징을 디스크립션(description)하는 방법이다. 이 방법은 인접 영상 간에 유사한 특징점을 갖는다는 특징을 가지고 있으며, 영상의 특징을 추출하는 알고리즘으로 SIFT(Scale Invariant Feature Transform), SURF(Speed Up Robust Feature), ALP(A Low-degree Polynomian keypoint detector) 등을 이용하며, 영상의 특징점을 추출한 후, k-means, SVM(Support Vector Machine)과 같은 분류기를 이용하여 유사 영상을 묶어 이벤트 단위로 클러스터링할 수 있다. 그러나 이 방법은 장면 전환(scene change) 등의 검출에서 높은 정확도를 갖는다는 장점을 가지고 있지만, 배경이 복잡한 영상에서 영상의 특징점을 잘 찾지 못하여 성능이 떨어진다는 단점을 가지고 있다. 또한, 복호화된 영상을 이용하여 비디오 요약에 필요한 분석을 수행하므로, 복잡도가 높고, 저장 용량이 제한적인 NVR(Network Video Recorder) 또는 영상 보안 플랫폼에서 사용하기 어려운 단점을 가지고 있다.
따라서, 본 발명을 통해 저장 용량을 감소시키면서, 정확도 높은 영상 요약 서비스를 제공하는 영상 요약 장치를 제시하고자 한다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 영상 제공 시스템의 구성도이다. 도 1을 참조하면, 영상 제공 시스템(1)은 복수의 촬영 장치(110), 영상 요약 장치(120) 및 영상 처리 장치(130)를 포함할 수 있다. 도 1에 도시된 복수의 촬영 장치(110), 영상 요약 장치(120) 및 영상 처리 장치(130)는 영상 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 영상 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 영상 요약 장치(120)는 네트워크를 통해 복수의 촬영 장치(110) 또는 영상 처리 장치(130)와 동시에 또는 시간 간격을 두고 연결될 수 있다.
네트워크는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보교환이 가능한 연결구조를 의미하는 것으로, 이러한 네트워크의 일예는, Wi-Fi, 블루투스(Bluetooth), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, 5G, LTE 등이 포함되나 이에 한정되지는 않는다.
복수의 촬영 장치(110)는 특정 위치에 설치될 수 있으며, 복수의 촬영 장치(110)는 카메라 앵글을 고정 또는 이동시켜 영상을 촬영할 수 있다. 예를 들어, 촬영된 영상은 CCTV 영상일 수 있다. 고화질 CCTV는 대용량의 영상 데이터를 계속 저장해야 하므로, 많은 저장 용량을 필요로 하고 있다. 따라서, 본원 발명은 영상 데이터의 용량을 줄이면서, CCTV 영상에서 필요한 부분만을 빠르게 검색할 수 있다.
복수의 촬영 장치(110)는 촬영 영상에 포함된 각 프레임을 구성하는 복수의 블록을 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나의 모드를 이용하여 인코딩할 수 있다. 인트라 예측 모드는 현재 프레임을 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 영상인 잔차 영상을 인코딩하는 모드이다. 인터 예측 모드는 이전 프레임과 현재 프레임 사이에서 발생한 움직임 정보를 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 잔차 영상을 인코딩하는 모드이다. 스킵 모드는 프레임을 구성하는 블록 중 현재 블록의 모션 벡터를 인코딩하지 않고, 이전 프레임의 특정 블록 또는 현재 프레임의 특정 블록에서 모션 벡터를 유도하여 예측 신호를 생성하는 모드이다.
복수의 촬영 장치(110)는 촬영 영상에 포함된 각 프레임을 구성하는 복수의 블록을 복수의 파티션을 이용하여 인코딩할 수 있다. 예를 들어, 복수의 촬영 장치(110)는 복수의 파티션 중 어느 하나를 이용하여 예측 유닛을 생성하고, 파티션 별로 서로 다른 예측 모드(인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나)를 이용하여 예측 영상을 생성할 수 있다.
복수의 촬영 장치(110)는 인코딩한 촬영 영상의 메인 영상을 영상 처리 장치(130)로 제공할 수 있다. 또는, 복수의 촬영 장치(110)는 인코딩한 촬영 영상에 대한 요약 영상의 생성을 위해 메인 영상을 영상 요약 장치(120)로 제공할 수 있다.
영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신할 수 있다. 영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신하면, 영상 요약의 개시 시점 및 종료 시점의 프레임 넘버, POC(Picture Order Count), 시스템 아웃풋 참조 시간(Present Time Stamp) 중 어느 하나로 구성된 메타데이터를 생성할 수 있다.
영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기 및 메타데이터에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 이 때, 영상 요약 장치(120)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다.
예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다.
다른 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.
이 때, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 어느 하나에 의해 인코딩되면, 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 예를 들어, 메인 영상에서 사람 또는 객체의 움직임이 없었음에도 메인 영상에 포함된 복수의 프레임이 이벤트가 포함되는 구간으로 판단한 경우, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다.
또한, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되면, 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 예를 들어, 메인 영상에서 카메라로부터 멀리 떨어진 위치에서 사람 또는 객체의 움직임이 발생하였지만 메인 영상에 포함된 복수의 프레임에서 이벤트의 미발생으로 판단된 경우, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다.
영상 요약 장치(120)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 영상 요약 장치(120)는 인코딩된 메인 영상을 디코딩하지 않고, 결정된 구간에 기초하여 메인 영상을 영상 조각으로 분할할 수 있다. 달리 말해, 영상 요약 장치(120)는 메인 영상로부터 적어도 하나 이상의 프레임으로 구성된 영상(또는 영상 조각)을 추출할 수 있다.
예를 들어, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 이 때, 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 영상 요약 장치(120)는 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 또한, 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 영상 요약 장치(120)는 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 영상 요약 장치(120)는 이벤트 개시 시점을 나타내는 프레임이 키 프레임이 아닌 경우, 프레임과 가까운 키 프레임으로 영상 조각을 생성할 수 있다. 여기서, 프레임과 가까운 키 프레임은 현재 시간 보다 이전 시간에 위치한 키 프레임일 수 있다.
다른 예를 들어, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.
영상 요약 장치(120)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.
영상 처리 장치(130)는 촬영 장치(110) 또는 영상 요약 장치(120)로부터 메인 영상을 수신할 수 있다. 이 때, 사용자로부터 요약 영상에 대한 요청을 입력받은 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다.
영상 처리 장치(130)는 메인 영상 또는 요약 영상을 처리하여 디스플레이에 출력할 수 있다.
도 2는 본 발명의 일 실시예에 따른 영상 요약 장치의 구성도이다. 도 2를 참조하면, 영상 요약 장치(120)는 수신부(210), 구간 결정부(220), 영상 분할부(230) 및 영상 합성부(240)를 포함할 수 있다.
수신부(210)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신할 수 있다.
구간 결정부(220)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 구체적으로, 구간 결정부(220)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다. 모션 벡터의 평균값은 메인 영상을 구성하는 프레임 내의 모션 벡터의 절대 값의 합을 메인 영상을 구성하는 프레임 내의 모션 벡터의 절대값으로 나눈 값을 의미하며, 모션 벡터의 평균값이 클수록 메인 영상에 움직임이 많이 발생한 것일 수 있다.
예를 들어, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 또한, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.
구간 결정부(220)는 메인 영상에 포함된 각 프레임을 구성하는 복수의 블록이 인코딩된 모드에 따라 구간을 결정할 수 있다.
예를 들어, 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩되면, 구간 결정부(220)는 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 인트라 예측 모드는 현재 프레임을 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 영상인 잔차 영상을 인코딩하는 모드이다. 인터 예측 모드는 이전 프레임과 현재 프레임 사이에서 발생한 움직임 정보를 이용하여 예측 영상을 생성하고, 원본 영상에서 예측 영상을 차분한 잔차 영상을 인코딩하는 모드이다. 스킵 모드는 프레임을 구성하는 블록 중 현재 블록의 모션 벡터를 인코딩하지 않고, 이전 프레임의 특정 블록 또는 현재 프레임의 특정 블록에서 모션 벡터를 유도하여 예측 신호를 생성하는 모드이다. 이 때, 구간 결정부(220)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다. 예를 들어, 스킵 모드의 비율은 다음과 같은 같은 공식에 의해 도출될 수 있다.
Figure pat00001
다른 예를 들어, 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되면, 구간 결정부(220)는 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정할 수 있다. 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 어느 하나를 이용하여 예측 유닛으로 생성될 수 있으며, 파티션 별로 서로 다른 예측 모드(예를 들어, 인트라 예측 모드, 인터 예측 모드, 스킵 모드)가 이용될 수 있다. 예를 들어, 기설정된 파티션으로서 작은 파티션으로 인코딩된 블록의 비율은 다음과 같은 공식에 의해 도출될 수 있다.
Figure pat00002
이 때, 구간 결정부(220)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율 보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 카메라로부터 멀리 떨어진 위치에서 객체의 움직임이 발생하였다고 판단하여 이벤트가 발생하였다고 결정할 수 있다.
영상 분할부(230)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 이 때, 영상 분할부(230)는 촬영 장치(110)에서 인코딩된 메인 영상을 디코딩하지 않고, 결정된 구간에 기초하여 메인 영상을 영상 조각으로 분할할 수 있다. 예를 들어, 1 프레임 내지 20 프레임으로 구성된 메인 영상 중 3 프레임 내지 6 프레임에서 이벤트가 발생한 경우, 영상 분할부(230)는 3 프레임 내지 6 프레임을 영상 조각으로 분할하고, 12 프레임 내지 15 프레임에서 이벤트가 발생한 경우, 영상 분할부(230)는 12 프레임 내지 15 프레임을 영상 조각으로 분할할 수 있다.
영상 분할부(230)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 예를 들어, 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임(I-frame)으로 영상 조각을 생성할 수 있다. 또는, 영상 분할부(230)는 이벤트가 포함된 모든 영상 조각을 재구성할 수도 있다.
다른 예를 들어, 영상 분할부(230)는 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.
영상 분할부(230)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 분할부(230)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.
영상 합성부(240)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다. 예를 들어, 영상 합성부(240)는 3 프레임 내지 6 프레임을 포함하는 제 1 영상 조각과 12 프레임 내지 15 프레임을 포함하는 제 2 영상 조각을 합성하여 하나의 요약 영상으로 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 메인 영상을 복수의 영상 조각으로 분할하여 합성하는 과정을 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 메인 영상은 F1 프레임 내지 F11 프레임을 포함하는 복수의 프레임(300)으로 구성될 수 있다. 복수의 프레임(300) 중 F1 프레임 내지 F4 프레임(310), F8 프레임 내지 F10 프레임(320)에서 이벤트가 발생한 경우, 영상 요약 장치(120)는 F1 프레임 내지 F4 프레임(310) 및 F8 프레임 내지 F10 프레임(320)을 각각의 서브 비트 스트림(sub-bitstream)으로 영상 조각을 생성하고, 생성된 두 개의 영상 조각을 합성하여, 요약 영상 비트 스트림(330)으로 생성할 수 있다.
도 4a 내지 도 4c는 본 발명의 일 실시예에 따른 각 프레임에 대한 모션 벡터의 평균값에 기초하여 이벤트가 포함되는 구간을 결정하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a는 메인 영상을 도시한 예시적인 도면이다. 도 4a를 참조하면, 메인 영상(400)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임을 통해 카메라 뒤에 위치한 사람이 카메라 전경으로 나타나고 있음을 알 수 있다.
도 4b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 4a 및 도 4b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(410)과 모션 벡터 시퀀스 평균값(420)을 나타낸 그래프로, 객체의 움직임이 발생하는 경우, 모션 벡터의 프레임 평균값이 모션 벡터의 시퀀스 평균값 보다 크다는 것을 알 수 있다. 모션 벡터의 시퀀스 평균값은 시퀀스 내 모든 프레임에 대해 모션 벡터의 프레임 평균값을 평균한 값을 나타낼 수 있다.
도 4c는 메인 영상의 모션 벡터의 프레임 평균값을 프레임 별로 나타낸 그래프이다. 도 4a 내지 도 4c를 참조하면, 메인 영상의 18 프레임 내지 88 프레임 중 모션 벡터 프레임 평균값(430)이 모션 벡터 시퀀스 평균값(440)보다 큰 22 프레임~83 프레임에서 이벤트가 발생하였음을 알 수 있다. 영상 요약 장치(120)는 이벤트의 시작 프레임인 22 프레임과 이벤트의 종료 프레임인 83 프레임을 벡터(22, 83)로 구성된 메타데이터에 기초하여 메인 영상 요약을 수행할 수 있다. 메타데이터는 전체 시퀀스에 대한 모션 벡터 시퀀스의 평균값과 각 이벤트의 간격을 나타내는 벡터로 나타낼 수 있다.
예를 들어, 영상 요약 장치(120)는 22 프레임과 83 프레임 외에 이벤트가 발생하지 않은 경우, 특정 프레임 넘버가 22 내지 83에 포함되지 않으면, 해당 프레임 데이터를 삭제할 수 있다. 또한, 특정 프레임 넘버가 22 내지 83에 포함된 경우, 영상 요약 장치(120)는 해당 프레임 데이터를 영상 조각으로 분할 후, 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 5a는 메인 영상을 도시한 예시적인 도면이다. 도 5a를 참조하면, 메인 영상(500)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임(예를 들어, 325 프레임 내지 329 프레임)을 통해 어떤 사람 또는 객체가 발견되지 않았음을 알 수 있다.
도 5b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 5a 및 도 5b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(510)과 모션 벡터 시퀀스 평균값(520)을 나타낸 그래프로, 도 5a에서 메인 영상에서 사람 또는 객체의 어떠한 움직임도 발견할 수 없었음에도, 모션 벡터 프레임의 평균값(510)이 모션 벡터 시퀀스 평균값(520)보다 큰 것을 알 수 있다.
도 5c는 메인 영상에 포함된 각 프레임 별 예측 모드의 비율을 나타내는 통계를 도시한 도면이다. 도 5a 내지 도 5c를 참조하면, 메인 영상에 포함된 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드(540), 인터 예측 모드(550) 및 스킵 모드(560) 중 어느 하나에 의해 인코딩될 수 있다.
예를 들어, 메인 영상의 325 프레임(531)은 인트라 예측 모드(540)에서 0.1%, 인터 예측 모드(550)에서 16.6%, 스킵 모드(560)에서 83.3%를 나타내며, 326 프레임(532)은 인트라 예측 모드(540)에서 1.1%, 인터 예측 모드(550)에서 14.6%, 스킵 모드(560)에서 84.3%를 나타내고, 327 프레임(533)은 인트라 예측 모드(540)에서 16.5%, 인터 예측 모드(550)에서 55.6%, 스킵 모드(560)에서 27.9%를 나타내고, 328 프레임(534)은 인트라 예측 모드(540)에서 1.8%, 인터 예측 모드(550)에서 44.9%, 스킵 모드(560)에서 53.3%를 나타내고, 329 프레임(535)은 인트라 예측 모드(540)에서 1.9%, 인터 예측 모드(550)에서 36.9%, 스킵 모드(560)에서 61.3%를 나타낼 수 있다.
도 5d는 메인 영상에 포함된 각 프레임 별 예측 모드의 비율을 나타내는 그래프를 도시한 도면이다. 도 5a의 메인 영상은 카메라의 움직임이 없었으므로, 배경에 해당하는 부분이 스킵 모드(580)로 부호화된 것일 수 있다. 스킵 모드(580)는 이전 프레임에서 모션과 텍스쳐 정보를 모두 유도하여 현재 프레임에서 재사용하는 모드를 의미한다. 도 5d를 참조하면, 327 프레임에서 스킵 모드(580)의 비율이 매우 낮게 선택되었으며, 이로 인해, 상대적으로 인터 예측 모드(570)가 많이 선택되면서, 모션 벡터 프레임의 평균값이 높아진 것을 알 수 있다.
즉, 영상 요약 장치(120)는 주변 프레임(예를 들어, 326 프레임, 328 프레임)의 모션 벡터 프레임의 평균값이 작고, 현재 프레임(예를 들어, 327 프레임)의 스킵 모드(580)의 비율이 작고, 현재 프레임(예를 들어, 327 프레임)의 모션 벡터 프레임의 평균값이 큰 경우에 대해, 이벤트가 발생하지 않았다고 판단할 수 있다. 또는, 영상 요약 장치(120)는 특정 프레임에서 모션 벡터 프레임의 평균값이 크고, 스킵 모드(580)의 비율이 작은 경우에 대해, 이벤트가 발생하지 않았다고 판단할 수 있다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 기설정된 파티션으로 인코딩된 블록의 비율에 기초하여 이벤트 발생 여부를 판단하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a는 메인 영상을 도시한 예시적인 도면이다. 도 6a를 참조하면, 메인 영상(600)에 포함된 복수의 프레임을 도시한 것으로, 복수의 프레임(예를 들어, 157 프레임 내지 161 프레임)을 통해 카메라로부터 멀리 떨어진 위치에서 객체가 지나가고 있음을 알 수 있다. 이는, 카메라와 객체와의 거리가 멀어 메인 영상에서 객체의 크기가 작게 나타난 것으로, 이벤트가 발생하였음을 알 수 있다.
도 6b는 메인 영상에서의 모션 벡터 프레임의 평균값과 이벤트 발생 간의 상관 관계를 나타낸 그래프이다. 도 6a 및 도 6b를 참조하면, 메인 영상의 모션 벡터 프레임 평균값(610)과 모션 벡터 시퀀스 평균값(620)을 나타낸 그래프로, 도 6a의 메인 영상에서 카메라로부터 멀리 떨어진 위치에서 사람이 지나가고 있음에도, 모션 벡터 프레임의 평균값(610)이 모션 벡터 시퀀스의 평균값(620) 보다 작은 것을 알 수 있다. 이러한 경우, 메인 영상에서 객체와 카메라 사이의 거리가 멀어 객체가 작은 객체로 나타나는 경우, 객체의 움직임이 많이 발생되더라도, 영상 요약 장치(120)는 모션 벡터의 크기가 크지 않아 이벤트로 감지하지 못할 수 있다.
도 6c는 이벤트를 감지하지 못하는 경우에 적용 가능한 복수의 파티션(630)을 도시한 예시적인 도면이다. 복수의 파티션(630)은 예를 들어, inter 16*16 파티션, inter 16*8 파티션, inter 8*16 파티션, inter 8*8 파티션, intra 16*16 파티션, intra 8*8 파티션, intra 4*4 파티션을 포함할 수 있다. 도 6a 내지 도 6c를 참조하면, 메인 영상에서 객체와 카메라 사이의 거리가 멀어 객체가 작은 객체로 나타나는 경우, 영상 요약 장치(120)는 inter 8*8 파티션(640) 및 intra 4*4 파티션(650)과 같이 프레임을 작은 파티션으로 분할하여 이벤트 발생 구간을 결정할 수 있다.
예를 들어, 메인 영상은 H.264/AVC에서 inter 8*8 또는 intra 4*4로 부호화될 수 있으며, HEVC에서는 inter 8*8로 부호화될 수 있다. 영상 요약 장치(120)는 복수의 파티션에서 특정 모드 또는 특정 크기로 부호화된 블록의 비율이 임계값 이상인 경우, 카메라로부터 거리가 먼 위치에서 이벤트가 발생하였음을 판단할 수 있다.
영상 요약 장치(120)는 스킵 모드의 비율과 기설정된 파티션으로 인코딩된 블록의 비율을 고려하여 카메라로부터 거리가 먼 위치에서 이벤트가 발생하였음을 판단할 수 있다. 예를 들어, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 크고, 현재 프레임을 구성하는 복수의 블록 중 기설정된 파티션(예를 들어, inter 8*8 및 intra 4*4 파티션)으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다. 이 때, 스킵 모드로 인코딩된 블록의 비율과 기설정된 파티션으로 인코딩된 블록의 비율에 대한 임계값을 선택적으로 설정될 수 있으며, 작은 파티션으로 인코딩된 블록을 포함하는 프레임에 대해서는 작은 임계값을 설정할 수 있다.
도 7은 본 발명의 일 실시예에 따른 영상 요약 장치에서 영샹을 요약하는 방법의 순서도이다. 도 7에 도시된 실시예에 따른 영상 요약 장치(120)에 의해 수행되는 영상을 요약하는 방법은 도 1에 도시된 실시예에 따른 영상 처리 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 7에 도시된 실시예에 따른 영상 요약 장치(120)에 의해 수행되는 영상을 요약하는 방법에도 적용된다.
단계 S710에서 영상 요약 장치(120)는 촬영 장치(110)로부터 메인 영상을 수신할 수 있다.
단계 S720에서 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간을 결정할 수 있다. 영상 요약 장치(120)는 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 구간을 결정할 수 있다. 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 다른 예를 들어, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 이벤트가 포함되는 구간으로 결정할 수 있다. 임계값은 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정될 수 있으며, 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트될 수 있다.
S730에서 영상 요약 장치(120)는 결정된 구간에 기초하여 메인 영상을 적어도 하나 이상의 영상 조각으로 분할할 수 있다. 예를 들어, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 또는, 영상 요약 장치(120)는 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 다른 예를 들어, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간에 기초하여 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다. 이 때, 영상 요약 장치(120)는 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 추출된 각 구간 내의 키 프레임으로 영상 조각을 생성할 수 있다.
S740에서 영상 요약 장치(120)는 분할된 영상 조각을 합성하여 요약 영상을 생성할 수 있다.
도 7에서는 도시되지 않았으나, 각 프레임을 구성하는 복수의 블록이 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩된 경우, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 구간을 결정하는 단계를 더 포함할 수 있다. 이 때, 영상 요약 장치(120)는 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값보다 상대적으로 크고, 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율보다 큰 경우, 이벤트가 발생하지 않았다고 결정할 수 있다.
도 7에서는 도시되지 않았으나, 각 프레임을 구성하는 복수의 블록이 복수의 파티션 중 적어도 하나 이상에 의해 인코딩된 경우, 영상 요약 장치(120)는 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 구간을 결정하는 단계를 더 포함할 수 있다. 이 때, 영상 요약 장치(120)는 현재 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율이 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 스킵 모드로 인코딩된 블록의 비율 보다 크고, 연재 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율이 주변 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 이벤트가 발생하였다고 결정할 수 있다.
도 7에서는 도시되지 않았으나, 영상 요약 장치(120)는 촬영 장치(110)로부터 인코딩된 메인 영상을 수신하는 단계 및 인코딩된 메인 영상을 디코딩하지 않고 결정도니 구간에 기초하여 메인 영상을 영상 조각으로 분할하는 단계를 더 포함할 수 있다.
상술한 설명에서, 단계 S710 내지 S740은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성도이다. 도 8을 참조하면, 영상 처리 장치(130)는 메인 영상 수신부(810), 요약 영상 수신부(820) 및 출력부(830)를 포함할 수 있다.
메인 영상 수신부(810)는 촬영 장치(110)로부터 메인 영상을 수신할 수 있다.
요약 영상 수신부(820)는 요약 영상에 대한 요청을 입력받은 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다. 요약 영상은 영상 요약 장치(120)에 의해 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고, 메인 영상이 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 분할된 영상 조각이 합성되어 생성되는 것일 수 있다.
출력부(830)는 메인 영상 또는 요약 영상을 처리하여 출력할 수 있다.
도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에서 영상 요약 서비스를 제공하는 방법의 순서도이다. 도 9에 도시된 실시예에 따른 영상 처리 장치(130)에 의해 수행되는 영상 요약 서비스를 제공하는 방법은 도 1에 도시된 실시예에 따른 영상 처리 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 8에 도시된 실시예에 따른 영상 처리 장치(130)에 의해 수행되는 영상 요약 서비스를 제공하는 방법에도 적용된다.
단계 S910에서 영상 처리 장치(130)는 메인 영상을 수신할 수 있다. 단계 S920에서 영상 처리 장치(130)는 요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치(120)로부터 메인 영상에 대한 요약 영상을 수신할 수 있다. 요약 영상은 영상 요약 장치(120)에 의해 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 메인 영상으로부터 이벤트가 포함된 구간이 결정되고, 메인 영상이 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고, 분할된 영상 조각이 합성되어 생성되는 것일 수 있다. 단계 S930에서 영상 처리 장치(130)는 메인 영상 또는 요약 영상을 처리하여 출력할 수 있다.
상술한 설명에서, 단계 S910 내지 S930은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 1 내지 도 9를 통해 설명된 영상 요약 장치에 의한 영상 요약 방법 및 영상 처리 장치에 의한 영상 처리 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 9를 통해 설명된 영상 요약 장치에 의한 영상 요약 방법 및 영상 처리 장치에 의한 영상 처리 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110: 촬영 장치
120: 영상 요약 장치
130: 영상 처리 장치
210: 수신부
220: 구간 결정부
230: 영상 분할부
240: 영상 합성부
810: 메인 영상 수신부
820: 요약 영상 수신부
830: 출력부

Claims (20)

  1. 영상을 요약하는 장치에 있어서,
    촬영 장치로부터 메인 영상을 수신하는 수신부;
    상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간을 결정하는 구간 결정부;
    상기 결정된 구간에 기초하여 상기 메인 영상을 구성된 적어도 하나 이상의 영상 조각으로 분할하는 영상 분할부; 및
    상기 분할된 영상 조각을 합성하여 요약 영상을 생성하는 영상 합성부
    를 포함하는 것인, 영상 요약 장치.
  2. 제 1 항에 있어서,
    상기 구간 결정부는 상기 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균값에 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
  3. 제 2 항에 있어서,
    상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 상기 복수의 프레임에 대한 모션 벡터의 시퀀스 평균값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 상기 이벤트가 포함되는 구간으로 결정하도록 구성되는 것인, 영상 요약 장치.
  4. 제 2 항에 있어서,
    상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임으로부터 각 프레임에 대한 모션 벡터의 평균값이 임계값보다 기설정된 프레임 수 이상 연속적으로 큰 적어도 하나 이상의 프레임을 상기 이벤트가 포함되는 구간으로 결정하도록 구성되는 것인, 영상 요약 장치.
  5. 제 4 항에 있어서,
    상기 임계값은 상기 메인 영상의 해상도 및 슬라이스 타입에 기초하여 설정되는 것인, 영상 요약 장치.
  6. 제 5 항에 있어서,
    상기 임계값은 기설정된 구간 동안의 프레임에 대한 모션 벡터의 프레임 평균값에 기초하여 업데이트 되는 것인, 영상 요약 장치.
  7. 제 2 항에 있어서,
    상기 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 하나에 의해 인코딩되고
    상기 구간 결정부는 상기 각 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
  8. 제 7 항에 있어서,
    상기 구간 결정부는 상기 메인 영상에 포함된 복수의 프레임 중 현재 프레임의 모션 벡터의 평균값이 상기 현재 프레임에 대한 주변 프레임의 모션 벡터의 평균값 보다 상대적으로 크고, 상기 현재 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율이 상기 주변 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율 보다 큰 경우, 상기 이벤트가 발생하지 않았다고 결정하는 것인, 영상 요약 장치.
  9. 제 7 항에 있어서,
    상기 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되고,
    상기 구간 결정부는 상기 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 상기 구간을 결정하는 것인, 영상 요약 장치.
  10. 제 9 항에 있어서,
    상기 구간 결정부는 상기 현재 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율이 상기 현재 프레임에 대한 주변 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율 보다 크고, 상기 현재 프레임을 구성하는 복수의 블록 중 상기 기설정된 파티션으로 인코딩된 블록의 비율이 상기 주변 프레임을 구성하는 복수의 블록 중 상기 기설정된 파티션으로 인코딩된 블록의 비율 보다 큰 경우, 상기 이벤트가 발생하였다고 결정하는 것인, 영상 요약 장치.
  11. 제 1 항에 있어서,
    상기 수신부는 상기 촬영 장치로부터 인코딩된 상기 메인 영상을 수신하고,
    상기 영상 분할부는 상기 인코딩된 메인 영상을 디코딩하지 않고 상기 결정된 구간에 기초하여 상기 메인 영상을 상기 영상 조각으로 분할하도록 구성되는 것인, 영상 요약 장치.
  12. 제 1 항에 있어서,
    상기 영상 분할부는 상기 추출된 각 구간 내의 프레임의 모션 벡터의 평균값에 기초하여 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
  13. 제 12 항에 있어서,
    상기 영상 분할부는 상기 추출된 각 구간 내의 프레임의 모션 벡터의 평균값이 기설정된 임계값보다 작은 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
  14. 제 12 항에 있어서,
    상기 영상 분할부는 상기 추출된 각 구간 내의 각각의 프레임의 모션 벡터의 평균값 중 최대값이 기설정된 임계값보다 작은 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
  15. 제 1 항에 있어서,
    상기 영상 분할부는 상기 추출된 각 구간의 이벤트 지속 시간에 기초하여 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
  16. 제 15 항에 있어서,
    상기 영상 분할부는 상기 추출된 각 구간의 이벤트 지속 시간이 기설정된 임계값보다 큰 경우, 상기 추출된 각 구간 내의 키 프레임으로 상기 영상 조각을 생성하도록 구성되는 것인. 영상 요약 장치.
  17. 영상 요약 서비스를 제공하는 영상 처리 장치에 있어서,
    메인 영상을 수신하는 메인 영상 수신부;
    요약 영상에 대한 요청을 입력받는 경우, 영상 요약 장치로부터 상기 메인 영상에 대한 요약 영상을 수신하는 요약 영상 수신부; 및
    상기 메인 영상 또는 상기 요약 영상을 처리하여 출력하는 출력부
    를 포함하고,
    상기 영상 요약 장치에 의해 상기 메인 영상에 포함된 복수의 프레임에 대한 모션 벡터의 크기에 기초하여 상기 메인 영상으로부터 이벤트가 포함되는 구간이 결정되고,
    상기 메인 영상은 상기 결정된 구간에 기초하여 적어도 하나 이상의 영상 조각으로 분할되고,
    상기 요약 영상은 상기 분할될영상 조각이 합성되어 생성되는 것인, 영상 처리 장치.
  18. 제 17 항에 있어서,
    상기 구간은 상기 메인 영상에 포함된 각 프레임에 대한 모션 벡터의 평균 값에 기초하여 결정되는 것인, 영상 처리 장치.
  19. 제 18 항에 있어서,
    상기 각 프레임을 구성하는 복수의 블록은 인트라 예측 모드, 인터 예측 모드 및 스킵 모드 중 적어도 하나 이상에 의해 인코딩되고,
    상기 구간은 상기 각 프레임을 구성하는 복수의 블록 중 상기 스킵 모드로 인코딩된 블록의 비율에 더 기초하여 결정되는 것인, 영상 처리 장치.
  20. 제 19 항에 있어서,
    상기 각 프레임을 구성하는 복수의 블록은 복수의 파티션 중 적어도 하나 이상에 의해 인코딩되고,
    상기 구간은 상기 각 프레임을 구성하는 복수의 블록 중 기설정된 파티션으로 인코딩된 블록의 비율에 더 기초하여 결정되는 것인, 영상 처리 장치.
KR1020160083546A 2016-07-01 2016-07-01 영상 요약 장치 및 영상 처리 장치 KR102071388B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160083546A KR102071388B1 (ko) 2016-07-01 2016-07-01 영상 요약 장치 및 영상 처리 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160083546A KR102071388B1 (ko) 2016-07-01 2016-07-01 영상 요약 장치 및 영상 처리 장치

Publications (2)

Publication Number Publication Date
KR20180003858A true KR20180003858A (ko) 2018-01-10
KR102071388B1 KR102071388B1 (ko) 2020-01-30

Family

ID=60998839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160083546A KR102071388B1 (ko) 2016-07-01 2016-07-01 영상 요약 장치 및 영상 처리 장치

Country Status (1)

Country Link
KR (1) KR102071388B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018004785A1 (de) 2017-06-14 2018-12-20 Mando Corporation Magnetventil für ein Bremssystem

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003250140A (ja) * 2002-02-22 2003-09-05 Ricoh Co Ltd 映像配信サーバ
KR20030084299A (ko) * 2002-04-26 2003-11-01 제트로전자(주) 움직임 감지방법과 움직임 감지장치 및 이를 내장한 모니터
JP2012010265A (ja) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> 要約映像生成装置及び要約映像生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003250140A (ja) * 2002-02-22 2003-09-05 Ricoh Co Ltd 映像配信サーバ
KR20030084299A (ko) * 2002-04-26 2003-11-01 제트로전자(주) 움직임 감지방법과 움직임 감지장치 및 이를 내장한 모니터
JP2012010265A (ja) * 2010-06-28 2012-01-12 Nippon Hoso Kyokai <Nhk> 要約映像生成装置及び要約映像生成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018004785A1 (de) 2017-06-14 2018-12-20 Mando Corporation Magnetventil für ein Bremssystem

Also Published As

Publication number Publication date
KR102071388B1 (ko) 2020-01-30

Similar Documents

Publication Publication Date Title
JP6670812B2 (ja) 符号化装置および符号化方法
RU2682859C1 (ru) Выбор точности вектора движения
JP3719933B2 (ja) 階層的ディジタル動画要約及び閲覧方法、並びにその装置
US9756348B2 (en) Method, device and system for producing a merged digital video sequence
AU2005272046B2 (en) Method and apparatus for detecting motion in MPEG video streams
JP6573673B2 (ja) 高フレームレート−低フレームレート伝送技術
RU2653258C2 (ru) Способ и устройство для обработки видеосигнала
CA3057924A1 (en) System and method to optimize the size of a video recording or video transmission by identifying and recording a region of interest in a higher definition than the rest of the image that is saved or transmitted in a lower definition format
US9275081B2 (en) Data management apparatus and data management method
KR102279310B1 (ko) 부호화 방법 및 장치와, 복호 방법 및 장치
JP7443513B2 (ja) 映像/ビデオコーディング方法及び装置
US20240064305A1 (en) Slice type-based image/video coding method and apparatus
US9648336B2 (en) Encoding apparatus and method
KR102071388B1 (ko) 영상 요약 장치 및 영상 처리 장치
CN109194965B (zh) 处理方法、处理装置、显示方法和显示装置
US9560365B2 (en) Image coding device, image decoding device, image coding method, and image decoding method
JP2009164937A (ja) 動画像の多重化方法とファイル読み込み方法及び装置,並びにそのプログラムとコンピュータ読み取り可能な記録媒体
US20120194643A1 (en) Video coding device and video coding method
RU2803187C1 (ru) Способ и устройство кодирования изображения на основе подкартинки
JP6871147B2 (ja) 画像生成装置、画像生成方法及び画像生成プログラム
KR20230114692A (ko) 영상 분석 방법 및 장치
KR20230053288A (ko) 이벤트 검출 기반 영상 저장 방법 및 장치
KR20230149297A (ko) 인트라 예측 모드 도출 기반 인트라 예측 방법 및 장치
JP2019083368A (ja) 符号化装置及び復号装置及びそれらの制御方法及びプログラム
JP2015035785A (ja) 動画像符号化装置、撮像装置、動画像符号化方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant