KR101822443B1

KR101822443B1 - 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치

Info

Publication number: KR101822443B1
Application number: KR1020160119483A
Authority: KR
Inventors: 낭종호; 최기석
Original assignee: 서강대학교산학협력단
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2018-01-30

Abstract

본 발명의 샷 경계 및 자막을 이용한 동영상 축약 방법은, 동영상정보를 제공받아 샷 경계를 검출하고, 상기 샷 경계를 기준으로 상기 동영상정보를 다수의 샷으로 분할하는 제1단계; 상기 다수의 샷 각각에 대해 자막이 등장하는지를 검출하는 제2단계; 상기 자막이 등장하는 샷에 포함된 프레임들에 대해 자막이 위치하는 자막영역과 나머지 영역인 컨텐츠영역으로 분할하는 제3단계; 및 상기 샷에 포함된 프레임들 중 어느 한 프레임의 컨텐츠영역에 상기 프레임들의 자막영역들을 부가하여 동영상 축약 이미지를 생성하는 제4단계;를 포함하는 것을 특징으로 한다.

Description

샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치{Video Abstraction Method and Apparatus using Shot Boundary and caption}

본 발명은 동영상 편집 기술에 관한 것으로, 더욱 상세하게는 자막이 있는 동영상에 대해 샷 단위로 샷에 포함된 프레임의 일부 영역인 컨텐츠 영역에 상기 샷에 포함된 프레임들에 실린 자막들을 순서대로 부가시켜 하나의 이미지인 동영상 축약 이미지를 생성함으로써 동영상을 축약하는 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치에 관한 것이다.

대용량 멀티미디어 데이터베이스의 중가와 통신 및 디지털 미디어 처리 기술의 발달로 인하여 수많은 동영상 비디오가 출현함에 따라, 축약된 동영상 비디오의 요약 정보를 바탕으로 한 검색 서비스를 통해 사용자의 편의와 만족을 도모하기 위한 노력이 증대되고 있다.

최근, 동영상 비디오와 관련된 다양한 형태의 상업이 전개되면서 대량의 동영상 비디오를 자동으로 분석하고자 하는 필요성이 증대되고 있으며, 이를 해결하기 위한 많은 연구들이 활발하게 진행되고 있다.

동영상 비디오를 축약하는 방법에는 비디오 스키밍(Video skimming), 하이라이트(highlight)와 비디오 요약(summary) 방법이 있다. 상기 하이라이트는 주로 특정 이벤트 중심으로 동영상의 흥미로운 일부분만 추려내어 축약한 것이고, 상기 비디오 요약은 동영상 비디오에 대한 의미 있는 내용과 구조적인 정보를 추려내기 위한 것으로, 비디오 요약의 결과는 일반적으로 주요 정지영상(키 프레임)의 연속된 형태(sequence of key frames)로 표현되는데, 현재까지 대부분의 동영상 축약에 대한 연구는 주로 동영상 요약 정보 생성을 그 목표로 하고 있다. 상기 키 프레임으로 표현된 비디오 요약은 비디오 전체의 내용을 한눈에 파악할 수 있게 할 뿐만 아니라, 그 키 프레임을 담고 있는 장면(scenes 또는 shot)이 창구(entries) 역할을 하게 된다. 이 때문에 비디오 요약 작업을 최적의 키 프레임 선정, 또는 최적의 키 프레임이 위치한 세그먼트 선정 작업이라고 볼 수 있으며, 보통 색상, 움직임 등 시각적으로 도드라진 특징들이 키 프레임을 선택하는 데에 중요한 요건으로 이용된다.

상기한 바와 같이 종래에는 다양한 형태의 동영상 미디어 축약기술이 제안되어 상용화되었으나, 사용자의 다양한 욕구를 충족시키기에는 여전히 한계가 있었다.

한국특허공개 제1020070088890호 한국특허공개 제1020080105387호 대한민국특허등록 제100828166호

본 발명은 자막이 있는 동영상에 대해 샷 단위로 샷에 포함된 프레임의 일부 영역인 컨텐츠 영역에 상기 샷에 포함된 프레임들에 실린 자막들을 순서대로 부가시켜 하나의 이미지인 동영상 축약 이미지를 생성함으로써 동영상을 축약하는 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 샷 경계 및 자막을 이용한 동영상 축약 방법은, 동영상정보를 제공받아 샷 경계를 검출하고, 상기 샷 경계를 기준으로 상기 동영상정보를 다수의 샷으로 분할하는 제1단계; 상기 다수의 샷 각각에 대해 자막이 등장하는지를 검출하는 제2단계; 상기 자막이 등장하는 샷에 포함된 프레임들에 대해 자막이 위치하는 자막영역과 나머지 영역인 컨텐츠영역으로 분할하는 제3단계; 및 상기 샷에 포함된 프레임들 중 어느 한 프레임의 컨텐츠영역에 상기 프레임들의 자막영역들을 부가하여 동영상 축약 이미지를 생성하는 제4단계;를 포함하는 것을 특징으로 한다.

상기한 본 발명은 자막이 있는 동영상에 대해 샷 단위로 샷에 포함된 프레임의 일부 영역인 컨텐츠 영역에 상기 샷에 포함된 프레임들에 실린 자막들을 순서대로 부가시켜 하나의 이미지인 동영상 축약 이미지를 형성함으로써 동영상을 축약하는 효과를 야기한다.

도 1은 본 발명의 바람직한 실시예에 따르는 샷 경계 및 자막을 이용한 동영상 축약 이미지를 생성하는 이미지 처리장치의 구성도.
도 2는 본 발명의 바람직한 실시예에 따르는 샷 경계 및 자막을 이용한 동영상 축약 이미지를 생성하는 방법의 절차도.
도 3 내지 도 8은 본 발명에 따르는 이미지 처리과정을 예시한 도면.

본 발명은 자막이 있는 동영상에 대해 샷 단위로 샷에 포함된 프레임의 일부 영역인 컨텐츠 영역에 상기 샷에 포함된 프레임들에 실린 자막들을 순서대로 부가시켜 하나의 이미지인 동영상 축약 이미지를 생성함으로써 동영상을 효과적으로 축약한다.

<이미지 처리장치의 구성>

이러한 본 발명에 따르는 샷 경계 및 자막을 이용한 동영상 축약 이미지를 생성하는 이미지 처리장치의 구성을 도 1을 참조하여 상세히 설명한다.

상기 이미지 처리장치는 프로세서(100)와 메모리부(102)와 저장장치(104)와 디스플레이 장치(106)와 외부기기 인터페이스 장치(108)와 사용자 인터페이스 장치(110)로 구성된다.

상기 프로세서(100)는 동영상정보를 제공받아 샷 경계를 검출하여 샷 단위로 분할하고, 그 분할된 샷들 각각에 대해 축약가능한지 여부를 판별하고, 축약가능한 샷에 대해서는 프레임의 일부 영역인 컨텐츠 영역과 상기 샷에 포함된 프레임들에 실린 자막들을 순서대로 부가시켜 하나의 프레임인 동영상 축약 이미지를 형성함으로써 동영상정보를 효과적으로 축약한다.

상기 메모리부(102)는 상기 프로세서(100)의 처리 프로그램을 포함하는 다양한 정보를 저장한다.

상기 저장장치(104)는 상기 프로세서(100)의 제어에 따라 외부장치 등으로부터 제공받은 동영상 정보 또는 동영상 축약 이미지 등을 저장한다.

상기 디스플레이 장치(106)는 상기 프로세서(100)의 제어에 따른 각종 정보를 디스플레이하여 사용자에게 안내한다.

상기 외부기기 인터페이스 장치(108)는 상기 프로세서(100)와 외부기기 사이의 인터페이스를 담당한다.

상기 사용자 인터페이스 장치(110)는 상기 프로세서(100)와 사용자 사이의 인터페이스를 담당한다.

이제 상기한 이미지 처리장치에 적용 가능한 동영상 축약 이미지 생성방법을 도면을 참조하여 상세히 설명한다.

<샷 경계 및 자막을 이용한 동영상 축약 이미지를 생성하는 방법의 절차>

상기한 이미지 처리장치에 의해 수행되는 샷 경계 및 자막을 이용한 동영상 축약 이미지를 생성하는 방법을 도 2의 흐름도를 참조하여 상세히 설명한다.

상기 프로세서(100)는 영상정보를 입력받아 샷 경계를 검출하고(200단계), 그 샷 경계를 기준으로 영상정보를 다수의 샷으로 분할한다. 상기 샷 경계 검출은 이미 공지된 기술이므로 그 상세한 설명은 생략한다.

상기한 바와 같이 영상정보를 다수의 샷으로 분할한 후에, 상기 프로세서(100)는 다수의 샷 각각에 대해 해당 샷을 구성하는 프레임들 중 자막등장영역이 있는 프레임들을 검출한다(202단계).

상기 자막등장영역이 포함된 프레임을 검출하는 과정을 좀 더 상세하게 설명한다.

도 5는 슬라이딩 윈도우를 이용하여 자막이 등장하는 프레임과 그 프레임에서 자막등장영역을 검출하는 것을 예시한 것이다. 이는 연속된 프레임들에서 자막 등장 영역은 변화하지 않고 나머지 영역은 변화하는 특성을 이용한 것이다. 즉, 다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임을 미리 정해진 수(k개)만큼 순차적으로 슬라이딩 윈도우에 입력시키고, 상기 슬라이딩 윈도우내의 프레임들의 이미지 중 변화하지 않는 영역을 자막등장영역으로 검출하며, 상기 자막등장영역이 검출되면 해당 샷에는 자막이 등장하는 것으로 판별하는 것이다.

도 6은 모폴로지(Morphology) 연산을 이용하여 자막이 등장하는 프레임과 그 프레임에서 자막등장영역을 검출하는 과정을 예시한 것이다. 이는 원본 프레임에 대해 침식 연산을 진행하거나 팽창 연산을 진행한 후에, 그 연산 결과와 원본 프레임 사이의 차이를 구하여 자막 부분을 강조시킴과 아울러 노이즈에 대한 부분 필터링을 이행하여 자막 등장 영역을 검출하는 것이다.

도 7은 캐니 에지를 통해 글씨를 찾는 과정을 예시한 것이다. 이는 프레임으로부터 캐니 에지(canny edge)를 검출하고 그 캐니 에지가 미리 정의(pre knowledge)된 글씨 후보 참조정보에 따른 글씨 특성에 대응되는지를 판별하고, 그 판별 결과에 따라 글씨가 아닌 것으로 판단되는 캐니 에지 검출결과에 대해서는 제거(filter out)하여 자막이 등장하는지 여부 및 자막등장영역을 검출한다. 좀 더 설명하면, 프로세서(100)는 캐니 에지 검출 결과에 따르는 사각형 영역의 둘레 대비 에지(edge)의 길이(length)가 일정 크기 이하면 글씨가 아닌 것으로 판단하여 제거(filter out)하고, 사각형의 크기나 비율이 글씨로 예상되지 않을 경우에는 제거(filter out)한다. 이후 상기 프로세서(100)는 글씨 후보들을 클러스터링(clustering)하여 자막 영역을 구한다.

이와 같이 자막등장영역이 검출되면, 상기 프로세서(100)는 해당 프레임을 자막등장영역과 나머지 영역인 컨텐츠 영역으로 분할하며, 이를 자막이 등장한 프레임으로 결정한다.

이후 상기 프로세서(100)는 다수의 샷 각각에 대해 해당 샷을 구성하는 프레임들 중 둘 이상의 자막을 가진 샷, 즉 축약 가능한 샷을 검출한다(204단계).

상기 축약 가능한 샷이 검출되면, 상기 프로세서(100)는 축약 가능한 샷에 포함된 프레임들 중 둘 이상의 프레임이 가진 자막영역을 검출하고, 그 자막영역들중 크기가 큰 자막영역을 기준으로 상기 샷에 포함된 프레임들을 2 분할하여 자막 영역과 컨텐츠 영역으로 분할한다(206단계).

이후 상기 프로세서(100)는 상기 샷에 포함된 프레임들 사이의 컨텐츠 영역에서의 변화량을 산출한다. 그리고 상기 프로세서(100)는 상기 프레임간 변화량이 제1임계값이상인 지점을 하나 이상 검출한다. 상기 지점이 하나 이상 검출되면, 샷의 시작 지점에서의 프레임, 검출된 하나 이상의 지점에서의 프레임, 샷의 종료 지점에서의 프레임을 기준으로 프레임 축약을 이행한다. 상기 프레임 축약은 각 지점에서의 프레임의 컨텐츠 영역에 현재 지점에서의 프레임에서 다음 지점까지의 프레임의 자막 영역을 결합하는 것이다. 여기서 상기 결합되는 자막 영역은 프레임 간 변화량이 미리 정해둔 제2임계값 이상인 프레임의 자막영역들을 순서대로 추가할 수 있다.

도 3 및 도 4는 본 발명의 바람직한 실시예에 따르는 동영상 축약 이미지 생성과정을 예시한 것이다.

도 3의 (a)는 원본 동영상을 예시한 것이고, 도 3의 (b)는 원본 동영상에서 샷 경계를 검출한 것을 예시한 것이다. 그리고 도 3의 (c)는 샷에서 자막이 등장한 프레임과 자막등장영역을 검출한 것을 예시한 것이다. 그리고 도 3의 (d)는 다수의 샷 중에 축약 가능한 샷을 검출함과 아울러, 상기 샷에 포함된 프레임들을 자막 영역과 컨텐츠 영역으로 분할한 것을 예시한 것이다.

그리고 도 4의 (a)는 동영상 축약 이미지를 예시한 것으로, 상단에는 컨텐츠 영역이 위치하고 하단에는 다수 프레임에 포함되었던 자막영역을 순차적으로 결합한 것이 위치한다.

참고로 모폴로지(morphology)에 대해 설명한다. 상기 모폴로지는 영상을 형태학적인 관점에서 보고 접하는 방식으로, 이진영상처리에 주로 사용된다. 또한 집합의 포함관계, 이동, 대칭, 여집합, 차집합 등을 이용한다. 영상에서 잡음을 제거하거나 객체의 모양을 기술하는 용도로 사용한다. 대표적으로 침식(erosion)과 팽창(dilation) 연산이 있다.

상기 침식은 영상내의 객체 영역을 깍아나가는 연산으로, 가장 작은 값을 픽셀 중심부의 값으로 바꾸는 최소값 필터의 역할을 수행한다. 이를 통해 흰색 영역은 감소되고 검은색 영역은 증가된다. 이는 도 8의 (a)에 예시하였다.

상기 팽창은 영상내의 객체 영역을 넓혀가는 연산으로, 가장 큰 값을 픽셀 중심부의 값으로 바꾸는 최대값 필터의 역할을 수행한다. 이를 통해 흰색 영역은 증가되고 검색은 영역은 감소된다. 이는 도 8의 (b)에 예시하였다.

상기 캐니 에지에 대해서도 설명한다. 상기 캐니 에지는 에지 디텍터 중 가장 흔하게 사용되는 것으로 opencv에 내장되어 있어 손쉽게 사용가능하다. 이는 도 8의 (c)에 예시하였다. 여기서, 상기 캐니 에지의 세가지 기준이 존 캐니(john canny)에 의해 제안되었으며, 이는 good detection 및 good location, clear respone이다. 상기 good detection은 모든 에지가 탐지되는 것이고, 상기 good location은 실제와 측정의 차이의 최소화를 일컫고, 상기 good resopnse는 각 에지에 대한 단일 응답을 나타낸다.

그리고 상기 에지는 미분의 그라이디언트 크기를 사용하여 검출하는 것으로, 도 8의 (d)에 예시하였다.

100 : 프로세서
102 : 메모리부
104 : 저장장치
106 : 디스플레이 장치
108 : 외부기기 인터페이스 장치
110 : 사용자 인터페이스 장치

Claims

샷 경계 및 자막을 이용한 동영상 축약 방법에 있어서,
동영상정보를 제공받아 샷 경계를 검출하고, 상기 샷 경계를 기준으로 상기 동영상정보를 다수의 샷으로 분할하는 제1단계;
상기 다수의 샷 각각에 대해 자막이 등장하는지를 검출하는 제2단계;
상기 자막이 등장하는 샷에 포함된 프레임들에 대해 자막이 위치하는 자막영역과 나머지 영역인 컨텐츠영역으로 분할하는 제3단계; 및
상기 샷에 포함된 프레임들 중 어느 한 프레임의 컨텐츠영역에 상기 프레임들의 자막영역들을 부가하여 동영상 축약 이미지를 생성하는 제4단계;를 포함하며,
상기 제4단계가,
상기 샷에 포함된 프레임들의 컨텐츠 영역들에 대해,
프레임간 컨텐츠 영역들에서의 변화량이 미리 정해둔 제1임계값 이상인 지점을 하나 이상 검출하고,
상기 지점이 하나 이상 검출되면 상기 샷의 시작 지점에서의 프레임, 검출된 하나 이상의 지점에서의 프레임, 샷의 종료 지점에서의 프레임을 기준으로 프레임 축약을 이행하며,
상기 프레임 축약은 각 지점에서의 프레임의 컨텐츠 영역에 현재 지점에서의 프레임에서 다음 지점까지의 프레임의 자막 영역을 순차적으로 부가하는 것이며,
상기 부가되는 자막 영역은 프레임간 자막영역들에서의 변화량이 미리 정해둔 제2임계값 이상인 프레임의 자막영역들임을 특징으로 하는 샷 경계 및 자막을 이용한 동영상 축약 방법.
제1항에 있어서,
상기 제2단계는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임을 미리 정해진 수만큼 순차적으로 슬라이딩 윈도우에 입력시키고, 상기 슬라이딩 윈도우내의 프레임들의 영역 중 변화하지 않는 영역을 자막등장영역으로 검출하며,
상기 자막등장영역이 검출되면 해당 샷에는 자막이 등장하는 것으로 판별하는 것임을 특징으로 하는 샷 경계 및 자막을 이용한 동영상 축약 방법.
제1항에 있어서,
상기 제2단계는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 침식 연산을 이행하고,
상기 침식 연산 결과와 원본 프레임 사이의 차이를 검출하여 자막의 등장을 검출하는 것임을 특징으로 하는 샷 경계 및 자막을 이용한 동영상 축약 방법.
제1항에 있어서,
상기 제2단계는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 팽창 연산을 이행하고,
상기 팽창 연산 결과와 원본 프레임 사이의 차이를 검출하여 자막의 등장을 검출하는 것임을 특징으로 하는 샷 경계 및 자막을 이용한 동영상 축약 방법.
제1항에 있어서,
상기 제2단계는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 캐니에지를 검출하여 글씨를 검출하고,
상기 글씨가 검출되면 자막이 등장한 것으로 판단하는 것임을 특징으로 하는 샷 경계 및 자막을 이용한 동영상 축약 방법.
삭제
이미지 처리장치에 있어서,
동영상정보 및 동영상 축약 이미지를 저장하는 메모리부; 및
동영상정보를 제공받아 샷 경계를 검출하고, 상기 샷 경계를 기준으로 상기 동영상정보를 다수의 샷으로 분할하고,
상기 다수의 샷 각각에 대해 자막이 등장하는지를 검출하고,
상기 자막이 등장하는 샷에 포함된 프레임들에 대해 자막이 위치하는 자막영역과 나머지 영역인 컨텐츠영역으로 분할하고,
상기 프레임들 중 어느 한 프레임의 컨텐츠영역에 상기 프레임들의 자막영역들을 부가하여 동영상 축약 이미지를 생성하는 프로세서;를 포함하며,
상기 프로세서는,
상기 샷에 포함된 프레임들의 컨텐츠 영역들에 대해,
프레임간 컨텐츠 영역들에서의 변화량이 미리 정해둔 제1임계값 이상인 지점을 하나 이상 검출하고,
상기 지점이 하나 이상 검출되면 상기 샷의 시작 지점에서의 프레임, 검출된 하나 이상의 지점에서의 프레임, 샷의 종료 지점에서의 프레임을 기준으로 프레임 축약을 이행하며,
상기 프레임 축약은 각 지점에서의 프레임의 컨텐츠 영역에 현재 지점에서의 프레임에서 다음 지점까지의 프레임의 자막 영역을 순차적으로 부가하며,
상기 부가되는 자막 영역은 프레임간 자막영역들에서의 변화량이 미리 정해둔 제2임계값 이상인 프레임의 자막영역들임을 특징으로 하는 이미지 처리장치.
제7항에 있어서,
상기 프로세서는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임을 미리 정해진 수만큼 순차적으로 슬라이딩 윈도우에 입력시키고, 상기 슬라이딩 윈도우내의 프레임들의 이미지 중 변화하지 않는 영역을 자막등장영역으로 검출하며,
상기 자막등장영역이 검출되면 해당 샷에는 자막이 등장하는 것으로 판별하는 것임을 특징으로 하는 이미지 처리장치.
제7항에 있어서,
상기 프로세서는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 침식 연산을 이행하고,
상기 침식 연산 결과와 원본 프레임 사이의 차이를 검출하여 자막의 등장을 검출하는 것임을 특징으로 하는 이미지 처리장치.
제7항에 있어서,
상기 프로세서는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 팽창 연산을 이행하고,
상기 팽창 연산 결과와 원본 프레임 사이의 차이를 검출하여 자막의 등장을 검출하는 것임을 특징으로 하는 이미지 처리장치.
제7항에 있어서,
상기 프로세서는,
다수의 샷 각각에 대해 해당 샷을 구성하는 다수의 프레임 각각에 대해 캐니에지를 검출하여 글씨를 검출하고,
상기 글씨가 검출되면 자막이 등장한 것으로 판단하는 것임을 특징으로 하는 이미지 처리장치.
삭제