KR102221792B1

KR102221792B1 - 동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법

Info

Publication number: KR102221792B1
Application number: KR1020190103909A
Authority: KR
Inventors: 이명진; 서규; 손종웅
Original assignee: 한국항공대학교산학협력단; 타가텍 주식회사
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-03-02

Abstract

동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법이 개시되며, 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법은, (a) 입력된 비디오 시퀀스의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 상기 하나 이상의 장면 전환 프레임을 경계로 상기 비디오 시퀀스를 복수의 샷으로 분할하는 단계, (b) 상기 복수의 샷 각각의 키 프레임 및 속성을 결정하는 단계, (c) 상기 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 존재하는 모든 샷들을 병합하여 병합 장면을 생성하는 단계 및 (d) 상기 병합 장면 각각의 키 프레임 및 속성을 결정하는 단계를 포함할 수 있다.

Description

동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING STORY-BASED SCENE OF VIDEO CONTENTS}

본원은 동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법에 관한 것이다. 달리 말해, 본원은 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치 및 방법에 관한 것이다.

종래의 비디오 장면검출기는 비디오 편집이나 시청에 도움이 되는 장면 별 대표 화면을 제공하기 위한 용도로 사용되어 왔다. 대부분의 장면 검출기는 시간에 따른 인접 비디오 프레임들간 신호 크기 변화나 컬러 특성 변화를 평가하여 장면 전환 여부를 검출하는 방식을 채택하였다.

이러한 종래의 방식에 의하면, 검출된 장면 전환된 프레임들을 이용하여 비디오 신호 관점의 장면을 정의할 수 있고, 각 장면마다 대표 프레임을 선정함으로써 비디오 시청용 프로그램이나 비디오 편집 정보를 제공하는 응용 프로그램에 활용되어 왔다.

그러나, 동일한 촬영 공간에서 두 주인공의 대화 장면을 말하고 있는 각 주인공을 정면으로 비추는 촬영 기법을 사용한 드라마나 영화의 경우 대화 과정에서 비디오 신호 관점에서 빈번한 장면전환이 발생할 수 있다. 즉, 종래의 비디오 신호만을 이용하여 장면 전환을 검출하고 이를 기초로 장면을 분할하는 방식의 경우, 극의 내용상 하나로 이어지는 대화 장면임에도 이러한 극의 내용을 파악하지 못하여 해당 장면이 여러 개의 짧은 시간 길이의 장면들로 불필요하게 분할되는 문제점이 존재한다.

이와 유사하게, 동일한 공간에서 여러 대의 카메라들을 이용하여 촬영한 장면의 경우 카메라 전환에 따라서 비디오 신호 관점의 장면 전환이 발생할 수 있다. 즉, 극의 내용상 동일한 공간에서 하나로 이어지는 장면이 여러 개의 짧은 시간 길이의 장면들로 분할 될 수 있다.

이와 같이 종래의 방식에 의하면 극의 흐름상 하나의 장면임에도 불필요하게 짧은 길이로 나누어진 분할 장면이 제공되어, 동영상 요약본 생성을 위한 영상 편집 시 이러한 분할 장면들의 전후 관계들을 편집자가 수작업으로 검토하여 전후 맥락을 파악할 수밖에 없었다.

또한, 종래의 비디오 요약 또는 편집 시스템은 입력된 비디오의 장면 분할 이후 각 장면별 대표 비디오 프레임을 키프레임으로 제공하는데 그칠 뿐이어서 비교적 장시간의 비디오에서 출현 객체를 중심으로 비디오 내에서 발생하는 이벤트를 빠른 시간 안에 검색하기 어렵다는 단점이 있었다.

본원의 배경이 되는 기술은 한국등록특허공보 제 10-1531783호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 영화, 드라마 등의 동영상 컨텐츠를 포함하는 비디오 시퀀스에 대하여 단순 프레임 간 신호 크기 변화 또는 컬러 특성 변화만을 고려하여 장면을 나누는 것이 아니라, 비디오 시퀀스의 내용 흐름(맥락)을 보다 세밀하게 고려하여 스토리 기반의 분할 장면을 추출하여 제공할 수 있는 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치 및 방법을 제공하는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 장시간의 비디오 내 출현하는 객체들의 정보를 사용자가 빠른 시간안에 파악할 수 있는 스토리 기반의 비디오 대표 화면과 장면 분할 정보를 생성할 수 있는 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치 및 방법을 제공하려는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법은, (a) 입력된 비디오 시퀀스의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 상기 하나 이상의 장면 전환 프레임을 경계로 상기 비디오 시퀀스를 복수의 샷으로 분할하는 단계, (b) 상기 복수의 샷 각각의 키 프레임 및 속성을 결정하는 단계, (c) 상기 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 존재하는 모든 샷들을 병합하여 병합 장면을 생성하는 단계 및 (d) 상기 병합 장면 각각의 키 프레임 및 속성을 결정하는 단계를 포함할 수 있다.

또한, 상기 (c) 단계는, 상기 병합 장면과 상기 병합 장면에 병합되지 않은 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 병합 장면부터 샷까지 존재하는 모든 병합 장면들과 샷들을 병합하여 병합 장면을 갱신하는 것일 수 있다.

또한, 상기 (c) 단계는, 금번 병합 장면의 생성이 완료되면 상기 복수의 샷 중 아직 병합되지 않은 나머지 샷을 대상으로 다음 병합 장면의 생성을 진행하는 방식으로 반복 수행되는 것일 수 있다.

또한, 상기 (c) 단계는, (c1) 상기 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하는 단계 및 (c2) 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 생성하는 단계를 포함할 수 있다.

또한, 상기 (c) 단계에서, 제1 병합 장면에 대한 생성이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 상기 제2 앵커 장면에 대하여 상기 (c1) 단계 및 상기 (c2) 단계를 수행할 수 있다.

또한, 상기 (c) 단계는, (c3) 상기 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하는 단계 및 (c4) 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신하는 단계를 포함할 수 있다.

또한, 상기 (c) 단계에서, 제1 병합 장면에 대한 생성 및 갱신이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 상기 제2 앵커 장면에 대하여 상기 (c1) 단계 내지 상기 (c4) 단계를 수행할 수 있다.

또한, 상기 (c) 단계에서 측정되는 유사도는, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 도출될 수 있다.

또한, 유사도 측정 대상이 되는 앵커 장면이 샷이 아니라 병합 장면에 해당하는 경우, 상기 (c) 단계에서 측정되는 유사도는, 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 도출될 수 있다.

또한, 상기 (b) 단계는, 상기 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출하는 것일 수 있다.

또한, 상기 (a) 단계는, 상기 비디오 시퀀스의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임 사이에서의 장면 전환 여부를, 상기 두 프레임 간의 구조적 유사도와 컬러 히스토그램 차이를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단할 수 있다.

또한, 상기 (a) 단계는, 검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성할 수 있다.

한편, 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치는, 입력된 비디오 시퀀스의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 상기 하나 이상의 장면 전환 프레임을 경계로 상기 비디오 시퀀스를 복수의 샷으로 분할하는 샷 분할부, 상기 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 병합하여 병합 장면을 생성하는 장면 병합부 및 상기 복수의 샷 각각의 키 프레임 및 속성을 결정하고, 상기 병합 장면 각각의 키 프레임 및 속성을 결정하는 장면정보 추출부를 포함할 수 있다.

또한, 상기 장면 병합부는, 상기 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정할 수 있다.

또한, 상기 장면 병합부는, 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 생성할 수 있다.

또한, 상기 장면 병합부는, 상기 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정할 수 있다.

또한, 상기 장면 병합부는, 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신할 수 있다.

또한, 상기 장면 병합부는, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 상기 유사도를 측정할 수 있다.

또한, 상기 장면 병합부는, 유사도 측정 대상이 되는 앵커 장면이 샷이 아니라 병합 장면에 해당하는 경우, 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 상기 유사도를 도출할 수 있다.

또한, 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치는, 상기 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출하는 객체 분류부를 포함할 수 있다.

또한, 상기 샷 분할부는, 상기 비디오 시퀀스의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임 사이에서의 장면 전환 여부를, 상기 두 프레임 간의 구조적 유사도와 컬러 히스토그램 차이를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단할 수 있다.

또한, 상기 샷 분할부는, 검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 영화, 드라마 등의 동영상 컨텐츠를 포함하는 비디오 시퀀스에 대하여 단순 프레임 간 신호 크기 변화 또는 컬러 특성 변화만을 고려하여 장면을 나누는 것이 아닌, 비디오 시퀀스의 내용 흐름(맥락)을 보다 세밀하게 고려하여 스토리 기반의 분할 장면을 추출하여 제공할 수 있는 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치 및 방법을 제공할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 긴 시간 길이의 동영상 컨텐츠의 스토리 기반 요약이나 재생을 가능하게 할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 특정 객체에 대한 정보를 지정함으로써 지정된 객체 중심의 스토리 기반 동영상 요약이나 재생이 가능할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 스토리 기반의 장면 추출 결과를 지능형 영상 편집 및 자동화에 활용할 수 있을 뿐만 아니라, 엔터테인먼트 비디오의 요약 서비스 등에 활용할 수 있다.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.

도 1은 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치의 개략적인 구성도이다.
도 2는 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 한 명의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이다.
도 3은 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 복수의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이다.
도 4는 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 다수의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이다.
도 5는 비디오 시퀀스 중 어느 한 프레임 내에서 얼굴객체 영역을 검출한 결과를 예시적으로 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법의 동작 흐름도이다.
도 7은 유사도에 기초하여 병합 장면을 생성하는 단계를 세분화한 동작 흐름도이다.
도 8은 장면 S _n 과 이후 장면들에 대해 장면병합 지수를 계산하고, 기 설정된 길이 제약하에서 장면 병합을 수행하는 방법을 나타낸 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

본원은 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치 및 방법에 관한 것이다. 특히, 본원은 동영상 컨텐츠의 스토리 기반 장면추출 장치 및 방법에 관한 것이다. 구체적으로, 영화나 드라마와 같은 긴 시간의 동영상 컨텐츠에 대한 시청 정보 제공과 짧은 시간의 요약본 생성에 필요한 스토리 기반 장면 추출 장치 및 방법에 관한 것이다. 또한, 본원은 비디오 신호의 시간의 흐름에 따른 변화를 이용하여 급격한 장면 전환 또는 점진적인 장면 전환 프레임을 검출하고, 장면 전환 프레임들을 기준으로 하여 생성되는 짧은 시간의 장면들을 등장 객체 또는 장면 병합 시간 제약을 고려하여 긴 시간 길이의 스토리 기반 장면으로 병합하는 장치 및 방법에 관한 것이다.

도 1은 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치의 개략적인 구성도이다.

도 1을 참조하면, 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치(10)(이하, '장면 추출 장치(10)'라 한다.)는, 샷 분할부(100), 장면 병합부(200), 장면정보 추출부(300), 객체 분류부(400), 얼굴 인식부(410) 및 장면 DB(500)를 포함할 수 있다.

또한, 도 1을 참조하면, 장면 추출 장치(10)는 비디오 시퀀스(1)를 입력으로 하여, 소정의 기준을 통해 비디오 시퀀스(1)를 시계열적으로 분할한 스토리 기반의 분할 장면(2)을 출력으로 제공하는 장치로 이해될 수 있다. 여기서, 장면 추출 장치(10)에 의해 제공되는(출력되는) 스토리 기반의 분할 장면(2)은 장면 추출 장치(10)가 프레임 간의 유사도에 기초하여 비디오 시퀀스(1)를 복수의 샷(low-level scene)으로 1차적으로 분할한 후, 비디오 시퀀스(1)의 내용 흐름(스토리)를 고려하여 복수의 샷을 병합하여 생성한 하나 이상의 최종 병합 장면을 의미하는 것일 수 있다.

샷 분할부(100)는, 입력된 비디오 시퀀스(1)의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출할 수 있다. 또한, 샷 분할부(100)는 검출된 하나 이상의 장면 전환 프레임을 경계로 비디오 시퀀스(1)를 복수의 샷으로 분할할 수 있다.

구체적으로, 샷 분할부(100)는, 비디오 시퀀스(1)의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임(달리 말해, 소정의 프레임 간격을 가지는 두 프레임) 사이에서의 장면 전환 여부를, 두 프레임 간의 구조적 유사도와 컬러 히스토그램 차이를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단할 수 있다. 여기서, 소정의 프레임 간격은 본 장면 추출 장치(10)의 구현예에 따라 다양하게 결정될 수 있다. 예를 들어, 매 프레임마다 두 프레임 사이의 장면 전환 여부를 판단하도록 구현될 수 있다(달리 말해, 프레임 간격이 1이 되도록 구현될 수 있다). 다른 예로, 한 개의 프레임을 건너뛰고 장면 전환 여부를 판단하도록 구현될 수 있다(달리 말해, 프레임 간격이 2가 되도록 구현될 수 있다). 또 다른 예로, 소정의 프레임 간격은 입력된 비디오 시퀀스(1)의 전체 길이에 기초하여 전제 재생 시간이 긴 비디오 시퀀스(1)일수록 소정의 프레임 간격이 큰 값으로 결정되도록 구현되는 것일 수 있다.

이하에서는 샷 분할부(100)가 두 프레임 사이의 구조적 유사도 및 컬러 히스토그램 차이에 기초하여 두 프레임 사이의 장면 전환 여부를 검출하는 과정을 수식을 통해 상세히 서술하도록 한다.

먼저, 두 프레임 사이의 구조적 유사도는 하기 식 1-1에 의해 계산될 수 있다. 또한, 구조적 유사도는 SSIM(structural similarity)으로 달리 지칭될 수 있다.

[식 1-1]

여기서, x와 y는 구조적 유사도(SSIM)를 계산하고자 하는 두 프레임 각각을 나타내는 변수이고, μ_x는 프레임 x의 평균값(average)이고, μ_y는 프레임 y의 평균값(average)이고, σ² _x는 프레임 x의 분산(variance)이고, σ² _y는 프레임 y의 분산(variance)이고, σ_xy는 프레임 x 및 프레임 y의 공분산(covariance)을 각각 의미할 수 있다. 이때, 구조적 유사도 값은 0 내지 1의 범위를 가질 수 있다.

또한, 상기 식 1-1에서의 c ₁ 및 c ₂ 는 하기 식 1-2에 의해 계산될 수 있다.

[식 1-2]

여기서, c ₁ 및 c ₂ 는 약분모(weak denominator)를 갖는 분수(나눗셈, division)를 안정화(stabilize)하기 위한 변수이고, L은 픽셀 값의 동적 범위(dynamic range)를 각각 나타낸다. 디폴트 값으로 k ₁ 은 0.01로, k ₂ 는 0.03으로 설정될 수 있으며, L은 보통

과 같이 계산될 수 있다.

본원의 일 실시예에 따르면, 두 프레임 사이의 구조적 유사도 및 컬러 히스토그램 차이에 기초한 두 프레임 사이의 장면 전환 여부 검출은 하기 식 2-1의 함수에 의해 수행될 수 있다.

[식 2-1]

여기서, F _n 및 F _m 은 장면 전환 여부 검출 대상이 되는 두 프레임이고, SSIM은 두 프레임 사이의 구조적 유사도 연산값이고, th ₁ 은 구조적 유사도에 대하여 미리 설정된 문턱치이고, CDiff는 두 프레임 사이의 컬러 히스토그램 차이 연산값이고, th ₂ 는 컬러 히스토그램 차이에 대하여 미리 설정된 문턱치이다.

이때, 컬러 히스토그램 차이 연간값(CDiff)은 0 내지 1의 범위를 가질 수 있다.

또한, 상기 식 2-1의 문턱치를 기준으로 한 이진 출력 함수 B는 하기 식 2-2와 같다.

[식 2-2]

구체적으로, 식 2-2의 이진 출력 함수 B는 변수(또는 입력) x가 미리 설정된 문턱치(th) 이상인 경우 1을 출력하고, x가 미리 설정된 문턱치(th) 미만 인경우 0을 출력하는 함수이다.

따라서, 식 2-1의 두 프레임 사이의 장면 전환 여부 검출 함수(SceneChange)는 1에서 두 프레임 간의 구조적 유사도 연산값을 뺀 값이 구조적 유사도에 대한 문턱치(th ₁ ) 이상인 동시에 두 프레임 간의 컬러 히스토그램 차이 연산값이 컬러 히스토그램 차이에 대한 문턱치(th ₂ ) 이상인 경우, 두 프레임 사이의 장면 전환이 이루어진 것으로 판단하는 것일 수 있다. 달리 말해, 샷 분할부(100)는, 장면 전환 여부 검출 함수(SceneChange)의 출력이 1인 경우, 두 프레임 사이에 장면 전환이 이루어진 것으로 판단하여 장면 전환 프레임을 검출할 수 있다.

종합하면, 샷 분할부(100)는, 영화, 드라마, 또는 특정 객체 중심의 동영상 입력 시퀀스에 대해 인접한 영상 프레임 사이의 유사도를 측정할 수 있다.

또한, 샷 분할부(100)는, 검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성할 수 있다. 여기서, 샷은 저수준 장면(low-level scene)으로 달리 지칭될 수 있다. 즉, 샷 분할부(100)에 의해 분할된 복수의 샷은 단순히 프레임 간의 유사도에 기초하여 장면이 전환된 것으로 판단되는 경계 지점(장면 전환 프레임)을 결정하고, 이를 기초로 입력된 비디오 시퀀스를 분할한 것으로, 비디오 시퀀스의 내용 흐름(스토리)을 고려하여 하나의 장면으로 취급될 수 있는 프레임들을 묶은 것에는 이르지 못한 저수준의 장면에 해당하는 것으로 이해될 수 있다. 상기에서 설명한 바와 같이 샷 분할부(100)에 의해 1차적으로 분할된 복수의 샷들은 후술할 장면 병합부(200)에 의해 극의 흐름(스토리)을 고려한 장면으로 병합될 수 있다.

샷 분할부(100)에 의해 입력된 비디오 시퀀스(1)가 복수의 샷으로 분할되면, 장면정보 추출부(300)는, 복수의 샷 각각의 키 프레임 및 속성을 결정할 수 있다.

여기서, 복수의 샷 각각의 키(Key) 프레임은 실시예에 따라 복수의 샷 각각의 시계열적 첫번째 프레임, 시계열적 마지막 프레임, 평균 프레임 또는 임의의 프레임 중 적어도 하나로 결정될 수 있다. 특히, 복수의 샷 각각의 키(Key) 프레임은 샷을 대표하는 프레임으로 샷 간 혹은 병합 장면과 샷 간의 유사도 판단의 기준이 되므로, 내용 흐름(스토리)에 기초하여 해당 샷을 대표하는 프레임으로 결정하는 것이 바람직하다.

또한, 복수의 샷 각각의 속성은 복수의 샷 각각의 결정된 키 프레임 정보, 길이 정보, 인덱스(index) 정보 등을 포함할 수 있다. 또한, 장면정보 추출부(300)에 의해 결정된 복수의 샷 각각의 속성은 장면 DB(500)에 저장될 수 있다. 장면 DB(500)는 샷 분할부(100)에 의해 분할된 복수의 샷 또는 장면 병합부(200)에 의해 생성된 병합 장면을 저장하는 데이터베이스로, 저장되는 복수의 샷 또는 병합 장면의 속성 정보를 복수의 샷 또는 병합 장면과 연계하여 저장할 수 있다. 또한, 후술하는 바와 같이 병합 장면이 새로이 생성되거나 갱신되는 경우, 해당 병합 장면의 속성을 함께 갱신하여 저장할 수 있다.

장면 병합부(200)는, 샷 분할부(100)에 의해 분할된 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 존재하는 모든 샷들을 병합하여 병합 장면을 생성할 수 있다.

또한, 장면 병합부(200)는, 병합 장면과 병합 장면에 병합되지 않은 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 병합 장면부터 샷까지 존재하는 모든 병합 장면들과 샷들을 병합하여 병합 장면을 갱신할 수 있다.

달리 말해, 장면 병합부(200)는 샷과 샷간의 유사도에 기초하여 병합 장면을 생성하거나, 병합 장면과 샷간 또는 병합 장면과 병합 장면간의 유사도에 기초하여 병합 장면을 갱신할 수 있다. 특히, 갱신이 완료된 병합 장면은 최종 병합 장면으로 결정될 수 있고, 결정된 최종 병합 장면은 본 장면 추출 장치(10)의 출력인 스토리 기반의 분할 장면(2)으로 제공될 수 있다.

즉, 장면 병합부(200)는 소정의 시간 거리에 존재하는 샷들과 기 병합된 병합 장면 사이의 유사도를 측정하여 유사한 샷들과 이들 사이의 유사하지 않은 장면들을 하나의 장면으로 포괄하여 병합할 수 있다.

구체적으로, 장면 병합부(200)는, 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하고, 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합함으로써 제1 병합 장면을 생성하는 것일 수 있다. 여기서, 장면 병합부(200)가 앵커 장면으로 지정된 샷과 비교 대상 샷 간의 유사도를 측정하고, 측정된 유사도에 기초하여 병합 여부를 결정하는 구체적인 메커니즘은 식 3-1을 통해 상세히 후술하도록 한다.

도 2는 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 한 명의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이고, 도 3은 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 복수의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이고, 도 4는 동일한 촬영 공간에서 여러 대의 카메라를 이용하여 다수의 인물을 대상으로 촬영하여 화면 전환이 발생한 인접 장면들의 키 프레임을 시계열적 순서대로 나타낸 도면이다.

도 2를 참조하면, 동일한 촬영 공간에서 여러 대의 카메라들을 이용하여 여러 방향으로 촬영한 장면의 경우 카메라 전환에 따라 비디오 신호 관점에서 프레임 간 빈번한 장면전환이 발생할 수 있다. 또한, 도 3 및 도 4를 참조하면, 동일한 촬영 공간에서 복수의 등장 인물 간의 대화 장면 등에서 말하고 있는 각 등장 인물을 정면으로 비추는 촬영 기법을 사용한 드라마나 영화 등의 비디오 시퀀스의 경우 대화 과정에서 비디오 신호 관점에서 프레임 간 빈번한 장면전환이 발생할 수 있다. 즉, 도 2 내지 도 4를 통해 예시한 장면들(샷들)은 비디오 시퀀스의 내용 흐름(스토리)을 고려할 때 하나의 장면으로 병합되어야 함에도, 인접 프레임 간 신호 크기 변화 또는 컬러 특성 변화만을 고려한 종래의 장면 검출기에 의하여는 해당 장면들이 여러 개의 짧은 시간 길의 장면들로 분할되어 제공되는 문제점이 있다.

종래의 장면 검출기와 달리, 본원의 장면 추출 장치(10)는, 장면 병합부(200)가 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지를 통합하여 병합함으로써 극의 흐름(스토리) 상 하나의 장면으로 병합되어야 할 장면(샷) 사이에 카메라 방향 전환 또는 복수의 인물 간에 번갈아 이루어지는 대화 상황 등에 의하여 비디오 신호 관점에서 유사하지 않은 장면이 포함되어 있는 경우에서도 하나의 병합 장면으로의 스토리 기반 장면 추출이 가능할 수 있다.

또한, 장면 병합부(200)는, 생성된 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하고, 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신할 수 있다. 여기서, 장면 병합부(200)가 앵커 장면으로 지정된 병합 장면과 비교 대상 샷 간의 유사도를 측정하고, 측정된 유사도에 기초하여 병합 여부를 결정하는 구체적인 메커니즘은 식 4을 통해 상세히 후술하도록 한다.

또한, 장면 병합부(200)는, 금번 병합 장면의 생성이 완료되면 분할된 복수의 샷 중 아직 병합되지 않은 나머지 샷을 대상으로 다음 병합 장면의 생성을 진행하는 방식으로 장면 병합을 반복 수행할 수 있다. 즉, 장면 병합부(200)는, 제1 병합 장면에 대한 생성이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 지정된 제2 앵커 장면을 기초로 하여 상술한 유사도 측정, 유사도에 기초한 병합 여부 결정 및 병합 장면 생성을 수행하는 것일 수 있다.

또한, 장면 병합부(200)는, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 유사도를 측정할 수 있다. 달리 말해, 샷 분할 또는 장면 병합을 위한 프레임들 또는 키 프레임들 사이의 유사도 측정은 프레임간 차이, 구조적 유사도(SSIM), 컬러 히스토그램 차이, 각 프레임 또는 키 프레임이 대표하는 장면에 포함되는 프레임들에서 출연한 객체들에 대한 통계정보를 비교함으로써 수행될 수 있다.

구체적으로, 장면 병합부(200)는 병합 장면 생성을 위한 앵커 장면과 비교 대상 샷 간의 유사도 측정 및 병합 여부 결정을 하기 식 3-1에 의하여 수행할 수 있다.

[식 3-1]

여기서, S _n 은 앵커 장면이고, S _m 은 비교 대상 샷이고, F _n 은 앵커 장면의 키 프레임이고, F _m 은 비교 대상 샷의 키 프레임을 각각 의미할 수 있다. 또한, 구조적 유사도(SSIM), 컬러 히스토그램 차이(CDiff) 및 이진 출력 함수 B에 대한 설명은 상기 식 1-1 내지 식 2-2에 대한 설명에서 서술한 바와 대응될 수 있으며, 식 3-1의 OC 함수는 앵커 장면과 비교 대상 샷의 출현 객체 유형과 객체별 출현 횟수를 고려한 객체 백터를 이용한 유사도 측정 함수를 나타내는 것일 수 있다.

또한, 본원의 일 실시예에 따르면, 상기 식 3-1의 Merge ₁ 함수의 출력값은 '장면 병합 지수'로 달리 지칭될 수 있다. 구체적으로, 장면 병합 지수가 1인 경우, 두 샷은 유사한 것으로 판단되어 하나의 병합 장면으로 통합되고, 장면 병합 지수가 1이 아닌 경우, 두 샷은 유사하지 않은 것으로 판단되어 병합되지 않는 것일 수 있다.

구체적으로, 앵커 장면과 비교 대상 샷의 출현 객체 유형과 객체별 출현 횟수를 고려한 객체 백터를 이용한 유사도 측정 함수(OC)는 하기 식 3-2에 의해 계산될 수 있다. 특히, 객체 벡터를 이용한 유사도 측정 함수(OC)는 앵커 장면과 비교 대상 샷에 대한 속성(예를 들면, 장면정보 추출부(300)에 의해 추출되어 장면DB(500)에 저장된 속성 정보) 중 사전 정의된 객체 부류(object class) 및 출현 빈도를 벡터 형태로 산출하여 유사도를 측정하는 함수일 수 있다.

[식 3-2]

여기서, P _n 은 앵커 장면의 출현 객체 벡터를, P _m 은 비교 대상 샷의 출현 객체 벡터를 나타내고, 장면 k의 출현 객체 벡터는 하기 식 3-3에 의해 정의될 수 있다.

[식 3-3]

여기서, M은 사전에 학습된 출현 객체의 수를 의미하고, 장면 k에서 i번째 객체의 출현 확률 p _i 는 하기 식 3-4에 의해 계산될 수 있다.

[식 3-4]

여기서, n _i 는 장면 k에서 i번째 객체의 출현 횟수를 의미한다.

예를 들어, 입력된 비디오 시퀀스(1) 내에서 객체 유형(부류)이 A, B, C로 세 개로 정의되어 있고, 100개의 프레임을 포함하는(달리 말해, 100의 길이를 갖는) 앵커 장면 S _n 에서 A가 20번, B가 70번, C가 30번 등장하였고, 비교 대상 샷 S _m 에서 A가 30번, B가 110번, C가 30번 등장한 것으로 가정하면, 유사도 측정 함수(OC)의 출력값은 하기 식 3-2a가 된다.

[식 3-2a]

여기서, 앵커 장면과 비교 대상 샷의 출현 객체 유형과 객체별 출현 횟수는 객체 분류부(400)에 의해 획득되는 것일 수 있다. 달리 말해, 객체 분류부(400)는, 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출할 수 있다.

본원의 일 실시예에 따르면, 출현 객체 유형은 입력된 비디오 시퀀스(1)에 등장하는 인물 각각을 분류한 것을 의미할 수 있다. 객체 분류부(400)는, 비디오 시퀀스(1)에 포함된 프레임 각각에 등장하는 출현 객체 유형을 식별할 수 있도록 사전에 학습된 것일 수 있다. 예를 들면, 객체 분류부(400)는 비디오 시퀀스(1)에 등장하는 출현 객체 각각에 대한 이미지 데이터를 수집하고, 수집된 이미지 데이터에 기초하여 출현 인물을 식별하기 위한 사전 학습을 수행한 것일 수 있다.

도 5는 비디오 시퀀스 중 어느 한 프레임 내에서 얼굴객체 영역을 검출한 결과를 예시적으로 나타낸 도면이다.

도 5를 참조하면, 객체 분류부(400)는 프레임 내에서 인물의 얼굴 영역을 검출하는 얼굴 인식부(410)와 연계하여 비디오 시퀀스(1)에 포함된 프레임 각각 내에서 출현 인물의 얼굴 영역을 검출하고, 사전에 학습된 이미지 데이터에 대한 비교를 통해 해당 프레임에서 등장한 출현 객체의 유형을 식별하는 것일 수 있다.

달리 말해, 객체 분류부(400)는 사전에 비디오 시퀀스에 출현하는 객체들 중에서 일부에 대한 학습이 이루어져, 프레임 별로 출현한 객체 정보를 기록할 수 있고, 장면의 분할 또는 병합 시 해당 객체의 장면 내 출현 횟수를 누적하여 갱신하도록 동작할 수 있다.

또한, 객체 분류부(400)에 의해 분석된 프레임 각각의 출현 객체 유형 및 장면 각각의 출현 객체 유형 별 등장 횟수는 장면 DB(500)에 저장되는 것일 수 있다. 본원의 일 실시예에 따르면, 장면 병합부(200)는, 출현 객체 유형과 객체별 출현 횟수를 고려한 객체 백터를 이용한 유사도(OC) 계산을 위하여 장면 DB(500)에서 기 저장된 프레임 각각의 출현 객체 유형 및 장면 각각의 출현 객체 유형 별 등장 횟수를 불러올 수 있다.

또한, 본원의 일 실시예에 따르면, 장면 병합부(200)는, 유사도 측정 대상이 되는 앵커 장면이 샷이 아니라 병합 장면에 해당하는 경우, 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 유사도를 도출하도록 구현될 수 있다.

구체적으로, 장면 병합부(200)는 유사도 측정 대상이 되는 앵커 장면이 병합 장면인 경우, 상기 식 3-2의 객체 백터를 이용한 유사도 측정 함수(OC)에 기초하여 앵커 장면과 비교 대상 샷의 유사도를 도출할 수 있다. 달리 말해, 장면 병합부(200)는 병합 장면인 앵커 장면과 비교 대상 샷을 기초로 한 병합 장면의 갱신 여부를 하기 식 4에 의하여 결정할 수 있다.

[식 4]

여기서, S _n 은 병합 장면에 해당하는 앵커 장면을, S _m 은 비교 대상 샷을 각각 의미한다. 또한, th ₃ 은 출현 객체 유형과 객체별 출현 횟수를 고려한 객체 벡터에 대하여 미리 설정된 문턱치이다.

또한, 본원의 일 실시예에 따르면, 상기 식 4의 Merge ₂ 함수의 출력값은 '장면 병합 지수'로 달리 지칭될 수 있다. 구체적으로, 장면 병합 지수가 1인 경우, 두 장면(병합 장면과 샷 또는 병합 장면과 병합 장면)은 유사한 것으로 판단되어 하나의 병합 장면으로 통합되고, 장면 병합 지수가 1이 아닌 경우, 두 장면은 유사하지 않은 것으로 판단되어 병합되지 않는 것일 수 있다.

또한, 장면정보 추출부(300)는 병합 장면이 생성 또는 갱신되는 경우, 생성 또는 갱신된 병합 장면 각각의 키 프레임 및 속성을 결정할 수 있다. 여기서, 장면정보 추출부(300)에 의해 결정된 병합 장면 각각의 키 프레임 및 속성에 관한 정보는 장면 DB(500)에 생성 또는 갱신된 병합 장면과 함께 저장되는 것일 수 있다. 달리 말해, 장면정보 추출부(300)는 장면 병합시 샷들 또는 기 병합된 병합 장면들로부터 새로운 병합 장면을 대표하는 키 프레임을 지정 또는 생성하고, 병합 장면 속성을 생성할 수 있다.

본원의 일 실시예에 따르면, 병합 장면이 생성 또는 갱신되는 경우, 생성 또는 갱신된 병합 장면의 속성에 해당하는 병합 장면의 길이(L _merge )는 하기 식 5에 의해 계산될 수 있다.

[식 5]

여기서, L _n 은 병합 장면에 포함된 n 번째 장면(샷 또는 병합 장면)의 프레임 길이이고, N은 병합 장면에 포함된 병합될 장면(샷 또는 병합 장면)의 수를 의미할 수 있다.

또한, 본원의 일 실시예에 따르면, 병합 장면이 생성 또는 갱신되는 경우, 생성 또는 갱신된 병합 장면의 속성에 해당하는 컬러 히스토그램은 병합될 각 장면(샷 또는 병합 장면)들의 길이에 비례하여 각 장면의 컬러 히스토그램을 가중치 합을 계산하여 갱신될 수 있다. 구체적으로, 병합 장면의 컬러 히스토그램(H _merge )은 하기 식 6에 의해 계산될 수 있다.

[식 6]

여기서,

는 병합될 장면들 중에서 n번째 장면의 히스토그램을 의미할 수 있다.

또한, 장면정보 추출부(300)는, 새로운 병합 장면에 포함된 샷들의 키 프레임들로부터 병합 장면의 키 프레임 큐(queue)를 생성하고, 각각의 샷의 키 프레임들을 선택적으로 큐에 푸시(push)하도록 구현될 수 있다. 또한, 장면정보 추출부(300)는, 병합 장면에 포함된 샷 각각의 속성을 선택적으로 병합하여 병합 장면의 속성으로 기록할 수 있다.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.

도 6은 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법의 동작 흐름도이다.

도 6에 도시된 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법은 앞서 설명된 장면 추출 장치(10)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 장면 추출 장치(10)에 대하여 설명된 내용은 본원의 일 실시예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법에 대한 설명에도 동일하게 적용될 수 있다

도 6을 참조하면, 단계 S610에서 샷 분할부(100)는, (a) 입력된 비디오 시퀀스(1)의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 검출된 하나 이상의 장면 전환 프레임을 경계로 비디오 시퀀스(1)를 복수의 샷으로 분할할 수 있다.

구체적으로, 단계 S610에서(달리 말해, (a) 단계에서) 샷 분할부(100)는, 비디오 시퀀스(1)의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임 사이에서의 장면 전환 여부를, 두 프레임 간의 구조적 유사도와 컬러 히스토그램 차이를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단하고, 검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성할 수 있다.

다음으로, 단계 S620에서 장면정보 추출부(300)는, (b) 복수의 샷 각각의 키 프레임 및 속성을 결정할 수 있다.

또한, 본원의 일 실시예에 따르면, 단계 S620에서(달리 말해, (b) 단계에서) 객체 분류부(400)는, 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출할 수 있다.

다음으로, 단계 S630에서 장면 병합부(200)는, (c) 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 존재하는 모든 샷들을 병합하여 병합 장면을 생성할 수 있다.

또한, 단계 S630에서 장면 병합부(200)는, 병합 장면과 상기 병합 장면에 병합되지 않은 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 병합 장면부터 샷까지 존재하는 모든 병합 장면들과 샷들을 병합하여 병합 장면을 갱신할 수 있다.

또한, 단계 S630은(달리 말해, (c) 단계는) 금번 병합 장면의 생성이 완료되면 복수의 샷 중 아직 병합되지 않은 나머지 샷을 대상으로 다음 병합 장면의 생성을 진행하는 방식으로 반복 수행되는 것일 수 있다.

다음으로, 단계 S640에서 장면정보 추출부(300)는, (d) 병합 장면 각각의 키 프레임 및 속성을 결정할 수 있다. 여기서, 장면정보 추출부(300)는, 새로운 병합 장면에 포함된 샷들의 키 프레임들로부터 병합 장면의 키 프레임 큐(queue)를 생성하고, 각각의 샷의 키 프레임들을 선택적으로 큐에 푸시(push)하도록 구현될 수 있다. 또한, 장면정보 추출부(300)는, 병합 장면에 포함된 샷 각각의 속성을 선택적으로 병합하여 병합 장면의 속성으로 기록할 수 있다.

상술한 설명에서, 단계 S610 내지 S640은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 7은 유사도에 기초하여 병합 장면을 생성하는 단계를 세분화한 동작 흐름도이다.

도 7을 참조하면, 단계 S710에서 장면 병합부(200)는, (c1) 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정할 수 있다.

또한, 단계 S710에서 측정되는 유사도는, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 도출되는 것일 수 있다.

다음으로, 단계 S720에서 장면 병합부(200)는, (c2) 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 생성할 수 있다.

또한, 장면 병합부(200)는, 제1 병합 장면에 대한 생성이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 제2 앵커 장면에 대하여 (c1) 단계 및 (c2) 단계를 수행할 수 있다. 달리 말해, 장면 병합부(200)는, 시계열적인 순서에 따라 앵커 장면 지정 및 병합 장면 생성을 반복적으로 수행할 수 있다.

다음으로, 단계 S730에서 장면 병합부(200)는, (c3) 상기 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정할 수 있다.

또한, 단계 S730에서 측정되는 유사도는, 유사도 측정 대상이 되는 앵커 장면이 샷이 아니라 병합 장면인 경우에 해당하므로, 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 도출되는 것일 수 있다.

다음으로, 단계 S740에서 장면 병합부(200)는, (c4) 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신할 수 있다.

또한, 장면 병합부(200)는, 제1 병합 장면에 대한 생성 및 갱신이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 제2 앵커 장면에 대하여 (c1) 단계 내지 (c4) 단계(달리 말해, 단계 S710 내지 단계 S740)를 수행하도록 구현될 수 있다.

상술한 설명에서, 단계 S710 내지 S740은 하나의 앵커 장면(제1 앵커 장면)을 기준으로 하여 병합 장면을 생성하고 갱신하는 과정을 나타낸 것으로, 제1 앵커 장면에 대한 병합 장면 생성 및 갱신이 종료되면 비디오 시퀀스(1)의 시계열적 순서에서 기초하여 생성 및 갱신된 병합 장면 다음에 오는 샷 또는 병합 장면을 앵커 장면으로 재지정(제2 앵커 장면)하여 단계 S710 내지 S740의 과정이 동일하게 수행될 수 있으며, 이는 비디오 시퀀스(1) 전체에 대한 최종 병합 장면 생성이 완료될 때까지 반복 수행될 수 있다.

또한, 상술한 설명에서, 단계 S710 내지 S740은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 8은 장면 S _n 과 이후 장면들에 대해 장면병합 지수를 계산하고, 기 설정된 길이 제약하에서 장면 병합을 수행하는 방법을 나타낸 동작 흐름도이다.

도 8을 참조하면, 단계 S801에서 장면 병합부(200)는, 장면 S _n 의 정보를 불러올 수 있다. 여기서, 장면 S _n 은 병합 장면 생성 또는 갱신을 위한 앵커 장면을 지칭하는 것일 수 있다. 또한, 장면 병합부(200)는, 장면 S _n 의 정보를 장면 DB(500)로부터 불러오는 것일 수 있다. 여기서, 장면 S _n 의 정보는, 키 프레임, 장면 길이, 장면의 출현 객체 유형, 객체별 출현 횟수 등을 포함할 수 있다.

다음으로, 단계 S802에서 앵커 장면 S _n 에 대하여 시계열적으로 다음 위치에 해당하는 샷을 첫번째 비교 대상 샷으로 결정할 수 있다(m=n+1).

다음으로, 단계 S803에서 장면 병합부(200)는, 비교 대상 샷(Sm)의 정보를 불러올 수 있다. 특히, 장면 병합부(200)는, 비교 대상 샷 S _m 의 정보를 장면 DB(500)로부터 불러오는 것일 수 있다. 여기서, 장면 S _m 의 정보는, 키 프레임, 장면 길이, 장면의 출현 객체 유형, 객체별 출현 횟수 등을 포함할 수 있다.

다음으로, 단계 S804에서 장면 병합부(200)는, 앵커 장면(Sn)의 키 프레임과 비교 대상 샷(Sm)의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 유사도를 도출할 수 있다. 나아가, 장면 병합부(200)는 도출된 유사도에 기초하여 앵커 장면(Sn)과 비교 대상 샷(Sm)의 병합 여부를 결정하기 위한 상기 식 3-1의 함수 출력값을 연산할 수 있다. 여기서, 상기 식 3-1의 함수 출력값은 장면 병합 지수(k)로 달리 지칭될 수 있다.

다음으로, 단계 S805에서 장면 병합부(200)는, 장면 병합 지수(k)가 1인 경우(달리 말해, 앵커 장면과 비교 대상 샷이 유사한 것으로 판단되는 경우), 앵커 장면(S _n )과 비교 대상 샷(S _m )의 병합을 위하여 단계 S806로 진행하고, 반대로 장면 병합 지수(k)가 1이 아닌 경우, 해당 비교 대상 샷(S _m )은 앵커 장면(S _n )과 유사하지 않은 것을 판단하여 판단을 마친 비교 대상 샷에 대하여 시계열적으로 다음 위치에 존재하는 샷과의 병합 여부를 판단하도록 단계 S809로 진행할 수 있다.

다음으로, 단계 S806에서 장면 병합부(200)는, 앵커 장면부터 단계 S805에서 유사한 것으로 판단된 비교 대상 샷까지를 병합한 병합 장면의 길이가 미리 설정된 병합 장면 최대 길이(L _max )를 초과하는지 여부를 판단할 수 있다. 단계 S806의 판단 결과, 병합 장면의 길이가 미리 설정된 병합 장면 최대 길이(L _max )를 초과하는 경우, 장면 병합부(200)는, 해당 비교 대상 샷까지의 병합은 수행하지 않고, 단계 S811로 진행하여 앵커 장면을 기초로 한 병합 장면 생성 프로세스를 종료할 수 있다. 반대로, 단계 S806의 판단 결과, 병합 장면의 길이가 미리 설정된 병합 장면 최대 길이(L _max )를 초과하지 않는 경우, 장면 병합부(200)는, 단계 S807로 진행할 수 있다.

다음으로, 단계 S807에서 장면 병합부(200)는, 앵커 장면(S _n )부터 비교 대상 샷(S _m )까지 병합하여 병합 장면을 생성할 수 있다.

다음으로, 단계 S808에서 장면정보 추출부(300)는, 병합 장면에 대한 장면 정보를 갱신하여 장면 DB(500)에 저장하고, 장면이 병합됨에 따라 비디오 시퀀스(1)에 포함된 샷 또는 병합 장면의 인덱스를 갱신할 수 있다.

다음으로, 단계 S809에서 장면 병합부(200)는, 해당 비교 대상 샷(S _m )이 비디오 시퀀스(1) 상의 시계열적으로 마지막 샷인지 여부를 판단할 수 있다. 해당 비교 대상 샷(S _m )이 마지막 샷인 경우, 해당 앵커 장면(S _n )에 대한 병합 장면 생성 프로세스를 종료할 수 있다(단계 S811). 반대로, 해당 비교 대상 샷(S _m )이 마지막 샷이 아닌 경우, 단계 S810으로 진행하여 비교 대상 샷을 시계열적으로 다음 위치에 존재하는 샷으로 갱신할 수 있다(m=m+1).

상술한 설명에서, 단계 S801 내지 S811은 하나의 앵커 장면(Sn)을 기준으로 하여 병합 장면을 생성하고 갱신하는 과정을 나타낸 것으로, Sn에 대한 병합 장면 생성 및 갱신이 종료되면 비디오 시퀀스(1)의 시계열적 순서에서 기초하여 생성 및 갱신된 병합 장면 다음에 오는 샷 또는 병합 장면을 앵커 장면으로 재지정하여 단계 S801 내지 S811의 과정이 동일하게 수행될 수 있으며, 이는 비디오 시퀀스(1) 전체에 대한 최종 병합 장면 생성이 완료될 때까지 반복 수행될 수 있다.

또한, 상술한 설명에서, 단계 S801 내지 S811은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본원의 일 실시 예에 따른 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 전술한 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

1: 비디오 시퀀스
2: 스토리 기반 분할 장면
10: 비디오 시퀀스 입력에 대한 스토리 기반의 장면 추출 장치
100: 샷 분할부
200: 장면 병합부
300: 장면정보 추출부
400: 객체 분류부
410: 얼굴 인식부
500: 장면 DB

Claims

동영상 컨텐츠의 스토리 기반의 장면 추출 방법에 있어서,
(a) 입력된 비디오 시퀀스의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 상기 하나 이상의 장면 전환 프레임을 경계로 상기 비디오 시퀀스를 복수의 샷으로 분할하는 단계;
(b) 상기 복수의 샷 각각의 키 프레임 및 속성을 결정하는 단계;
(c) 상기 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 존재하는 모든 샷들을 병합하여 병합 장면을 생성하는 단계; 및
(d) 상기 병합 장면 각각의 키 프레임 및 속성을 결정하는 단계를 포함하고,
상기 (a) 단계에서, 상기 인접 프레임 간 유사도는, 상기 인접 프레임 간의 구조적 유사도와 컬러 히스토그램 차이에 기반하여 산출되고,
상기 (c) 단계는,
(c1) 상기 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하는 단계;
(c2) 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 생성하는 단계;
(c3) 상기 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하는 단계; 및
(c4) 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신하는 단계,
를 포함하되,
상기 (c1) 단계에서 상기 제1 앵커 장면과 비교 대상 샷 각각에 대한 유사도는, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 도출되고,
상기 (c3) 단계에서 상기 재지정된 제1 앵커 장면과 비교 대상 샷 각각에 대한 유사도는, 상기 비디오 시퀀스의 출현 객체 중심의 장면 추출이 이루어지도록 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 도출되는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
제1항에 있어서,
상기 (c) 단계는, 상기 병합 장면과 상기 병합 장면에 병합되지 않은 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 병합 장면부터 샷까지 존재하는 모든 병합 장면들과 샷들을 병합하여 병합 장면을 갱신하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
제1항에 있어서,
상기 (c) 단계는, 금번 병합 장면의 생성이 완료되면 상기 복수의 샷 중 아직 병합되지 않은 나머지 샷을 대상으로 다음 병합 장면의 생성을 진행하는 방식으로 반복 수행되는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
삭제
삭제
제3항에 있어서,
상기 (c) 단계에서, 제1 병합 장면에 대한 생성 및 갱신이 완료되면, 제1 병합 장면 이후의 샷 중 시계열적으로 첫번째인 샷을 제2 앵커 장면으로 지정하고, 상기 제2 앵커 장면에 대하여 상기 (c1) 단계 내지 상기 (c4) 단계를 수행하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
삭제
삭제
제1항에 있어서,
상기 (b) 단계는, 상기 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
제1항에 있어서,
상기 (a) 단계는,
상기 비디오 시퀀스의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임 사이에서의 장면 전환 여부를, 상기 산출된 인접 프레임 간 유사도를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단하고,
검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 방법.
동영상 컨텐츠의 스토리 기반의 장면 추출 장치에 있어서,
입력된 비디오 시퀀스의 인접 프레임 간 유사도에 기초하여 하나 이상의 장면 전환 프레임을 검출하고, 상기 하나 이상의 장면 전환 프레임을 경계로 상기 비디오 시퀀스를 복수의 샷으로 분할하는 샷 분할부;
상기 복수의 샷 중 2개의 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 2개의 샷 중 어느 하나부터 다른 하나까지 병합하여 병합 장면을 생성하는 장면 병합부; 및
상기 복수의 샷 각각의 키 프레임 및 속성을 결정하고, 상기 병합 장면 각각의 키 프레임 및 속성을 결정하는 장면정보 추출부,
를 포함하고,
상기 샷 분할부는, 상기 인접 프레임 간의 구조적 유사도와 컬러 히스토그램 차이에 기반하여 상기 인접 프레임 간 유사도를 산출하고,
상기 장면 병합부는,
상기 복수의 샷 중 시계열적으로 첫번째인 샷을 제1 앵커 장면으로 지정하고, 지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하고, 지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 생성하고,
상기 제1 병합 장면을 다시 제1 앵커 장면으로 재지정하고, 재지정된 제1 앵커 장면 이후의 샷 중 미리 설정된 시간 범위 안에 존재하는 비교 대상 샷 각각에 대하여 유사도를 측정하고, 재지정된 제1 앵커 장면부터, 측정된 유사도가 미리 설정된 문턱치 이상인 하나 이상의 비교 대상 샷 중 시간 거리가 가장 먼 비교 대상 샷까지 병합하여 제1 병합 장면을 갱신하되,
상기 장면 병합부는,
상기 제1 앵커 장면이 상기 첫번째인 샷이면, 앵커 장면의 키 프레임과 비교 대상 샷의 키 프레임을 이용하여 측정한 구조적 유사도와 컬러 히스토그램 차이, 그리고 앵커 장면과 비교 대상 샷 각각의 출현 객체 유형과 객체별 출현 횟수를 고려하여 상기 제1 앵커 장면과 비교 대상 샷 각각에 대한 유사도를 도출하고,
상기 제1 앵커 장면이 상기 재지정된 제1 앵커 장면이면, 상기 비디오 시퀀스의 출현 객체 중심의 장면 추출이 이루어지도록 구조적 유사도와 컬러 히스토그램 차이는 고려하지 않고, 출현 객체 유형과 객체별 출현 횟수만을 고려하여 상기 재지정된 제1 앵커 장면과 비교 대상 샷 각각에 대한 유사도를 도출하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 장치.
제11항에 있어서,
상기 장면 병합부는,
상기 병합 장면과 상기 병합 장면에 병합되지 않은 샷 사이의 유사도를 측정하여 서로 유사하다고 판단되면, 서로 유사하다고 판단되는 병합 장면부터 샷까지 병합하여 병합 장면을 갱신하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 장치.
삭제
삭제
삭제
제11항에 있어서,
상기 복수의 샷 각각에 대하여 샷 내 프레임으로부터 검출된 출현 객체 유형 및 객체별 출현 횟수를 도출하는 객체 분류부를 더 포함하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 장치.
제11항에 있어서,
상기 샷 분할부는,
상기 비디오 시퀀스의 처음 프레임부터 마지막 프레임까지 순차적으로 소정의 프레임 간격의 두 프레임 사이에서의 장면 전환 여부를, 상기 산출된 인접 프레임 간 유사도를 미리 설정된 문턱치와 비교하여 장면 전환 프레임을 검출함으로써 판단하고,
검출된 장면 전환 프레임부터 다음에 검출되는 다음 장면 전환 프레임 직전 프레임까지를 하나의 샷으로 형성하는 것인, 동영상 컨텐츠의 스토리 기반의 장면 추출 장치.