KR100771244B1

KR100771244B1 - 동영상 데이터 처리 방법 및 장치

Info

Publication number: KR100771244B1
Application number: KR1020060052724A
Authority: KR
Inventors: 황두선; 김정배; 황원준; 김지연; 문영수; 김상균
Original assignee: 삼성전자주식회사
Priority date: 2006-06-12
Filing date: 2006-06-12
Publication date: 2007-10-29
Also published as: US20070296863A1

Abstract

본 발명은 동영상 데이터를 구성하는 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성하는 클러스터링부, 및 상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하고, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 최종 클러스터 결정부를 포함하는 동영상 데이터 처리 장치를 제공한다.

동영상 데이터 분할, 클러스터, 얼굴 샷, 샷 병합, 얼굴 정보

Description

동영상 데이터 처리 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING VIDEO DATA}

도 1은 본 발명의 일측에 따른 동영상 데이터 처리 장치의 블록도이다.

도 2는 본 발명의 일측에 따른 동영상 데이터 처리 방법의 순서를 도시한 흐름도이다.

도 3은 동영상 데이터에서의 프레임 및 샷을 설명하기 위한 도면이다.

도 4a 및 도 4b는 본 발명의 일측에 따른 얼굴 검출 방법을 설명하기 위한 도면이다.

도 5a, 도 5b, 및 도 5c는 본 발명에 적용된 심플 특징의 예를 나타낸 도면이고, 도 5d 및 도 5e는 심플 특징이 얼굴 영상에 적용된 예를 보여주는 도면이다.

도 6은 본발명의 일측에 따른 얼굴 검출 방법의 순서를 도시한 흐름도이다.

도 7은 본 발명의 일측에 따른 얼굴 특징 정보 추출 방법의 순서를 도시한 흐름도이다.

도 8은 푸리에 영역에 분포하는 복수의 클래스를 예시한 도면이다.

도 9(a)는 저주파 대역, 도 9(b)는 중간 주파수 이하 대역, 및 도 9(c)는 고주파수 대역을 포함하는 전체 주파수 대역을 나타낸다.

도 10a 및 도 10b는 본 발명의 일측에 따라 서로 다른 눈 거리를 갖는 서브 영상들로부터 얼굴 특징 정보를 추출하는 방법을 설명하기 위한 도면이다.

도 11은 본 발명의 일측에 따른 클러스터링 방법의 순서를 도시한 흐름도이다.

도 12a, 도 12b, 도 12c, 및 도 12는 본 발명의 일측에 따른 클러스터링을 설명하기 위한 도면이다.

도 13a 및 도 13b는 본 발명의 일측에 따른 샷 병합을 설명하기 위한 도면이다.

도 14a, 도 14b, 및 도 14c는 본 발명의 일측에 따라 검색 윈도우를 이용하여 샷 병합하는 일례를 도시한 도면이다.

도 15는 본 발명의 일측에 따라 최종 클러스터 생성 방법의 순서를 도시한 흐름도이다.

도 16은 본 발명의 일측에 따라 샷들의 시간 정보를 이용하여 클러스터를 병합하는 과정을 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

101: 장면 전환 검출부 102: 얼굴 검출부

103: 얼굴 특징 추출부 104: 클러스터링부

105: 샷 병합부 106: 최종 클러스터 결정부

107: 얼굴 모델 생성부

본 발명은 동영상 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 상기 동영상 내의 얼굴 특징 정보를 분석한 후 반복 등장하는 동일 얼굴 클립을 이용하여 상기 동영상을 분할하는 방법 및 장치에 관한 것이다.

데이터 압축 기술 및 데이터 전송 기술이 발전함에 따라, 더욱 더 많은 수의 멀티미디어 데이터가 생성되고, 또한 인터넷 상에서 전송되고 있다. 이렇게 인터넷 상에서 접근할 수 있는 많은 수의 멀티미디어 데이터들 중에서 사용자들이 원하는 멀티미디어 데이터를 검색하는 것은 매우 어렵다. 또한, 많은 사용자들은 멀티미디어 데이터를 요약한 요약 데이터를 통하여 적은 시간에 중요한 정보만이 자신들에게 제시되기를 원한다. 이러한 사용자들의 요구에 응답하여, 멀티미디어 데이터의 분할 또는 요약을 생성하는 다양한 방법들이 제시되었다.

이러한 멀티미디어 데이터 중 뉴스 동영상 데이터는 하나의 뉴스 동영상 데이터 내에 복수 개의 뉴스에 대한 정보가 포함된다. 따라서, 이러한 뉴스 동영상 데이터를 뉴스 별로 분할하여 사용자에게 제공한다면 매우 유용하게 된다. 종래기술에서도 이러한 뉴스 동영상 데이터를 분할 및 요약하는 방법이 제시되었다.

예를 들어, 종래 기술의 동영상 데이터 분할 및 요약 방법 중 하나는 진행자 샷의 비디오/오디오 특징 모델을 기반으로 하여 동영상 데이터를 분할한다. 또 다른 종래기술로는 진행자에 대한 얼굴/음성 데이터를 데이터베이스에 저장한 후, 입력된 동영상 데이터에서 진행자로 판단되는 샷을 검출하여 상기 동영상 데이터를 분할한다.

그러나, 이러한 종래 기술의 동영상 데이터 분할 및 요약 방법 중 진행자 샷의 비디오/오디오 특징 모델을 기반으로 판단하는 방법은 동영상 데이터에 포함된 비디오/오디오 특징이 특정 형태가 아닌 경우 사용될 수 없는 단점이 있다. 또한, 진행자에 대한 얼굴/음성 데이터를 이용하는 방법은 데이터베이스에 저장되어 있는 진행자 및 게스트가 반복 등장하는 장면 등에 대한 분할은 용이하나 저장되어 있지 않은 진행자 및 게스트가 반복 등장하는 장면 등에 대해서는 분할을 할 수 없다는 단점이 있다.

또한, 동영상 데이터에서 하나의 주제 내에 진행자 및 게스트가 번갈아 등장하는 장면에서는 분할을 하지 않아야 하는데, 종래 기술은 이 경우에도 분할을 수행하는 단점이 있다. 예를 들어, 하나의 뉴스를 전달하면서, 진행자와 게스트가 대화를 주고 받는 경우, 이는 하나의 뉴스를 전달하기 위한 것이므로, 하나의 단위로 판단되어야 한다. 그런데, 종래기술에서는 진행자가 등장하는 부분과 게스트가 등장하는 부분을 서로 다른 단위로 판단하여 분할하는 문제점이 있었다.

따라서, 특정 비디오/오디오 특징을 포함하지 않는 동영상 데이터의 경우에도 적용가능하고, 특정 진행자에 대한 얼굴/음성 데이터를 데이터베이스에 미리 저장하지 않으면서도 동영상을 의미 단위로 분할 및/또는 요약할 수 있는 방법이 요구되고 있다. 또한, 하나의 주제 내에 진행자 및 게스트가 반복 등장하는 장면은 분할하지 않는 동영상 데이터의 요약 방법의 개발이 요구된다.

본 발명은 특정 비디오/오디오 특징을 포함하지 않는 동영상 데이터의 경우 에도 의미 단위로 상기 동영상 데이터를 분할할 수 있는 동영상 데이터 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 특정 진행자에 대한 얼굴/음성 데이터를 데이터베이스에 미리 저장하고 있지 않으면서도 동영상 데이터를 의미 단위로 분할 및/또는 요약할 수 있는 동영상 데이터 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 하나의 주제 내에 진행자 및 게스트가 반복 등장하는 장면은 분할하지 않는 동영상 데이터 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 동영상 데이터에서 진행자는 다른 등장인물들보다 시간적으로 등간격을 가지며 반복 등장한다는 사실을 이용하여 동영상 데이터를 진행자(주제)별로 분할할 수 있는 동영상 데이터 분할 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 단독으로 등장하는 인물이 포함된 얼굴 샷을 클러스터에서 제거함으로써, 진행자를 판별하여 동영상을 분할할 수 있는 동영상 데이터 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 동영상 데이터를 분할하면서, 분할 과정에서 생성된 얼굴 모델을 이용하여 빠르고 정확한 동영상 데이터 분할이 가능하도록 하는 동영상 데이터 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 동영상 데이터 처리 장치는 동영상 데이터를 구성하는 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성하는 클러스터링부, 및 상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하고, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 최종 클러스터 결정부를 포함한다.

또한 본 발명의 다른 실시예에 따른 동영상 데이터 분할 방법은 동영상 데이터를 구성하는 복수 개의 샷들 사이의 제1 유사도를 계산하는 단계, 상기 제1 유사도가 소정의 문턱치 이상인 샷들을 그룹핑하여 복수 개의 클러스터를 생성하는 단계, 상기 복수 개의 샷들 사이의 제2 유사도에 기초하여 상기 복수 개의 샷들을 병합하는 단계, 상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하는 단계, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 단계, 및 상기 최종 클러스터에 포함된 샷들을 추출하는 단계를 포함한다.

또한 본 발명의 다른 실시예에 따른 동영상 데이터 분할 방법은 동영상 데이터를 구성하는 복수 개의 샷들 사이의 유사도를 계산하는 단계, 상기 유사도가 소정의 문턱치 이상인 샷들을 그룹핑하여 복수 개의 클러스터를 생성하는 단계, 상기 생성된 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합하는 단계, 및 포함된 샷의 수가 소정의 개수 이하인 클러스터를 제거하는 단계를 포함한다.

또한 본 발명의 다른 실시예에 따른 동영상 데이터 분할 방법은 동영상 데 이터를 복수 개의 샷들로 분할하는 단계, 상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계, 상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하는 단계, 및 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합하는 단계를 포함한다.

또한 본 발명의 다른 실시예에 따른 동영상 데이터 분할 방법은 동영상 데이터를 복수 개의 샷들로 분할하는 단계, 상기 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성하는 단계, 상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하는 단계, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 단계, 및 상기 최종 클러스터에 포함된 샷들을 추출하는 단계를 포함한다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일측에 따른 동영상 데이터 처리 장치의 블록도이다. 도 1을 참조하면, 본 발명의 일측에 따른 동영상 데이터 처리 장치(100)는 장면 전환 검출부(101), 얼굴 검출부(102), 얼굴 특징 추출부(103), 클러스터링부(104), 샷 병합부(105), 최종 클러스터 결정부(106), 및 얼굴 모델 생성부(107)로 구성된다.

장면 전환 검출부(101)는 동영상 데이터를 복수 개의 샷들로 분할하고, 상기 복수 개의 샷들 각각에 대한 키 프레임을 선정한다. 장면 전환 검출부(101)는 동영상 데이터의 장면 전환점을 검출하여 상기 장면 전환점을 기준으로 상기 동영상 데이터을 복수 개의 샷으로 분할한다. 장면 전환 검출부(101)는 다양한 방법으로 장면 전환점을 검출할 수 있는데, 예를 들어, 미국 특허 제5,767,922호, 제6,137,544호 및 제6,393,054호 등에 개시된 방법을 이용할 수 있다. 본 발명의 일실시예에 따르면, 장면 전환 검출부(101)는 연속되는 두 프레임 영상, 즉 현재 프레임 영상과 이전 프레임 영상 간의 칼라 히스토그램에 대한 유사도를 산출하고, 산출된 유사도가 일정한 문턱치(threshold)보다 작을 경우 현재 프레임을 장면 전환이 발생한 프레임으로 검출한다.

키 프레임(key frame)은 각 샷으로부터 선택되는 하나 또는 복수 개의 프레임으로, 상기 샷을 대표할 수 있는 프레임이다. 본 발명은 진행자(앵커)의 얼굴 이미지 특성을 판단하여 동영상 데이터를 분할하므로, 진행자의 얼굴 특성을 가장 잘 반영할 수 있는 프레임을 키 프레임으로 선택한다. 본 발명의 일실시예에 따르면, 장면 전환 검출부(101)는 키 프레임을 선택하기 위하여, 각 샷을 구성하는 프레임들 중 장면 전환점에서 소정 구간 이격된 프레임을 키 프레임으로 선택한다. 즉, 장면 전환 검출부(101)는 복수 개의 샷들 각각의 시작 프레임으로부터 소정 시각이 지난 프레임을 상기 샷의 키 프레임으로 선정한다. 샷의 첫번째 프레임은 진행자의 얼굴이 아래 방향을 향하는 경우가 많고, 선명한 영상을 얻기 힘든 경우가 많기 때문이다. 예를 들어, 키 프레임은 각 장면 전환점에서 0.5초 지난 시점에서 의 프레임일 수 있다.

얼굴 검출부(102)는 상기 키 프레임에서 얼굴을 검출한다. 얼굴 검출부(102)의 동작에 대하여는 도 4 내지 도 6을 참조하여 뒤에서 상세하게 설명한다.

얼굴 특징 추출부(103)는 상기 검출된 얼굴로부터 얼굴 특징 정보를 추출한다. 얼굴 특징 추출부(103)는 상기 검출된 얼굴의 영상에 대한 다중 서브 영상을 생성하고, 상기 다중 서브 영상들을 푸리에 변환하여 상기 다중 서브 영상들 각각에 대한 푸리에 특징들을 추출하고, 상기 푸리에 특징들을 결합하여 상기 얼굴 특징 정보를 생성한다. 얼굴 특징 추출부(103)의 동작에 대하여는 도 7 내지 도 10을 참조하여 뒤에서 상세하게 설명한다.

클러스터링부(104)는 동영상 데이터를 구성하는 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성한다. 클러스터링부(104)는 상기 생성된 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합하고, 포함된 샷의 수가 소정의 개수 이하인 클러스터를 제거한다. 클러스터링부(104)의 동작에 대하여는 도 11 내지 도 12를 참조하여 뒤에서 상세하게 설명한다.

샷 병합부(105)는 동영상 데이터에 검색 윈도우를 적용하여 소정의 시간에 소정 개수 이상 반복적으로 포함된 복수 개의 샷들을 하나의 샷으로 병합한다. 샷 병합부(105)는 상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하고, 상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하고, 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합한다. 이때 검색 윈도우의 크기는 N이다. 만약 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 미만이면, 샷 병합부(105)는 상기 제1 샷의 키 프레임과 상기 제1 샷 후 N-1번째 샷의 키 프레임을 비교한다. 즉, 본 발명은 검색 윈도우의 크기를 N으로 하여 처음과 마지막 샷을 비교한 후, 유사하지 않은 것으로 판단된 경우에 그 다음 샷을 비교한다. 이와 같이 함으로써, 본 발명은 하나의 주제 내에 진행자 및 게스트가 반복 등장하는 장면의 샷들을 효율적으로 병합할 수 있다. 샷 병합부(105)의 동작에 대하여는 도 13 내지 도 14를 참조하여 뒤에서 상세하게 설명한다.

최종 클러스터 결정부(106)는 상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하고, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정한다. 최종 클러스터 결정부(106)는 클러스터에 포함된 샷들의 시간 정보를 이용하여 상기 클러스터들을 병합하여 최종 클러스터를 결정한다.

최종 클러스터 결정부(106)는 클러스터들 중 키 프레임 수가 가장 많은 제1 클러스터에 포함된 키 프레임들 간 시간차의 제1 분산 값을 연산하고, 상기 클러스터들 중 상기 제1 클러스터를 제외한 나머지 클러스터에 포함된 샷들을 상기 제1 클러스터에 순차적으로 병합하여 병합된 클러스터의 분산 값 중 가장 작은 값을 제 2 분산 값으로 선정한다. 또한, 최종 클러스터 결정부(106)는 상기 제2 분산 값이 상기 제1 분산 값보다 작으면 상기 제2 분산 값으로 선정된 클러스터를 제1 클러스터에 병합을 수행하고, 이러한 방법으로 모든 클러스터에 대한 병합을 수행한 후 최종 클러스터를 결정한다. 그러나, 상기 제2 분산 값이 상기 제1 분산 값보다 크면 상기 제2 클러스터 병합을 수행하지 않고 최종 클러스터를 결정한다.

최종 클러스터 결정부(106)는 상기 최종 클러스터에 포함된 샷들을 앵커가 등장하는 샷으로 결정한다. 본 발명의 일실시예에 따르면, 이렇게 앵커가 등장하는 샷으로 결정된 샷들을 단위로 동영상 데이터를 분할한다. 최종 클러스터 결정부(106)의 동작에 대하여는 도 15 내지 도 16을 참조하여 뒤에서 상세하게 설명한다.

얼굴 모델 생성부(107)는 최종 클러스터로 결정된 복수 개의 클러스터들에 포함된 샷들 중 가장 많이 포함된 샷을 얼굴 모델 샷으로 결정한다. 상기 얼굴 모델 샷의 키 프레임에 등장하는 인물은 뉴스 동영상 데이터의 앵커로 판단할 수 있다. 따라서, 본 발명의 일실시예에 따르면, 상기 앵커로 판단된 인물의 이미지를 이용하여 뉴스 동영상 데이터를 분할할 수 있다.

본 발명에서 동영상 데이터는 비디오 데이터 및 오디오 데이터를 모두 포함한 데이터, 오디오 데이터 없이 비디오 데이터를 포함한 데이터를 포함한다.

본 발명의 동영상 데이터 처리 장치(100)는 동영상 데이터가 입력되면, 상기 동영상 데이터를 비디오 데이터 및 오디오 데이터로 분리하고, 동영상 데이터를 장면 전환 검출부(101)로 전달한다(단계 S101).

단계(S102)에서 장면 전환 검출부(101)는 상기 동영상 데이터의 장면 전환 점을 검출하여, 상기 장면 전환점을 기준으로 상기 동영상 데이터를 복수 개의 샷으로 분할한다.

장면전환 검출부(101)는 이전 프레임 영상을 저장하고 있으며, 연속되는 두 프레임 영상, 즉 현재 프레임 영상과 이전 프레임 영상 간의 칼라 히스토그램에 대한 유사도를 산출하고, 산출된 유사도가 일정한 문턱치(threshold)보다 작을 경우 현재 프레임을 장면 전환이 발생한 프레임으로 검출한다. 여기서, 유사도(Sim(H_t, H_t+1))는 다음 수학식 1에서와 같이 산출될 수 있다.

여기서, H_t 는 이전 프레임 영상의 칼라 히스토그램, H_t+1 은 현재 프레임 영상의 칼라 히스토그램을 나타내고, N은 히스토그램 레벨을 나타낸다.

본 발명에서 샷(shot)은 방해(interruption) 없이 하나의 카메라로부터 얻어진 비디오 프레임들의 시퀀스를 의미하며, 이는 비디오를 분석하거나 구성하는 단위이다. 또한, 동영상 데이터에는 장면(scene)이 존재하는데, 여기서 장면은 이야기 전개 또는 비디오 구성에 있어서 의미적인 구성요소이며, 통상 하나의 장면 내에는 복수의 샷이 존재한다. 이러한 샷과 장면의 개념은 동영상 데이터와 뿐만 아니라 오디오 데이터에도 동일하게 적용할 수 있다.

도 3을 참조하여 동영상 데이터에서의 프레임 및 샷을 설명한다. 도 3에서 프레임 L부터 프레임 L+6까지가 샷 N을 구성하고, 프레임 L+7부터 프레임 L+K-1까지가 샷 N+1을 구성한다. 프레임 L+6와 프레임 L+7에서 장면 전환이 발생한다. 또한 샷 N과 샷 N+1이 장면 M을 구성한다. 즉, 장면은 연속된 하나 이상의 샷의 집합이고, 샷은 연속된 하나 이상의 프레임의 집합이다.

장면 전환점이 검출되면, 장면 전환 검출부(101)는 장면 전환점에서 소정 구간 이격된 프레임을 키 프레임으로 선정한다(단계 S102). 다시 말하면, 장면 전환 검출부(101)는 상기 복수 개의 샷들 각각의 시작 프레임으로부터 소정 시각이 지난 프레임을 키 프레임으로 선정한다. 예를 들어, 장면 전환점이 검출된 후 0.5초 지난 프레임을 키 프레임으로 선정한다.

단계(S103)에서 얼굴 검출부(102)는 키 프레임에서 얼굴을 검출한다. 이 때, 얼굴 검출에는 다양한 방법이 사용될 수 있다. 예를 들어, 얼굴 검출부(102)는 키 프레임을 복수개의 영역으로 분할하고, 분할된 영역들에 대해서 해당 영역이 얼굴을 포함하는지 결정할 수 있다. 얼굴 영역의 판단은 상기 키 프레임의 영상에서 얼굴의 형태(appearance (형태) = texture(질감) + shape (모양)) 정보를 이용하여 수행될 수 있다. 본 발명의 또 다른 실시예에 따르면, 프레임의 영상에 대해 윤곽선을 추출하고, 이러한 윤곽선에 의하여 생성된 복수 개의 폐곡선 내부의 픽셀들의 색체 정보에 따라 얼굴 인지를 결정할 수 있다.

키 프레임에서 얼굴이 검출되면, 단계(S105)에서, 얼굴 특징 추출부(103)는 검출된 얼굴의 얼굴 특징 정보를 추출하여 소정의 저장 수단에 기록한다. 이 때, 얼굴 특징 추출부(103)는 상기 얼굴이 검출된 키 프레임을 얼굴 샷으로 지정한다. 얼굴 특징 정보는 얼굴을 구별할 수 있는 특징에 관한 정보로서, 얼굴 특징 정보를 추출하는 방법은 다양하게 사용될 수 있다. 예를 들어, 얼굴의 다각도에서 얼굴 특징 정보를 추출하거나, 얼굴의 피부색 및 패턴을 추출하거나, 얼굴에서 특징이 되는 요소들(예를 들어, 얼굴을 구성하는 왼쪽 눈 및 오른쪽 눈, 양눈 사이의 간격 등)의 분포를 분석하거나, 얼굴을 구성하는 픽셀의 주파수 분포를 이용하는 등의 방법을 사용할 수 있다. 이 밖에 얼굴 특징 정보를 추출하는 방법 및 얼굴 특징 정보를 이용하여 얼굴의 유사성을 판단하는 방법으로는, 한국특허출원 제2003-770410호, 제2004-61417호에 개시된 방법을 이용할 수 있다.

단계(S106)에서 클러스터링부(104)는 상기 추출된 얼굴 특징 정보를 이용하여 상기 얼굴 샷에 포함된 얼굴 간의 유사도를 계산하고, 상기 유사도가 소정의 문턱치 이상인 얼굴 샷들을 그룹핑하여 복수 개의 클러스터를 생성한다. 이 때, 각 얼굴 샷들은 중복해서 여러 클러스터에 포함될 수 있다. 예를 들어, 얼굴 샷 1은 클러스터 1 및 클러스터 5에 포함될 수 있다.

다음으로, 서로 다른 진행자가 코멘트하는 얼굴 샷들을 병합하기 위하여 본 발명의 샷 병합부(105)는 단계(S107)에서 클러스터에 포함된 얼굴 샷들의 유사도를 이용하여 상기 클러스터들을 병합한다.

다음, 최종 클러스터 결정부(106)는 앵커가 어느 정도 시간 간격을 가지고 등장한다는 통계를 이용하여, 클러스터들에 포함된 얼굴 샷들 중 앵커가 등장하는 샷으로 판단되는 샷들만을 포함한 최종 클러스터를 생성한다(단계 S108).

이 때, 최종 클러스터 결정부(106)는 상기 클러스터 중 얼굴 샷의 수가 가 장 많은 제1 클러스터에 포함된 얼굴 샷 간 시간차의 제1 분산 값을 연산하고, 상기 클러스터 중 상기 제1 클러스터를 제외한 나머지 클러스터에 포함된 얼굴 샷들을 상기 제1 클러스터에 순차적으로 병합하여 병합된 클러스터의 분산 값 중 가장 작은 값을 제 2 분산 값으로 선정한다. 또한, 상기 제2 분산 값이 상기 제1 분산 값보다 작으면 상기 제2 분산 값으로 선정된 클러스터를 제1 클러스터에 병합을 수행하고, 이러한 방법으로 모든 클러스터에 대한 병합을 수행한 후 최종 클러스터를 생성한다. 그러나, 상기 제2 분산 값이 상기 제1 분산 값보다 크면 상기 제2 클러스터 병합을 수행하지 않고 최종 클러스터를 생성한다.

단계(S109)에서 얼굴 모델 생성부(107)는 상기 최종 클러스터로 결정된 복수 개의 클러스터들에 포함된 샷들 중 가장 많이 포함된 샷을 얼굴 모델 샷으로 결정한다. 상기 얼굴 모델 샷의 인물은 뉴스 동영상 중 가장 많이 등장하는 인물이므로, 앵커로 판단된다.

도 4a에 도시된 바와 같이 얼굴 검출부(102)는 키 프레임(401)에 대해 복수 개의 서브 윈도우(402, 403, 404)를 적용하고, 상기 서브 윈도우에 위치한 이미지가 얼굴인지를 검출한다.

얼굴 검출부(102)는 도 4b에 도시된 바와 같이, n개의 스테이지(S₁ 내지 S_n)가 캐스케이드(cascade)로 연결된 구조이다. 여기서, 각 스테이지(S₁ 내지 S_n)는 심플 특징에 기반한 분류기를 이용하여 얼굴 검출을 수행하는데, 예를 들면 제1 스테이지(S₁)는 4~5개의 분류기를 사용하고, 제2 스테이지(S₂)는 15~20개의 분류기를 사용하는 등, 후단으로 갈수록 사용되는 분류기의 수가 증가되는 구조이다.

각 스테이지는 복수개의 분류기에 대한 가중치 합(weighted sum)으로 이루어져 가중치 합의 부호에 따라서 얼굴 검출 성공여부를 판단하는데, 각 스테이지는 다음 수학식 2와 같이 나타낼 수 있다.

여기서, c_m은 분류기의 가중치를 나타내고, f_m(x)는 분류기의 출력을 나타내는 것으로서, 다음 수학식 3와 같이 나타낼 수 있다.

즉, 각 분류기는 하나의 심플 특징과 문턱값으로 구성되어, -1 또는 1의 값을 출력한다.

도 4b를 참조하면, 제1 스테이지(S₁)는 제1 영상 또는 제2 영상의 k번째 서브 윈도우 영상을 입력으로 하여 얼굴 검출을 시도하고, 얼굴 검출에 실패하면(F) k번째 서브 윈도우 영상은 비얼굴로 결정하고, 얼굴 검출에 성공하면(T) k번째 서브 윈도우 영상을 제2 스테이지(S₂)로 제공한다. 얼굴 검출부(102)를 구성하는 마 지막 스테이지에서 k번째 서브 윈도우 영상에서 얼굴 검출에 성공하면(T) k번째 서브 윈도우 영상을 얼굴로 결정한다. 한편, 각 분류기와 가중치 선택에는 아다부스트(Adaboost)에 기반한 학습 알고리즘을 사용한다. 아다부스트 알고리즘에 의하면 대형 특징 세트로부터 몇 개의 중요한 시각적인 특징을 선택하여 매우 효율적인 분류기를 생성한다. 아다부스트 알고리즘에 대해서는 Yoav Freund and Robert E. Schapire 에 의한 "A decision-theoretic generalization of on-line learning and an application to boosting", In Computational Learning Theory: Eurocolt '95, pp. 23-37, Springer-Verlag, 1995에 자세히 기재되어 있다.

이와 같은 케스케이드로 연결된 스테이지 구조에 따르면 비얼굴인 경우에는 작은 수의 심플 특징을 사용하더라도 결정 가능하므로, 제1 스테이지 또는 제2 스테이지 등과 같은 초기 단계에서 바로 리젝트시킨 다음, (k+1)번째 서브 윈도우 영상을 입력 받아 얼굴 검출을 시도할 수 있으므로 전체적인 얼굴 검출 처리 속도를 향상시킬 수 있다.

도 5a 내지 도 5c는 각 분류기에서 사용되는 심플 특징의 예를 보여주는 것으로서, 도 5a는 에지 심플 특징, 도 5b는 라인 심플 특징, 도 5c는 중앙 포위 심플 특징(center-surround simple feature)을 각각 나타낸다. 각 심플 특징은 2개 또는 3개의 흰색 또는 검은색 사각형으로 이루어진다. 각 분류기는 심플 특징에 따라서, 흰색 사각형 내에 위치하는 화소의 계조값의 합을 검은색 사각형 내에 위치하는 화소의 계조값의 합으로부터 감산하여, 감산된 결과값을 심플 특징에 대응하는 문턱값과 비교한다. 감산된 결과값과 문턱값과의 비교결과에 따라서 1 또는 -1의 값을 출력한다.

도 5d는 1개의 흰색 사각형과 2개의 검은색 사각형으로 이루어진 라인 심플 특징을 이용하여 눈 부분을 검출하는 예를 보여주는데, 눈 영역이 콧등 영역보다 더 어둡다는 측면을 고려하여 눈 영역과 콧등 영역간의 계조값의 차이를 측정한다. 도 5e는 1개의 흰색 사각형과 1개의 검은색 사각형으로 이루어진 에지 심플특징을 이용하여 눈 부분을 검출하는 예를 보여주는데, 눈 영역이 뺨 영역보다 더 어둡다는 측면을 고려하여 눈 영역과 뺨 위쪽 영역간의 계조값의 차이를 측정한다. 이와 같이 얼굴을 검출하기 위한 심플 특징은 매우 다양하게 존재할 수 있다.

도 6은 본 발명의 일측에 따른 얼굴 검출 방법의 순서를 도시한 흐름도이다.

661 단계에서는 스테이지의 번호(n)를 1로 설정하고, 663 단계에서는 서브 윈도우 영상을 n번째 스테이지에서 테스트하여 얼굴 검출을 시도한다. 665 단계에서는 n번째 스테이지에서의 얼굴 검출이 성공하였는지를 판단하여 얼굴 검출에 실패한 경우 서브 윈도우 영상의 위치나 크기를 바꾸기 위해서 673 단계로 이행한다. 665 단계에서의 판단 결과 얼굴 검출이 성공한 경우 667 단계에서 n번째 스테이지가 하나의 얼굴 검출부(102)에서 마지막 스테이지인지를 판단한다. 667 단계에서의 판단 결과, n번째 스테이지가 마지막 스테이지가 아닌 경우에는 669 단계에서 n을 1만큼 증가시킨 다음 663 단계로 복귀한다. 한편, 667 단계에서의 판단 결과, n번째 스테이지가 마지막 스테이지인 경우에는 671 단계에서 서브 윈도우 영상의 좌표를 저장한다.

673 단계에서는 y가 제1 영상 또는 제2 영상의 h에 해당하는지, 즉 y의 증가가 종료되었는지를 판단한다. 673 단계에서의 판단 결과, y의 증가가 종료된 경우 677 단계에서 x가 제1 영상 또는 제2 영상의 w에 해당하는지, 즉 x의 증가가 종료되었는지를 판단한다. 한편, 673 단계에서의 판단 결과, y의 증가가 종료되지 않은 경우 675 단계에서 y를 1만큼 증가시킨 다음 661 단계로 복귀한다. 677 단계에의 판단결과 x의 증가가 종료된 경우 681 단계로 진행하고, x의 증가가 종료되지 않은 경우 679 단계에서 y는 그대로 두고, x를 1만큼 증가시킨 다음 661 단계로 복귀한다.

681에서는 서브 윈도우 영상의 크기 증가가 종료되었는지를 판단하고, 판단결과, 서브 윈도우 영상의 크기 증가가 종료되지 않은 경우에는 683 단계에서 소정의 스케일팩터 비율로 서브 윈도우 영상의 크기를 증가시킨 다음, 657 단계로 복귀한다. 한편, 681 단계에서의 판단 결과, 서브 윈도우 영상의 크기 증가가 종료된 경우에는 685 단계에서 671 단계에서 저장된 얼굴이 검출된 각 서브 윈도우 영상의 좌표를 그룹핑한다.

본 발명에 의한 얼굴 검출 방법에 있어서 검출 속도를 향상시키기 위한 방법으로는, 얼굴 검출부(102)에 있어서 입력되는 프레임 전체 영상 즉, 하나의 제1 영상에서 얼굴로 검출되는 서브 윈도우 영상의 총 개수를 제한하는 방법을 들 수 있다. 또한, 서브 윈도우 영상의 최소 크기를 (이전 프레임영상에서 검출된 얼굴 크기- (n×n) 화소)로 제한하거나, 제2 영상의 크기를 이전 프레임영상에서 검출된 얼굴위치의 박스 좌표의 소정 배수 예를 들면 두 배 정도로 제한하는 방법을 사용 할 수도 있다.

본 발명의 일측에 따르는 얼굴 특징 정보 추출 방법은, 얼굴 검출부(102)에 의하여 검출된 얼굴의 영상에 대한 다중 서브 영상을 생성하고, 상기 다중 서브 영상들을 푸리에 변환하여 상기 다중 서브 영상들 각각에 대한 푸리에 특징들을 추출하고, 상기 푸리에 특징들을 결합하여 상기 얼굴 특징 정보를 생성한다. 상기 다중 서브 영상은, 동일한 크기를 갖고, 동일 얼굴 영상에 대해 눈 사이의 거리가 각각 다른 복수의 영상이다.

얼굴 특징 추출부(103)는 입력 영상에 대해 눈 거리(eye distance)가 각각 다른 서브 영상들을 생성한다. 상기 서브 영상들은 46x45 픽셀의 동일한 크기를 갖고, 동일 얼굴 영상에 대해 눈 사이의 거리가 각각 다르다.

상기 서브 영상들 각각에 대해 푸리에 특징을 추출한다. 이는 크게, 다중 서브 영상들을 푸리에 변환하는 제1 단계, 푸리에 변환된 결과를 푸리에 영역별로 분류하는 제2 단계, 분류된 푸리에 영역별로 해당 푸리에 성분을 이용하여 특징을 추출하는 제3 단계, 및 상기 푸리에 영역별로 추출된 특징을 모두 연결하여 상기 푸리에 특징들을 생성하는 제4 단계로 수행한다. 상기 제3 단계는 상기 푸리에 영역별로 분류된 주파수 대역에 해당하는 푸리에 성분을 이용하여 상기 특징을 추출한다. 상기 특징은 상기 주파수 대역의 상기 푸리에 성분에서 해당 주파수 대역의 평균 푸리에 성분을 감산한 결과에 미리 학습한 변환 매트릭스를 곱하여 추출된 다. 상기 변환 매트릭스는 PCLDA 알고리즘에 따라 상기 푸리에 성분을 입력으로 할 때 상기 특징을 출력하도록 학습된다. 이하에서 보다 상세히 설명한다.

얼굴 특징 추출부(103)는 입력 영상을 수학식 4와 같이 푸리에 변환한다(610 단계).

여기서, M은 영상에서 x축 방향의 픽셀 수, N은 y축 방향의 픽셀 수,

는 입력 영상의 픽셀 값이다.

얼굴 특징 추출부(103)는 수학식 4에 따라 푸리에 변환된 결과를 수학식 4를 이용하여 각 영역별로 분류한다(620 단계). 여기서 푸리에 영역은 다음 식과 같이 표현되는 푸리에 변환 결과의 실수 성분

/허수 성분

, 크기 성분

및 위상 성분

으로 각각 구분되는 영역이다.

영상을 푸리에 영역별로 분류하는 이유는 도 8에 도시된 바와 같이 푸리에 영역 중 어느 한 영역만을 고려해서는 얼굴 영상이 속하는 클래스의 구별이 어려울 수 있기 때문이다. 여기서, 클래스는 한 사람에 대응하는 복수의 얼굴 영상이 차지하는 푸리에 영역의 한 공간을 말한다.

예를 들어, 클래스 1과 클래스 3은 위상 면에서 보면 클래스간 구분이 어렵지만, 크기 면에서는 구분됨을 알 수 있다. 또한 클래스 1과 클래스 2는 크기 면에서는 구분이 어려우나, 위상 면에서는 구분됨을 알 수 있다. 도면에서 x ₁, x ₂ 및 x ₃는 각 클래스에 포함되는 특징의 예를 표현한 것이다. 도 3에 도시된 바를 참조하면, 모든 푸리에 영역들을 반영하여 클래스를 분류하는 것이 얼굴 인식에 보다 유리함을 알 수 있다.

일반적인 템플릿(template) 기반의 얼굴인식의 경우, 크기 영역, 즉 푸리에 스펙트럼(Fourier spectrum)이 얼굴 특징을 기술하는데 주로 사용된다. 그 이유는 약간의 공간 이동(spatial displacement)이 발생하면 위상은 크게(drastically) 변하지만 크기는 평탄하게(smoothly) 변하기 때문이다. 그러나, 본 실시 예에서는 얼굴 영상에 대해 두드러진 특징을 보이는 위상 영역을 반영하되, 상대적으로 덜 민감한 저주파수 대역의 위상 영역을 크기 영역과 함께 고려하기로 한다. 또한, 얼굴의 세세한 특징을 모두 반영하기 위하여, 총 3가지의 푸리에 특징을 사용하여 얼굴 인식을 수행한다. 이러한 푸리에 특징은 실수/허수 성분을 합친(이하 RI영역이라 함) RI영역, 푸리에의 크기 성분(이하 M영역이라 함) 그리고 푸리에의 위상 성분(이하 P영역이라 함)을 사용한다. 이러한 다양한 얼굴 특징들은 그 성질에 맞게 각기 다른 주파수 대역을 선택한다.

얼굴 특징 추출부(103)는 각 푸리에 영역을 주파수 대역별로 분류한다(631, 632, 633 단계). 즉, 얼굴 특징 추출부(103)는 각 푸리에 영역에 대해 해당 푸리에 영역의 특성에 따른 주파수 대역을 분류한다. 본 실시예에서 주파수 대역은 0~ 전체 대역의 1/3에 해당하는 저주파수 대역 B₁, 0~ 전체 대역의 2/3에 해당하는 중간 주파수 이하 대역 B₂ 그리고 0~전체 대역까지에 해당하는 전체 주파수 대역 B₃으로 분류된다.

얼굴 영상에서 저주파수 대역은 푸리에 영역의 바깥쪽에, 고주파수 대역은 푸리에 영역의 중심쪽에 위치한다. 도 9(a)는 본 실시예에 따라 분류되는 저주파수 대역 B₁ (B₁₁, B₁₂)을 나타내고, 도 9(b)는 중간 주파수 이하 대역 B₂ (B₂₁, B₂₂) 그리고 도 9(c)는 고주파수 대역을 포함하는 전체 대역 B₃ (B₃₁, B₃₂)을 나타낸다.

푸리에 변환의 RI영역에서는 B₁, B₂, 및 B₃ 주파수 대역의 푸리에 성분들을 모두 고려한다(631 단계). 크기 영역에서는 고주파수 대역에서는 정보를 충분히 많이 포함하지 않으므로 B₃를 제외한 B₁ 및 B₂ 주파수 대역의 성분들을 고려한다(632 단계). 위상 영역에서는 위상이 크게 변하는 B₂ 및 B₃를 제외한 B₁ 주파수 대역의 성분만을 고려한다(633단계). 위상은 중간 주파수 및 고주파수 대역에서 작은 변동(variation)에 대해서도 그 값이 급격하게 변하기 때문에 저주파수 대역 만을 고려하는 것이 적절하다.

다음으로 얼굴 특징 추출부(103)는 각 푸리에 영역에서 분류된 주파수 대역의 푸리에 성분들로부터 얼굴 인식을 위한 특징을 추출한다. 본 실시예에서 특징 추출은 PCLDA(Principal Component and Linear Discriminant Analysis) 방법을 이용하여 이루어진다.

LDA(Linear Discriminant Analysis)는 클래스내의 스캐터 (within-class scatter)를 줄이면서 클래스간 스캐터(between-class scatter)를 최대화하는 서브 공간으로 데이터를 선형 투영(linear projection)하도록 학습하는 방법이다. 이를 위해 클래스간 분산을 나타내는 클래스간 스캐터 매트릭스 S_B 및 클래스 내 분산을 나타내는 클래스 내 스캐터 매트릭스 S_W는 다음 식과 같이 정의된다.

여기서, m_i는 M_i개의 샘플을 갖는 i번째 클래스 c_i의 평균 영상, c는 클래스 수이다. 변환 매트릭스 W_opt는 다음 식을 만족하도록 구해진다.

여기서, n은 투영 벡터의 수이고, n=min(c-1, N, M)이다.

PCA(Principal Component Analysis)는 LDA를 수행하기 전에 수행되어 벡터의 차원(dimensionality)을 줄여서 클래스 내 스캐터 매트릭스의 특이성(sinularity)를 극복한다. 이를 본 실시예에서는 PCLDA라 하며, PCLDA의 성능은 입력 차원을 줄이는 데 사용되는 고유공간(eigenspace)의 수에 좌우된다.

얼굴 특징 추출부(103)는 상술한 PCLDA 방법에 따라 각 푸리에 영역의 해당 주파수 대역별로 특징을 추출한다(641, 642, 643, 644, 645, 646 단계). 예를 들어, RI 푸리에 영역의 B₁ 주파수 대역의 특징 y_RIB1은 다음 식과 같이 구할 수 있다.

여기서, W_RIB1은 수학식 7에 따라 학습 세트에서 RI_B1의 푸리에 성분에 대한 특징들을 출력하도록 학습한 PCLDA의 변환 매트릭스, m_RIB1은 RI_B1에서 특징들의 평균이다.

단계 650에서 얼굴 특징 추출부(103)는 위에서 출력되는 특징들을 연결한다(concatenate). RI 영역의 세 주파수 대역에서 출력되는 특징들, 크기 영역의 두 주파수 대역에서 출력되는 특징들, 그리고 위상 영역의 하나의 주파수 대역에서 출력되는 특징은 각각 다음 식과 같이 연결된다.

수학식 9의 특징들은 최종적으로 다음 식의 f와 같이 연결되어 서로 상보적인(complementary) 특징을 구성한다.

도면 부호 1010은 입력 영상을 나타낸다. 입력 영상 중 영상(1011)은 머리 및 배경이 완전히 제거된 상태에서 얼굴의 안쪽의 특징만을 포함한다. 영상(1013)은 얼굴의 전반적인 형태를 포함한다. 영상(1012)는 영상(1011)과 영상(1013)의 중간 영상이다.

영상(1020), 영상(1030), 및 영상(1040)은 입력 영상(1010)으로부터 각각 영상(1011), 영상(1012), 및 영상(1013)을 조명 처리 등과 같은 전처리를 수행한 다음, 각각 46x56 크기의 영상으로 만든 결과를 도시한 것이다. 도시된 영상들의 좌우 눈의 좌표는 도 10a에 도시된 바와 같이, 각각 [(13, 22) (32, 22)], [(10, 21) (35, 21)], 및 [(7, 20) (38, 20)]이다.

ED1 영상(1020)은 얼굴에 포즈, 즉, 얼굴이 향하는 방향에 있어서 구성요소, 예를 들어 코의 형태가 바뀌거나 눈 좌표가 잘못될 경우 학습 성능의 감소폭이 클 수 있다.

ED3 영상(1040)은 얼굴의 전반적인 형태를 포함하므로, 포즈나 잘못된 눈 좌표에 강인하고, 짧은 시간 변화에서는 머리 모양이 변하지 않기 때문에 좋은 성능을 보이나 장기간 동안에 머리 모양이 바뀔 경우 성능 감소가 크고 얼굴 내부 정보가 상대적으로 적기 때문에 학습시 얼굴 내부 정보가 반영이 잘 되지 않아서 전반적인 성능은 좋지 않을 수 있다.

ED2 영상(1030)은 영상(1020)과 영상(1040)의 장점을 적절히 포함하므로, 과도하게 머리 정보나 배경 정보가 들어가지 않고 대부분의 정보가 얼굴 내부 구성 요소이므로 가장 안정적인 성능을 보일 수 있다.

도 11은 본 발명의 일측에 따른 클러스터링 방법의 순서를 도시한 흐름도이다. 클러스터링부(104)는 동영상 데이터를 구성하는 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성한다.

단계(S1101)에서 클러스터링부(104)는 동영상 데이터를 구성하는 복수 개의 샷들 사이의 유사도를 계산한다. 상기 유사도는 상기 복수 개의 샷들 각각의 키 프레임들에서 계산되는 얼굴 특징 정보들 간의 유사도이다. 도 12a에 각 샷들 사이의 유사도가 예시되어 있다. 예를 들어, N개의 키 프레임에서 얼굴이 검출되었다면, 상기 얼굴이 검출된 키 프레임들의 얼굴 특징 정보를 이용하여 각각의 키 프 레임 쌍에 대한 약 (N*N/2)번의 유사도 계산을 수행한다.

단계(S1102)에서 클러스터링부(104)는 상기 유사도가 소정의 문턱치 이상인 샷들을 그룹핑하여 복수 개의 초기 클러스터를 생성한다. 도 12b와 같이 유사도가 소정의 문턱치 이상인 샷들을 쌍으로 연결한다. 예를 들어, 도 12c에서 샷 (1,3,4,7,8)을 하나의 초기 클러스터(1101)로 생성하고, 샷 (4,7,10)을 초기 클러스터(1102), 샷 (7,8)을 초기 클러스터(1103), 샷 (2)를 초기 클러스터(1104), 샷(5,6)을 초기 클러스터(1105), 샷(9)를 초기클러스터(1106)로 생성한다.

단계(S1103)에서 클러스터링부(104)는 상기 생성된 초기 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합한다. 예를 들어, 도 12c에서 샷 7을 포함한 모든 클러스터들(1101, 1102, 1103)을 병합하여, 상기 클러스터들에 포함된 얼굴 샷을 모두 포함한 하나의 클러스터(1107)를 생성한다. 이 때, 공통적으로 포함된 샷이 없는 클러스터들은 병합이 수행되지 않는다. 따라서, 본 발명에 따르면 동일한 진행자(앵커)의 얼굴이 포함된 샷들을 하나의 클러스터로 생성할 수 있다. 예를 들어, 진행자 A의 얼굴이 포함된 샷들은 클러스터 1로 생성되고, 진행자 B의 얼굴이 포함된 샷들은 클러스터 2로 생성된다. 도 12c에 도시된 바와 같이 초기 클러스터(1101), 초기 클러스터(1102), 초기 클러스터(1103)은 동일한 샷(7)을 포함하고 있으므로, 하나의 클러스터(1107)로 병합된다. 초기 클러스터(1104), 초기 클러스터(1105), 및 초기 클러스터(1106)는 클러스터(1108), 클러스터(1109), 클러스터(1110)으로 변화가 없다.

단계(S1104)에서 클러스터링부(104)는 포함된 샷의 수가 소정의 개수 이하 인 클러스터를 제거한다. 예를 들어, 도 12d에서 클러스터링부(104)는 샷을 하나만 포함하고 있는 클러스터를 제거하여 유효한 클러스터(1211, 1212)만을 남긴다. 즉, 도 12c에서 샷을 하나만 포함하는 클러스터들(1108, 1110)은 제거된다.

따라서 본 발명은 단독으로 등장하는 인물이 포함된 얼굴 샷을 클러스터에서 제거함으로써, 진행자를 판별하여 동영상을 분할하도록 하는 효과가 있다. 예를 들어, 뉴스 프로그램 동영상의 경우, 진행자는 일반 앵커, 날씨 진행 앵커, 해외 뉴스 앵커, 스포츠 뉴스 앵커, 사설 앵커 외에도, 기자, 기사와 관련된 인물 등 여러 인물의 얼굴을 포함할 수 있는데, 본 발명은 단편적으로 등장하는 기자 또는 기사와 관련된 인물 등을 진행자로 판단하지 않는 효과가 있다.

샷 병합부(105)는 동영상 데이터에 검색 윈도우를 적용하여 소정의 시간에 소정 개수 이상 반복적으로 포함된 복수 개의 샷들을 하나의 샷으로 병합한다. 뉴스 프로그램 동영상 등에서는 진행자가 단독으로 진행하는 경우 외에, 게스트를 초대하여 진행자와 게스트가 하나의 주제에 대하여 대화를 주고 받으며 프로그램을 진행하는 경우가 있다. 이 경우에는 주요 등장 인물이 바뀌지만, 하나의 주제에 대한 샷이므로, 진행자와 게스트가 등장하여 대화를 나누는 구간을 하나의 주제 샷으로 병합할 필요가 있다. 따라서, 본 발명의 샷 병합부(105)는 상기 동영상 데이터에 검색 윈도우를 적용하여 소정의 시간에 소정 개수 이상 포함된 샷들을 하나의 샷으로 대표하게 샷들을 병합한다. 상기 검색 윈도우의 구간 및 병합의 대상이 되 는 샷의 개수는 다양하게 응용 가능하다.

도 13a는 본 발명의 샷 병합부(105)가 동영상 데이터에 검색 윈도우를 적용하여 얼굴 샷들을 병합하는 과정을 도시한 도면이다.

도 13a를 참조하면, 샷 병합부(105)는 소정의 구간을 갖는 검색 윈도우(1302)를 동영상 데이터에 적용하여, 소정 구간에 소정 개수 이상 반복적으로 포함된 샷들을 하나의 샷으로 병합한다. 샷 병합부(105)는 상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하고, 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합한다. 만약, 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 미만이면, 샷 병합부(105)는 상기 제1 샷의 키 프레임과 상기 제1 샷 후 N-1번째 샷의 키 프레임을 비교한다. 도 13a에서 샷들(1301)은 하나의 샷(1303)으로 병합되었다.

도 13b는 본 발명에 따라 동영상 데이터에 검색 윈도우를 적용하여 샷들을 병합한 실시예를 도시한 도면이다. 도 13b를 참조하면, 본 발명의 샷 병합부(105)는 소정 구간에 소정 개수 이상 반복적으로 포함된 얼굴 샷들(1304)을 병합하여 하나의 샷(1305)으로 생성한다.

도 14a, 도 14b 및 도 14c는 도 13b에 도시된 샷 병합의 이해를 돕기 위한 도면들로서, 도 14a는 화살표 방향으로 시간이 경과됨에 따른 일련의 샷들을 나타낸다. 도 14b 및 14c는 세그먼트의 식별 번호가 매칭되는 모습을 나타내는 테이블들이다. 각 테이블에서, 'B#'은 샷의 번호를 나타내고, FID는 얼굴의 식별 번 호(ID:IDentity)를 나타내고, '?'는 FID가 아직 결정되지 않았음을 나타낸다.

본 발명의 이해를 돕기 위해, 검색 윈도우(1302)의 크기를 '8'로서 가정하지만, 본 발명은 이에 국한되지 않는다.

먼저, 도 14a에 도시된 검색 윈도우(1302)에 속하는 샷들(1 ~ 8)을 병합하고자 할 경우, 도 14b에 도시된 바와 같이 첫 번째 (B#=1)의 FID를 임의의 숫자(예를 들어 '1'로) 설정한다. 이 때, 얼굴간의 유사도는 첫 번째 (B#=1)에 얼굴 샷의 특징 정보와 두 번째(B#=2) 부터 여덟 번째 (B#=8)에 샷들의 얼굴 특징 정보들을 이용하여 각각의 샷들의 유사도를 산출한다.

예를 들어, 유사도 산출은 두 개의 샷들의 유사성을 끝에서부터 검사할 수 있다. 즉, 유사도 산출은 첫 번째 샷(B#=1)의 얼굴 특징 정보와 여덟 번째 샷(B#=8)의 얼굴 특징 정보를 비교하고, 다음으로 첫 번째 샷(B#=1)의 얼굴 특징 정보와 일곱 번째 샷(B#=7)의 얼굴 특징 정보 비교하고, 다음으로 첫 번째 샷(B#=1)의 얼굴 특징 정보와 여섯 번째 샷(B#=6)의 얼굴 특징 정보를 비교하는 순으로 두 얼굴 샷들의 유사성을 검사할 수 있다.

이 때, 샷 병합부(105)는 첫 번째 샷(B#=1)과 여덟 번째 샷(B#=8) 간의 유사성[Sim(F1,F8)]과 소정의 문턱치를 비교한 결과를 통해 첫 번째 샷(B#=1)과 여덟 번째 샷(B#=8) 간의 유사성[Sim(F1,F8)]이 소정의 문턱치보다 작다고 판단되면, 첫 번째 샷(B#=1)과 일곱 번째 샷(B#=7) 간의 유사성[Sim(F1,F7)]이 소정의 문턱치 이상인가를 판단한다. 이 때, 샷 병합부(105)는 첫 번째 샷(B#=1)과 일곱 번째 샷(B#=7) 간의 유사성[Sim(F1,F7)]이 소정의 문턱치 이상인 것으로 판단되면, 첫 번째 샷(B#=1)부터 일곱 번째 샷(B#=7)까지의 모든 FID를 '1'로 설정한다. 이 때, 첫 번째 샷(B#=1)부터 여섯 번째 샷(B#=6) ~ 두 번째 샷(B#=2)들 간의 유사성은 비교되지 않는다. 따라서, 샷 병합부(105)는 첫 번째 샷으로부터 일곱 번째 샷까지의 모든 샷들을 병합한다.

샷 병합부(105)는 얼굴의 특징 정보들을 이용하여 모든 샷들에 대해 모든 B#에 대한 FID가 구해질 때까지 전술한 동작을 수행한다. 이러한 본 발명에 따르면, 진행자와 게스트가 대화를 나누면서 반복 등장하는 구간을 하나의 샷으로 처리할 수 있을 뿐 아니라, 샷 병합을 매우 효율적으로 처리할 수 있다.

단계(S1501)에서 최종 클러스터 결정부(106)는 포함하고 있는 샷들의 수에 따라 클러스터들을 정렬한다. 도 12d를 참조하면 샷 병합 후, 클러스터(1107) 및 클러스터(1109)가 남게 되는데, 이 경우, 클러스터(1107)는 6개의 샷을 포함하고, 클러스터(1109)는 2개의 샷을 포함하므로, 클러스터(1107), 클러스터(1109)의 순으로 정렬된다.

단계(S1502)에서 최종 클러스터 결정부(106)는 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정한다. 도 12d를 참조하면 클러스터(1107)는 6개의 샷을 포함하고, 클러스터(1109)는 2개의 샷을 포함하므로, 클러스터(1107)가 제1 클러스터로 선정된다.

단계(S1502) 내지 단계(S1507)에서 최종 클러스터 결정부(106)는 제1 클러 스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정한다. 단계(S1502) 내지 단계(S1507)를 구체적으로 설명한다.

단계(S1503)에서 최종 클러스터 결정부(106)는 상기 제1 클러스터를 잠정적 최종 클러스터로 결정한다. 그리고, 단계(S1504)에서 상기 잠정적 클러스터에 포함된 샷들 간의 시간차들의 제1 분산 값을 연산한다.

최종 클러스터 결정부(106)는, 단계(S1505)에서, 상기 클러스터 중 상기 제1 클러스터를 제외한 나머지 클러스터에 포함된 샷들을 상기 제1 클러스터에 순차적으로 병합하여 병합된 클러스터의 분산 값 중 가장 작은 값을 제2 분산 값으로 선정한다. 구체적으로 최종 클러스터 결정부(106)는 상기 잠정적 최종 클러스터 이외의 클러스터들 중 하나를 선택하여, 상기 잠정적 최종 클러스터와 병합한다(제1 단계). 그리고, 상기 병합된 클러스터에 포함된 샷들 간의 시간차들의 분산 값을 계산한다(제2 단계). 그 다음 최종 클러스터 결정부(106)는 상기 잠정적 최종 클러스터 이외의 클러스터들 모두에 대하여 상기 제1 단계 내지 상기 제2 단계를 수행하여 계산한 분산 값 중 가장 작은 값을 제2 분산 값으로 결정하고, 상기 제2 분산 값이 계산된 상기 잠정적 최종 클러스터 이외의 클러스터를 제2 클러스터로 결정한다.

단계(S1506)에서 최종 클러스터 결정부(106)는 상기 제1 분산 값과 상기 제2 분산 값을 비교한다. 상기 비교 결과 상기 제2 분산 값이 상기 제1 분산 값보다 작으면, 최종 클러스터 결정부(106)는 상기 제2 클러스터 및 상기 잠정적 최종 클러스터를 병합하여 새 잠정적 최종 클러스터를 생성한다(단계 S1507). 이러한 방 법으로 모든 클러스터에 대한 병합을 수행한 후 최종 클러스터를 생성한다. 그러나, 상기 제2 분산 값이 상기 제1 분산 값보다 작지 않으면 상기 제2 클러스터 병합을 수행하지 않고 최종 클러스터를 생성한다.

마지막으로 최종 클러스터 결정부(106)는 상기 최종 클러스터에 포함된 샷들을 추출한다. 또한, 최종 클러스터 결정부(106)는 상기 최종 클러스터에 포함된 샷들을 앵커가 등장하는 샷으로 결정한다. 즉, 동영상을 구성하는 복수 개의 샷들 중에서 본 발명에 따라 최종 클러스터에 포함된 샷들은 앵커가 등장하는 샷으로 판단되는 것이다. 따라서, 상기 동영상을 상기 앵커가 등장하는 것으로 판단된 샷들(즉, 최종 클러스터에 포함된 샷들)을 기준으로 분할하면, 뉴스 단위로 동영상을 분할할 수 있다.

얼굴 모델 생성부(107)는 상기 최종 클러스터로 결정된 복수 개의 클러스터들에 포함된 샷들 중 가장 많이 포함된 샷을 얼굴 모델 샷으로 결정한다. 상기 얼굴 모델 샷의 인물은 뉴스 동영상 중 가장 많이 등장하는 인물이므로, 앵커로 판단된다.

도 16를 참조하면, 본 발명의 최종 클러스터 결정부(106)는 가장 많은 샷을 가진 제1 클러스터에 포함된 샷들(1601) 간의 시간차(T1, T2, T3, T4)의 제1 분산 값을 연산한다. 다음으로, 제1 클러스터에 나머지 클러스터 중 하나의 클러스터에 포함된 샷들을 포함하여, 샷들(1602) 간의 시간차(T5, T6, T7, T8, T9, T10, T11) 의 분산 값을 연산한다. 도 16에서 제1 클러스터에 포함되었던 샷 1과 샷 2의 시간차는 T1이었는데, 다른 클러스터에 포함된 샷 3이 샷 1과 샷 2의 사이에 포함되면서, 샷 1과 샷 3의 시간차인 T5와 샷 3과 샷 2의 시간차인 T6이 상기 분산 값의 연산에 사용된다. 상기 클러스터 중 상기 제1 클러스터를 제외한 나머지 클러스터에 포함된 샷들을 상기 제1 클러스터에 순차적으로 병합하여 병합된 클러스터의 분산 값 중 가장 작은 값을 제2 분산 값으로 선정한다.

또한, 상기 제2 분산 값이 상기 제1 분산 값보다 작으면 상기 제2 분산 값으로 선정된 클러스터를 제1 클러스터 병합한다. 이러한 방법으로 모든 클러스터에 대한 병합을 수행한 후 최종 클러스터를 생성한다. 그러나, 상기 제2 분산 값이 상기 제1 분산 값보다 크면 상기 제2 클러스터 병합을 수행하지 않고 최종 클러스터를 생성한다.

따라서, 본 발명은 시간적으로 등간격성을 가지는 진행자의 얼굴 샷들을 구분하여 동영상 데이터를 분할할 수 있는 효과가 있다.

본 발명에 따른 동영상 데이터 처리 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

본 발명의 동영상 데이터 처리 방법 및 장치에 따르면, 특정 비디오/오디오 특징을 포함하지 않는 동영상 데이터의 경우에도 의미 단위로 상기 동영상 데이터를 분할할 수 있다.

또한, 본 발명의 동영상 데이터 처리 방법 및 장치에 따르면, 특정 진행자에 대한 얼굴/음성 데이터를 데이터베이스에 미리 저장하고 있지 않으면서도 동영상 데이터를 의미 단위로 분할 및/또는 요약할 수 있다.

또한, 본 발명에 따르면, 하나의 주제 내에 진행자 및 게스트가 반복 등장하는 장면은 분할하지 않는 동영상 데이터 처리 방법 및 장치가 제공된다.

또한, 본 발명은 동영상 데이터에서 진행자는 다른 등장인물들보다 시간적으로 등간격을 가지며 반복 등장한다는 사실을 이용하여 동영상 데이터를 진행자(주제)별로 분할할 수 있다.

또한, 본 발명은 단독으로 등장하는 인물이 포함된 얼굴 샷을 클러스터에서 제거함으로써, 진행자를 판별하여 동영상을 분할할 수 있다.

또한, 본 발명은 동영상 데이터를 분할하면서, 분할 과정에서 생성된 얼굴 모델을 이용하여 빠르고 정확한 동영상 데이터 분할이 가능하도록 한다.

Claims

동영상 데이터를 구성하는 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성하는 클러스터링부; 및

상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하고, 상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 최종 클러스터 결정부

를 포함하고,

상기 최종 클러스터 결정부는,

상기 제1 클러스터를 잠정적 최종 클러스터로 결정하는 제1 동작; 및

상기 잠정적 클러스터에 포함된 샷들 간의 시간차들의 제1 분산 값을 생성하는 제2 동작

을 수행하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서, 상기 클러스터링부는,

상기 생성된 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합하고, 포함된 샷의 수가 소정의 개수 이하인 클러스터를 제거하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서, 상기 복수 개의 샷들 사이의 유사도는,

상기 복수 개의 샷들 각각의 키 프레임들에서 계산되는 얼굴 특징 정보들 간의 유사도인 것을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서,

동영상 데이터를 복수 개의 샷들로 분할하고, 상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 장면 전환 검출부;

상기 키 프레임에서 얼굴을 검출하는 얼굴 검출부; 및

상기 검출된 얼굴로부터 얼굴 특징 정보를 추출하는 얼굴 특징 추출부

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제4항에 있어서, 상기 클러스터링부는,

상기 복수 개의 샷들 각각의 키 프레임의 얼굴 특징 정보들 사이의 유사도를 계산하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제4항에 있어서, 상기 복수 개의 샷들 각각에 대한 키 프레임은,

상기 복수 개의 샷들 각각의 시작 프레임으로부터 소정 시각이 지난 프레임인 것을 특징으로 하는 동영상 데이터 처리 장치.
제4항에 있어서, 상기 얼굴 특징 추출부는,

상기 검출된 얼굴의 영상에 대한 다중 서브 영상을 생성하고, 상기 다중 서브 영상들을 푸리에 변환하여 상기 다중 서브 영상들 각각에 대한 푸리에 특징들을 추출하고, 상기 푸리에 특징들을 결합하여 상기 얼굴 특징 정보를 생성하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제7항에 있어서, 상기 다중 서브 영상은,

동일한 크기를 갖고, 동일 얼굴 영상에 대해 눈 사이의 거리가 각각 다른 복수의 영상임을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서,

상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하고, 상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하고, 상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합하는 샷 병합부

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제9항에 있어서, 상기 샷 병합부는,

상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 미만이면, 상기 제1 샷의 키 프레임과 상기 제1 샷 후 N-1번째 샷의 키 프레임을 비교하는 것을 특징으로 하는 동영상 데이터 처리 장치.
삭제
제1항에 있어서, 상기 최종 클러스터 결정부는,

상기 잠정적 최종 클러스터 이외의 클러스터들 중 하나를 선택하여, 상기 잠정적 최종 클러스터와 병합하는 제3 동작;

상기 병합된 클러스터에 포함된 샷들 간의 시간차들의 분산 값을 계산하는 제4 동작; 및

상기 잠정적 최종 클러스터 이외의 클러스터들 모두에 대하여 상기 제3 동작 및 상기 제4 동작을 수행하여 계산한 분산 값 중 가장 작은 값을 제2 분산 값으로 결정하고, 상기 제2 분산 값이 계산된 상기 잠정적 최종 클러스터 이외의 클러스터를 제2 클러스터로 결정하는 제5 동작

을 더 수행하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제12항에 있어서, 상기 최종 클러스터 결정부는,

상기 제2 분산 값이 상기 제1 분산 값보다 작으면, 상기 제2 클러스터 및 상기 잠정적 최종 클러스터를 병합하여 새 잠정적 최종 클러스터를 생성하는 제6 동작

을 더 수행하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서, 상기 최종 클러스터 결정부는,

상기 최종 클러스터에 포함된 샷들을 앵커가 등장하는 샷으로 결정하는 것을 특징으로 하는 동영상 데이터 처리 장치.
제1항에 있어서,

상기 최종 클러스터로 결정된 복수 개의 클러스터들에 포함된 샷들 중 가장 많이 포함된 샷을 얼굴 모델 샷으로 결정하는 얼굴 모델 생성부

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 장치.
동영상 데이터를 구성하는 복수 개의 샷들 사이의 제1 유사도를 계산하는 단계;

상기 제1 유사도가 소정의 문턱치 이상인 샷들을 그룹핑하여 복수 개의 클러스터를 생성하는 단계;

상기 복수 개의 샷들 사이의 제2 유사도에 기초하여 상기 복수 개의 샷들을 병합하는 단계;

상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하는 단계;

상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 단계; 및

상기 최종 클러스터에 포함된 샷들을 추출하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제16항에 있어서, 상기 복수 개의 샷들 사이의 제1 유사도를 계산하는 단계는,

상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계;

상기 키 프레임에서 얼굴을 검출하는 단계;

상기 검출된 얼굴로부터 얼굴 특징 정보를 추출하는 단계; 및

상기 복수 개의 샷들 각각의 키 프레임의 얼굴 특징 정보들 사이의 유사도를 계산하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제16항에 있어서,

상기 생성된 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합하는 단계; 및

포함된 샷의 수가 소정의 개수 이하인 클러스터를 제거하는 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제16항에 있어서, 상기 복수 개의 샷들을 병합하는 단계는,

상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계;

상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하는 단계; 및

상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 상기 제2 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
동영상 데이터를 구성하는 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계;

상기 키 프레임에서 얼굴을 검출하는 단계;

상기 검출된 얼굴로부터 얼굴 특징 정보를 추출하는 단계;

상기 복수 개의 샷들 각각의 키 프레임의 얼굴 특징 정보들 사이의 유사도를 계산하는 단계;

동영상 데이터를 구성하는 복수 개의 샷들 사이의 유사도를 계산하는 단계;

상기 유사도가 소정의 문턱치 이상인 샷들을 그룹핑하여 복수 개의 클러스터를 생성하는 단계;

상기 생성된 클러스터들 중 동일한 샷을 포함한 클러스터들을 병합하는 단계; 및

포함된 샷의 수가 소정의 개수 이하인 클러스터를 제거하는 단계

를 포함하고,

상기 검출된 얼굴로부터 얼굴 특징 정보를 추출하는 단계는,

상기 검출된 얼굴의 영상에 대한 다중 서브 영상을 생성하는 단계;

상기 다중 서브 영상들을 푸리에 변환하여 상기 다중 서브 영상들 각각에 대한 푸리에 특징들을 추출하는 단계; 및

상기 푸리에 특징들을 결합하여 상기 얼굴 특징 정보를 생성하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
삭제
삭제
제20항에 있어서, 상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계는,

상기 복수 개의 샷들 각각의 시작 프레임으로부터 소정 시각이 지난 프레임을 상기 키 프레임으로 선정하는 것을 특징으로 하는 동영상 데이터 처리 방법.
삭제
제20항에 있어서, 상기 다중 서브 영상은,

동일한 크기를 갖고, 동일 얼굴 영상에 대해 눈 사이의 거리가 각각 다른 복수의 영상임을 특징으로 하는 동영상 데이터 처리 방법.
제20항에 있어서, 상기 다중 서브 영상들 각각에 대한 푸리에 특징들을 추출하는 단계는,

상기 다중 서브 영상들을 푸리에 변환하는 단계;

푸리에 변환된 결과를 푸리에 영역별로 분류하는 단계;

분류된 푸리에 영역별로 해당 푸리에 성분을 이용하여 특징을 추출하는 단계; 및

상기 푸리에 영역별로 추출된 특징을 모두 연결하여 상기 푸리에 특징들을 생성하는 단계

를 포함함을 특징으로 하는 동영상 데이터 처리 방법.
제26항에 있어서, 상기 푸리에 영역별로 분류하는 단계는,

각 푸리에 영역에 대해 해당 푸리에 영역의 특성에 따른 주파수 대역을 분류하는 단계

를 더 포함하고,

상기 특징을 추출하는 단계는,

상기 푸리에 영역별로 분류된 주파수 대역에 해당하는 푸리에 성분을 이용하여 상기 특징을 추출하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제27항에 있어서, 상기 특징은,

상기 주파수 대역의 상기 푸리에 성분에서 해당 주파수 대역의 평균 푸리에 성분을 감산한 결과에 미리 학습한 변환 매트릭스를 곱하여 추출되는 것을 특징으로 하는 동영상 데이터 처리 방법.
제28항에 있어서, 상기 변환 매트릭스는,

PCLDA 알고리즘에 따라 상기 푸리에 성분을 입력으로 할 때 상기 특징을 출력하도록 학습되는 것을 특징으로 하는 동영상 데이터 처리 방법.
동영상 데이터를 복수 개의 샷들로 분할하는 단계;

상기 복수 개의 샷들 각각에 대한 키 프레임을 선정하는 단계;

상기 복수 개의 샷들 중 선택된 제1 샷의 키 프레임과 상기 제1 샷 후 N번째 샷의 키 프레임을 비교하는 단계; 및

상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 이상이면, 상기 제1 샷부터 상기 N번째 샷까지의 샷들을 병합하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제30항에 있어서,

상기 제1 샷의 키 프레임과 상기 N번째 샷의 키 프레임의 유사도가 소정의 문턱치 미만이면, 상기 제1 샷의 키 프레임과 상기 제1 샷 후 N-1번째 샷의 키 프 레임을 비교하는 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
동영상 데이터를 복수 개의 샷들로 분할하는 단계;

상기 복수 개의 샷들의 유사도에 기초하여 상기 샷들을 그룹핑하여 복수 개의 클러스터들을 생성하는 단계;

상기 복수 개의 클러스터들 중 가장 많은 샷들을 포함한 클러스터를 제1 클러스터로 선정하는 단계;

상기 제1 클러스터 이외의 클러스터들과 상기 제1 클러스터를 비교하여 최종 클러스터를 결정하는 단계; 및

상기 최종 클러스터에 포함된 샷들을 추출하는 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제32항에 있어서, 상기 최종 클러스터를 결정하는 단계는,

상기 제1 클러스터를 잠정적 최종 클러스터로 결정하는 제1 단계; 및

상기 잠정적 클러스터에 포함된 샷들 간의 시간차들의 제1 분산 값을 생성하는 제2 단계

를 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제33항에 있어서, 상기 최종 클러스터를 결정하는 단계는,

상기 잠정적 최종 클러스터 이외의 클러스터들 중 하나를 선택하여, 상기 잠정적 최종 클러스터와 병합하는 제3 단계;

상기 병합된 클러스터에 포함된 샷들 간의 시간차들의 분산 값을 계산하는 제4 단계; 및

상기 잠정적 최종 클러스터 이외의 클러스터들 모두에 대하여 상기 제3 단계 내지 상기 제4 단계를 수행하여 계산한 분산 값 중 가장 작은 값을 제2 분산 값으로 결정하고, 상기 제2 분산 값이 계산된 상기 잠정적 최종 클러스터 이외의 클러스터를 제2 클러스터로 결정하는 제5 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제34항에 있어서, 상기 최종 클러스터를 결정하는 단계는,

상기 제2 분산 값이 상기 제1 분산 값보다 작으면, 상기 제2 클러스터 및 상기 잠정적 최종 클러스터를 병합하여 새 잠정적 최종 클러스터를 생성하는 제6 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제32항에 있어서,

상기 최종 클러스터로 결정된 복수 개의 클러스터들에 포함된 샷들 중 가장 많이 포함된 샷을 얼굴 모델 샷으로 결정하는 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제32항에 있어서,

상기 최종 클러스터에 포함된 샷들을 앵커가 등장하는 샷으로 결정하는 단계

를 더 포함하는 것을 특징으로 하는 동영상 데이터 처리 방법.
제16항 내지 제20항, 제23항, 제25항 내지 제37항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.