KR101658413B1

KR101658413B1 - 동영상에서의 인물 정보 추출방법 및 그 장치

Info

Publication number: KR101658413B1
Application number: KR1020090089782A
Authority: KR
Inventors: 김덕훈; 박희선
Original assignee: 삼성전자주식회사
Priority date: 2009-09-22
Filing date: 2009-09-22
Publication date: 2016-09-22
Also published as: KR20110032347A

Abstract

동영상에서 등장 인물을 추출하고 더 나아가 그 인물과 관련된 부가정보를 제공하는 방법 및 그 장치가 개시된다. 본 발명의 일 양상에 따른 동영상에서의 인물 정보 추출방법은, 입력된 동영상에서 얼굴특징 데이터를 추출하여 실질적으로 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성한 후 각 클러스터에 대응되는 인물을 결정한다. 이때 인물정보 데이터베이스 또는 자막/대본정보 데이터베이스를 구축할 수 있는데 이 정보를 자동으로 갱신하거나 관리할 수 있다. 이에 의해 동영상에서 등장하는 인물에 대한 정보를 실시간으로 제공받을 수 있고, 동영상에서의 인물 검색을 용이하게 할 수 있다.

동영상, 얼굴, 클러스터

Description

동영상에서의 인물 정보 추출방법 및 그 장치 {Apparatus and method for extracting character information in a motion picture}

영상 처리에 관련된 기술로, 보다 상세하게는 동영상에서 등장 인물을 추출하고 더 나아가 그 인물과 관련된 부가정보를 제공하는 방법 및 그 장치에 관한 것이다.

영화나 드라마와 같은 동영상에서는 주인공을 포함한 다양한 인물이 등장한다. 이러한 동영상에서 시간에 따라 어떤 인물이 등장하는지에 대한 정보를 자동으로 추출하거나, 각각의 인물이 등장하는 구간 또는 위치에 관한 정보를 알게 되면, 그 인물과 관련된 부가정보를 제공하기 편리할 뿐만 아니라 다양한 응용 서비스 제공에 효과적으로 활용할 수 있다.

종래에는 동영상에서 인물 정보를 추출하기 위해서, 다양한 종류의 동영상에서 미리 인물정보를 추출하여 데이터베이스를 구축하고, 이 구축된 정보와, 입력된 동영상에서 검출된 얼굴특징 데이터를 비교함으로써, 현재 입력된 동영상에 대한 인물정보를 추출한다. 그러나 동영상은 계속해서 무수히 많이 제작되고 있고 배우나 가수와 같은 인물도 계속해서 새로 등장하고 사라지는 상황에서, 모든 인물에 대한 데이터를 수집하여 데이터베이스를 구축한다는 것은 쉽지 않다.

본 발명의 일 양상에 따라, 동영상에서 등장 인물을 추출하고 더 나아가 그 인물과 관련된 부가정보를 제공하는 방법 및 그 장치를 제공하고자 한다.

본 발명의 일 양상에 따른 동영상에서의 인물 정보 추출방법은, 입력된 동영상에서 얼굴영역을 검출하고, 검출된 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따라 그룹화하는 단계와, 상기 그룹별로 각 그룹을 대표하는 얼굴특징 데이터를 적어도 하나 추출하고, 실질적으로 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성하는 단계 및 기 수집된 인물정보 데이터베이스 또는 자막/대본정보 데이터베이스를 검색하여, 이를 상기 클러스터별 얼굴특징 데이터와 비교함으로써, 상기 클러스터에 대응되는 인물을 결정하는 단계를 포함한다.

상기 클러스터를 형성하는 단계는, 상기 얼굴특징 대표 데이터들간의 거리를 기초로 정의된 밀도를 구하고, 그 밀도가 소정의 값보다 작은 대표 데이터는 제거하는 단계와, 상기 그룹들중에서, 실질적으로 동일한 배경에서 동일한 인물이라고 추정되는 적어도 하나의 그룹을 묶어 클러스터를 형성하는 단계를 포함하고, 상기 동영상의 특성에 따라, 상기 클러스터를 묶는 기준이 되는 임계값을 설정하는 단계와, 상기 임계값을 상기 클러스터들에 적용하여 최종 클러스터를 형성하는 단계를 더 포함할 수 있다.

또한, 웹을 통해 다수 인물에 대한 이미지를 수집하고, 각 이미지에 대해 얼굴특징 데이터를 추출함으로써 얻어진 인물정보들을 인물정보 데이터베이스에 저장할 수 있고, 웹을 통해 상기 동영상에 대한 대본과 자막을 수집하여, 소정의 알고리즘을 적용하여 대본과 자막을 정렬하고, 이를 자막/대본정보 데이터베이스에 저장할 수 있다.

한편, 본 발명의 다른 양상에 따른 동영상에서의 인물 정보 추출장치는, 입력된 동영상에서 얼굴영역을 검출하는 얼굴영역 검출부와, 상기 검출된 얼굴영역에서 얼굴특징 데이터를 추출하는 얼굴특징 데이터 추출부와, 상기 추출된 얼굴특징 데이터를 시간순서에 따라 그룹화하고, 상기 그룹별로 각 그룹을 대표하는 얼굴특징 데이터를 적어도 하나 추출하고, 실질적으로 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성하는 클러스터 형성부, 및 기 수집된 인물정보 데이터베이스 또는 자막/대본정보 데이터베이스를 검색하여, 이를 상기 클러스터별 얼굴특징 데이터와 비교함으로써, 상기 클러스터에 대응되는 인물을 결정하는 인물 결정부를 포함한다.

본 발명의 일 양상에 따르면, 동영상에서 등장하는 인물에 대한 정보를 실시간으로 제공받을 수 있고, 동영상에서의 인물 검색을 용이하게 할 수 있다. 또한 인물 정보를 추출하는데 사용되는 데이터베이스의 구축을 자동화함으로써, 인물 정보 추출을 위한 데이터베이스 구축에 드는 노력을 줄일 수 있다.

그리고, 추출된 인물 정보를 활용하여 그와 관련된 부가정보를 사용자에게 더 제공함으로써, 새로운 응용 서비스를 창출할 수 있을 뿐만 아니라 기존 서비스의 효과도 높일 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일실시예에 따른 인물 정보 추출 과정을 설명하기 위한 참조도이다.

동영상은 시간적으로 연속되는 일련의 프레임들(111, 112, 113)로 구성되므로, 먼저 각 프레임(111, 112, 113)에서 얼굴이 존재하는 영역(110)을 검출한다. 검출된 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따라 그룹화한 섹션(section)을 형성하고, 형성된 섹션들을 다시 묶어 클러스터(cluster)를 형성하여 각 클러스터별로 인물을 결정한다. 형성된 각각의 클러스터에 대해 인물을 결정하기 위해서는 인물정보 데이터베이스(140) 또는 자막/대본정보 데이터베이스(150)를 참조한다.

예를 들어, 동영상에서 "영희"라는 인물이 등장하면 얼굴영역검출 및 얼굴특 징 데이터 추출과정을 거치고, 인물정보 데이터베이스(140)에 저장된 "영희", "철수", "순이", "기영" 등의 인물의 얼굴특징 데이터와 비교하여, 동영상에서 추출된 인물이 "영희"라고 판단할 수 있다.

또 다른 예로는, 동영상의 자막/대본정보를 이용하여, 추출된 인물의 이름을 판단할 수 있다. 보다 상세하게 설명하면, 대본과 자막정보를 분석하면 어떤 등장인물이 어떤 구간에서 등장하는지에 대해 확인할 수 있으므로, 이 구간에 해당하는 클러스터에 대한 인물을 판단할 수 있다. 다시 말하면, 현재 동영상에서 어떤 인물이 "저는 일식이 일어날 것이라고 ..."라고 이야기하는 구간이 재생되고 있다고 하면, 자막/대본정보를 이용하여 해당 대사를 누가 이야기하는가를 알 수 있고(예, 덕만공주(영희)), 또한 해당 구간의 재생시간정보(예, 00:10:55,000 ~ 00:11:12,000)도 알 수 있다. 따라서 이 구간이 속하는 클러스터의 인물을 "영희"라고 판단할 수 있다.

한편, 이 두가지 방법은 각각 단독으로 사용되거나 동시에 적용될 수 있다. 일예로, 자막/대본정보 데이터베이스(150)를 참조하여 얻어진 인물에 대해서만 인물정보 데이터베이스(140)를 추가로 참조하여 인물 정보를 추출할 수 있다. 이하 도 2를 참조하여 동영상에서 인물정보를 추출하는 과정을 상세히 설명한다.

도 2는 본 발명의 일실시예에 따른 인물정보 추출방법의 플로우차트이다.

동영상을 입력받고(210), 이 입력된 동영상에서 얼굴영역을 검출하고 검출된 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따라 그룹화한다(220).

이를 보다 상세하게 설명하면, 입력된 동영상의 각 프레임별로 얼굴영역을 선정하고, 각 프레임별로 검출된 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따른 집합으로 그룹화한다. 이 얼굴특징 데이터의 그룹을 섹션(section)이라고 한다. 얼굴영역을 검출하는데 있어서, 현재 프레임의 이전 프레임에서의 얼굴영역 데이터를 참조하여 현재 프레임에서의 얼굴영역을 추적하여 추출하거나, 추적에 실패하는 경우에는 현재 프레임 자체에서 얼굴영역을 추출할 수 있다.

한편, 얼굴특징 데이터의 신뢰도를 향상시키기 위해서, 추출된 얼굴특징 데이터에 대해 기학학적 정규화 또는 밝기 정규화를 더 수행할 수 있다. 기하학적 정규화는 예를 들어 동공의 위치를 기반으로 하여 그 이산(흩어짐) 정도를 보정하는 것이고, 밝기 정규화는 프레임과 프레임간의 밝기차이를 보정하거나 한 프레임내에서의 영역에 따른 밝기차이를 보정하는 것이다.

그리고 나서, 추출된 얼굴특징 데이터에서 대표 데이터를 선정한다. 그 이유는 섹션에 속하는 모든 얼굴특징 데이터를 이용하면 컴퓨팅 자원이 소진될 수 있으므로 각 섹션별로 얼굴특징 대표 데이터를 선정하여 처리하기 위함이다. 대표 데이터의 선정은 예를 들어, 섹션내에서 랜덤하게 일정한 개수를 선정할 수도 있고, 섹션내에서의 얼굴특징 데이터들의 평균을 구하여 평균에 가까운 일정개수를 선정할 수도 있으며, 그 밖의 여러가지 방법을 적용할 수 있다.

다음으로, 각 섹션별로 선정된 얼굴특징 대표 데이터를 가지고, 실질적으로 동일한 얼굴특징을 갖는 적어도 하나의 그룹을 묶어 클러스터를 형성한다(230).

이를 보다 상세하게 설명하면, 섹션별로 얼굴특징 대표 데이터들간의 거리를 기초로 정의된 밀도를 구하고, 그 밀도가 일정한 값보다 작은 얼굴특징 대표 데이 터는 잡음(outlier)으로 보고 제거한다. 다음으로, 이렇게 제거하고 남은 얼굴특징 대표 데이터를 가지고 AHC(Agglomerative Hierarchical Clustering) 알고리즘을 적용한다. 그리고, 실질적으로 동일한 배경에서 동일한 인물이라고 추정되는 적어도 하나의 섹션을 묶어 클러스터를 형성한다. 예를 들어 동일한 환경에서는 인물의 옷이 바뀌지 않는다는 가정을 할 수 있으므로, 얼굴영역을 기준으로 얼굴영역 아래 부분이 유사한 섹션을 하나의 클러스터로 묶을 수 있다. 이렇게 생성된 클러스터는 자세와 표정에 따라 변화하는 한 인물의 다양한 얼굴특징들을 포함하므로 클러스터를 만드는 과정의 성능을 높일 수 있다. 이 때 묶이지 않은 섹션은 그 자체로 하나의 클러스터가 된다.

한편, 클러스터들을 병합하기 위해서, 일예로 K Nearest Neighbor 관점에서 산출된 평균밀도로부터 AHC(Agglomerative Hierarchical Clustering) 알고리즘에 필요한 임계값(threshold)를 설정한다. 예를 들어, 동영상이 입력되면 K Nearest Neighbor 관점에서의 평균밀도를 구하고, 이를 가지고 임계값을 미리 설정한다. 이렇게 설정된 임계값을 가지고 위의 단계에서 생성된 클러스터들에 대해 AHC 알고리즘을 적용한다. 다시 말하면, 거리값이 가장 작은 두 클러스터를 한 클러스터로 병합하는 과정을 반복적으로 수행하는데, 거리값이 위에서 설정된 임계값보다 큰 경우에는 병합을 하지 않고 각각 개별적인 클러스터로 남겨둔다.

이상과 같이 클러스터가 최종적으로 결정되었으면, 기 수집된 인물정보 데이터베이스(140) 또는 인물의 자막/대본정보 데이터베이스(150)를 참조하여, 이를 클러스터별 얼굴특징 데이터와 비교함으로써, 각 클러스터에 대응되는 인물을 결정한 다(240).

인물정보 데이터베이스(140)는 웹을 통해 다수 인물에 대한 이미지를 수집하고, 각 이미지에 대해 얼굴특징 데이터를 추출함으로써 얻어진 인물정보들을 저장한다. 그리고 자막/대본정보 데이터베이스(150)는 웹을 통해 동영상에 대한 대본과 자막을 수집하고, 일예로 DTW(Dynamic Time Warping) 알고리즘을 적용하여 대본과 자막을 정렬하여 저장한다. 이때 한글 자막/대본인 경우에는 띄어쓰기 및 구두점을 제거하고 글자 단위로 DTW 알고리즘을 적용할 수 있다.

인물정보 데이터베이스(140)의 구축에 대해 보다 상세하게 설명하면 다음과 같다. 우선 웹을 통해 동영상에서 등장하는 인물의 이미지를 수집한다. 예를 들어 동영상에는 그 동영상에 관한 정보를 EPG(Electronic Program Guide) 등을 통해 제공할 수 있는데, 이 EPG 정보에는 등장인물에 대한 정보도 포함될 수 있다. 등장인물에 대한 정보가 인물정보 데이터베이스(140)에 저장되어 있지 않으면 웹을 통해 그에 대한 정보를 수집하고, 필요에 따라 이 수집 및 구축절차는 수시로 수행될 수 있다.

등장인물의 이미지는 일예로, 웹 포탈에서 제공하는 Open API(Application Programming Interface)를 이용하여 수집될 수 있다. 수집된 이미지에 대하여 전술한 바와 같은 얼굴영역 검출을 수행하고, 얼굴특징 데이터를 추출한다. 그리고, 얼굴특징들 사이의 거리로 정의된 밀도를 기반으로 잡음(outlier)을 제거한다. 여기서 잡음은 웹을 통해 수집된 이미지 중에서 해당 인물이 아닌 얼굴특징 데이터를 의미한다. 만일 일예로 Open API를 사용하여 이미지를 수집하는 경우, Open API는 인물 이름이 존재하는 웹 페이지에 포함된 모든 이미지들의 링크를 제공하기 때문에 다른 인물의 이미지들이 수집될 수 있다. 따라서 잡음이 포함될 수 있으므로 위와 같은 절차에 따라 잡음을 제거하는 것이다.

잡음이 제거된 얼굴특징 데이터들에 대하여 전술한 바와 같은 AHC 알고리즘을 기반으로 클러스터링을 수행하여 소정의 개수 이하의 얼굴특징 데이터를 가지고 각각의 인물에 대한 인물정보를 구축한다. 여기서 얼굴 특징 데이터의 수를 제한하는 것은 동영상에서 산출된 클러스터에 대해 등장인물을 대응시키는 시간을 단축하기 위함이다. 일예로 한 인물에 대해 30개 이하의 얼굴특징을 가지고 인물정보를 구축할 수 있다.

240 단계에서는 이렇게 구축된 인물정보 데이터베이스를 각 클러스터에 대해 적용한다. 다시 말하면, 각 클러스터에 포함된 각각의 섹션마다 K Nearest Neighbor 관점에서 거리가 작은 인물들을 구하고 가장 빈번하게 나타난 인물 이름을 클러스터에 지정한다. 한편, 클러스터에 지정된 인물보다 다른 인물과의 거리가 임계값보다도 작은 섹션은 다른 인물의 클러스터로 이동시킴으로써 오차를 보정할 수 있다.

다음으로, 자막/대본정보 데이터베이스(150)의 구축에 대해 보다 상세하게 설명하면 다음과 같다.

도 3은 본 발명의 일실시예에 따른 자막과 대본의 정렬을 설명하기 위한 참조도이다.

자막(310)과 대본(320)간의 정렬이 이루어진 자막/대본정보 데이터베이 스(150)를 구축하기 위해서는, 웹을 이용하여 인터넷에서 자막(310)과 대본(320)을 수집한다. 일반적으로 대본(320)에는 인물 이름(322)과 대사(324)가 제공되고, 자막(310)에는 대사의 시작 시점과 끝 시점정보(312)가 대사와 함께 제공된다.

따라서, 대본(320)과 자막(310) 사이에 동일한 대사를 찾으면 등장인물의 대사구간을 얻을 수 있다. 그러나, 대본(320)에 있는 대사와 다소 다르게 등장인물이 말하는 경우 또는, 대본(320)에 없는 대사를 등장인물이 말하는 경우 또는, 편집에 의하여 대본(320)과 자막(310)이 일치하는 않는 경우 등이 발생할 수 있고, 이로 인하여 동일한 대사를 찾는 방법만으로는 대본(320)과 자막(310) 사이의 대응관계를 파악할 수 없는 경우가 발생할 수 있다.

따라서 본 발명의 일실시예에서는 대본(320)과 자막(310)의 대사를 시간에 따라 변하는 값으로 간주하고, 시간에 따라 변하는 값들 사이의 대응관계를 밝힌다. 이를 위해 일예로 DTW(Dynamic Time Warping) 알고리즘을 적용하여 대본(320)과 자막(310)을 정렬할 수 있다. 대사가 영어인 경우에는 단어들 사이의 유사도를 기반으로 DTW 알고리즘을 적용할 수 있는데, 대사가 한글인 경우에는 동일한 단어가 대본(320)과 자막(310)에서 다르게 표현되는 경우가 빈번하기 때문에 단어 단위로 DTW 알고리즘을 적용할 수 없다. 한글 대사에서 동일한 단어가 다르게 표현되는 경우가 빈번한 이유는, 한글에서는 맞춤법과 띄어쓰기가 엄격하게 지켜지지 않아도 뜻이 통하기 때문이다. 따라서, 한글의 경우에는 띄어쓰기, 구두점을 모두 제거하고 글자 단위로 DTW 알고리즘을 적용한다. 한글과 유사한 특성을 갖는 언어에서도 위와 같은 방법이 적용될 수 있다.

일예로 DTW 알고리즘을 적용하여 등장인물의 대사구간이 얻어지면 섹션과의 비교를 통하여 섹션과 겹치는 대사구간의 등장인물을 후보인물로 수집한다. 그리고 등장인물의 대사구간 근처의 다른 대사구간에서도 후보인물을 추가적으로 수집하는데, 이는 등장인물의 대사구간에 다른 인물이 화면에 나타나는 경우를 처리하기 위함이다. 자막/대본정보 데이터베이스(150)를 참조하여 클러스터에 대한 인물을 결정하는 것은 클러스터에 포함된 각각의 섹션에서 수집된 인물 이름들 중에서 가장 빈번하게 나타난 인물 이름을 클러스터에 지정할 수 있다. 이 때 후보인물이 존재하면서 클러스터에 지정된 인물과 겹치지 않는 섹션은 다른 인물의 클러스터에 속할 수 있다. 한편, 입술의 움직임을 분석하여 화면에 나타난 인물이 말하고 있는지 여부를 판단할 수도 있다.

한편 전술한 과정을 거쳐서 결정된 인물에 대한 부가정보가 더 제공될 수 있다(250). 예를 들어, 클러스터에 대응되는 인물이 결정되었으면, 동영상 재생화면의 일부에 해당 인물이 등장하는 광고영상이 디스플레이 되도록 하거나, 인물에 대한 상세정보를 보여주거나 하는 등의 여러가지 응용 서비스를 제공할 수 있다.

도 4는 본 발명의 일실시예에 따른 인물정보 추출장치의 구성도이다.

본 발명의 일실시예에 따른 인물정보 추출장치는 얼굴영역 검출부(410), 얼굴특징 데이터 추출부(420), 클러스터 형성부(430) 및 인물 결정부(440)를 포함한다. 인물 결정부(440)에서는 인물정보 데이터베이스(140) 또는 자막/대본 정보 데이터베이스(150)를 참조한다.

얼굴영역 검출부(410)는 입력된 동영상에서 얼굴영역을 검출한다. 얼굴영역 의 검출은 입력된 동영상의 각 프레임별로 얼굴영역을 선정하되, 현재 프레임의 이전 프레임에서의 얼굴영역 데이터를 고려하여 현재 프레임에서의 얼굴영역을 추적하여 추출하거나, 추적에 실패하는 경우에는 현재 프레임 자체에서 얼굴영역을 추출할 수 있다.

얼굴특징 데이터 추출부(420)는 이렇게 검출된 얼굴영역에서 얼굴특징 데이터를 추출한다.

클러스터 형성부(430)는 추출된 얼굴특징 데이터를 시간순서에 따라 그룹화하고, 각각의 그룹별로 각 그룹을 대표하는 얼굴특징 데이터를 적어도 하나 추출하고, 실질적으로 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성한다.

이때 추출된 얼굴특징 데이터를 그룹화한 이후에, 추출된 얼굴특징 데이터에 대해 기학학적 정규화 또는 밝기 정규화를 수행하고, 정규화 수행된 얼굴특징 데이터에서, 각각의 그룹별로 각 그룹을 대표하는 얼굴특징 대표 데이터를 적어도 하나 선정할 수 있다. 그리고, 얼굴특징 대표 데이터들간의 거리를 기초로 정의된 밀도를 구하고, 그 밀도가 특정한 값보다 작은 대표 데이터는 제거한다. 또한 실질적으로 동일한 배경에서 동일한 얼굴이라고 추정되는 적어도 하나의 그룹을 묶어 클러스터를 형성할 수 있다. 그리고, 동영상의 특성에 따라, AHC(Agglomerative Hierachical Clustering) 알고리즘을 적용하여 이들 클러스터를 묶는 기준이 되는 임계값을 설정하고, AHC 알고리즘을 클러스터들에 적용하여 최종 클러스터를 형성한다.

인물 결정부(440)는 기 수집된 인물정보 데이터베이스(140) 또는 자막/대본 정보 데이터베이스(150)를 검색하여, 이를 클러스터별 얼굴특징 데이터와 비교함으로써, 각 클러스터에 대응되는 인물을 결정한다.

인물정보 데이터베이스(140)는, 웹을 통해 다수 인물에 대한 이미지를 수집하고, 각 이미지에 대해 얼굴특징 데이터를 추출함으로써 얻어진 인물정보들을 저장한다. 자막/대본정보 데이터베이스(150)는, 웹을 통해 동영상에 대한 대본과 자막을 수집하여, DTW(Dynamic Time Warping) 알고리즘과 같은 알고리즘을 적용하여 대본과 자막을 정렬하고 이를 저장한다. 이때, 대사에서의 띄어쓰기 및 구두점을 제거하고 글자 단위로 DTW 알고리즘을 적용할 수 있다.

한편, 본 발명의 일실시예에 따른 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명의 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 일실시예에 따른 인물 정보 추출 과정을 설명하기 위한 참조도,

도 2는 본 발명의 일실시예에 따른 인물정보 추출방법의 플로우차트,

도 3은 본 발명의 일실시예에 따른 자막과 대본의 정렬을 설명하기 위한 참조도,

<도면의 주요부분에 대한 설명>

410 : 얼굴영역 검출부 420 : 얼굴특징 데이터 추출부

430 : 클러스터 형성부 440 : 인물 결정부

140 : 인물정보 데이터베이스 150 : 자막/대본정보 데이터베이스

Claims

입력된 동영상에서 얼굴영역을 검출하고, 검출된 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따라 그룹화하는 단계;

상기 동영상의 특성에 따라 클러스터를 묶는 기준이 되는 임계값을 설정하는 단계;

상기 그룹별로 각 그룹을 대표하는 얼굴특징 데이터를 적어도 하나 추출하고, 상기 설정된 임계값을 상기 그룹들에 적용하여 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성하는 단계; 및

기 수집된 인물정보 데이터베이스 또는 자막/대본정보 데이터베이스를 검색하여, 이를 상기 클러스터별 얼굴특징 데이터와 비교함으로써, 상기 클러스터에 대응되는 인물을 결정하는 단계를 포함하는 동영상에서의 인물 정보 추출방법.
제1항에 있어서, 상기 그룹화하는 단계는

상기 입력된 동영상의 각 프레임별로 얼굴영역을 선정하는 단계; 및

상기 프레임별로 얻어진 얼굴영역에서 얼굴특징 데이터를 추출하여 시간순서에 따른 집합으로 그룹화하는 단계를 포함하는 동영상에서의 인물 정보 추출방법.
제2항에 있어서, 상기 얼굴영역을 선정하는 단계는

현재 프레임의 이전 프레임에서의 얼굴영역 데이터를 고려하여 현재 프레임에서의 얼굴영역을 추적하여 추출하거나, 추적에 실패하는 경우에는 현재 프레임 자체에서 얼굴영역을 추출하는 동영상에서의 인물 정보 추출방법.
제2항에 있어서, 상기 추출된 얼굴특징 데이터를 그룹화한 이후에

상기 추출된 얼굴특징 데이터에 대해 기학학적 정규화 또는 밝기 정규화를 수행하는 단계; 및

상기 정규화 수행된 얼굴특징 데이터에서, 상기 그룹별로 각 그룹을 대표하는 얼굴특징 대표 데이터를 적어도 하나 선정하는 단계를 더 포함하는 동영상에서의 인물정보 추출방법.
제1항에 있어서, 상기 클러스터를 형성하는 단계는

상기 얼굴특징 대표 데이터들간의 거리를 기초로 정의된 밀도를 구하고, 그 밀도가 소정의 값보다 작은 대표 데이터는 제거하는 단계;

상기 그룹들 중에서, 동일한 배경에서 동일한 인물이라고 추정되는 적어도 하나의 그룹을 묶는 단계를 더 포함하는 동영상에서의 인물 정보 추출방법.
제5항에 있어서,

AHC(Agglomerative Hierarchical Clustering) 알고리즘을 적용하여 상기 클러스터들을 병합함으로써 최종 클러스터를 형성하는 동영상에서의 인물 정보 추출방법.
제1항에 있어서,

웹을 통해 다수 인물에 대한 이미지를 수집하고, 각 이미지에 대해 얼굴특징 데이터를 추출함으로써 얻어진 인물정보들을 상기 인물정보 데이터베이스에 저장하는 동영상에서의 인물 정보 추출방법.
제1항에 있어서,

웹을 통해 상기 동영상에 대한 대본과 자막을 수집하여, 소정의 알고리즘을 적용하여 대본과 자막을 정렬하고, 이를 상기 자막/대본정보 데이터베이스에 저장하는 동영상에서의 인물 정보 추출방법.
제8항에 있어서,

상기 소정의 알고리즘은 DTW(Dynamic Time Warping) 알고리즘이며, 대사에서의 띄어쓰기 및 구두점을 제거하고 글자 단위로 상기 DTW 알고리즘을 적용하는 동영상에서의 인물 정보 추출방법.
제1항에 있어서,

상기 클러스터에 대해 결정된 인물에 대한 부가정보를 제공하는 단계를 더 포함하는 동영상에서의 인물 정보 추출방법.
입력된 동영상에서 얼굴영역을 검출하는 얼굴영역 검출부;

상기 검출된 얼굴영역에서 얼굴특징 데이터를 추출하는 얼굴특징 데이터 추출부;

상기 추출된 얼굴특징 데이터를 시간순서에 따라 그룹화하고, 상기 그룹별로 각 그룹을 대표하는 얼굴특징 데이터를 적어도 하나 추출하고, 상기 동영상의 특성에 따라, 클러스터를 묶는 기준이 되는 임계값을 설정하고, 상기 설정된 임계값을 상기 그룹들에 적용하여 동일한 얼굴특징을 갖는 그룹을 묶어 클러스터를 형성하는 클러스터 형성부; 및

기 수집된 인물정보 데이터베이스 또는 자막/대본정보 데이터베이스를 검색하여, 이를 상기 클러스터별 얼굴특징 데이터와 비교함으로써, 상기 클러스터에 대응되는 인물을 결정하는 인물 결정부를 포함하는 동영상에서의 인물 정보 추출장치.
삭제
제11항에 있어서, 상기 클러스터 형성부는

AHC(Agglomerative Hierarchical Clustering) 알고리즘을 적용하여 상기 클러스터들을 병합해 감으로써 클러스터를 형성하는 동영상에서의 인물 정보 추출장치.
제11항에 있어서,

웹을 통해 다수 인물에 대한 이미지를 수집하고, 각 이미지에 대해 얼굴특징 데이터를 추출함으로써 얻어진 인물정보들을 저장하는 인물정보 데이터베이스를 더 포함하는 동영상에서의 인물 정보 추출장치.
제11항에 있어서,

웹을 통해 상기 동영상에 대한 대본과 자막을 수집하여, 소정의 알고리즘을 적용하여 대본과 자막을 정렬하고 이를 저장하는 자막/대본정보 데이터베이스를 더 포함하는 동영상에서의 인물 정보 추출장치.
제15항에 있어서,

상기 소정의 알고리즘은 DTW(Dynamic Time Warping) 알고리즘이며, 대사에서의 띄어쓰기 및 구두점을 제거하고 글자 단위로 상기 DTW 알고리즘을 적용하는 동영상에서의 인물 정보 추출장치.