KR100792016B1 - 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 - Google Patents

오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 Download PDF

Info

Publication number
KR100792016B1
KR100792016B1 KR1020060069845A KR20060069845A KR100792016B1 KR 100792016 B1 KR100792016 B1 KR 100792016B1 KR 1020060069845 A KR1020060069845 A KR 1020060069845A KR 20060069845 A KR20060069845 A KR 20060069845A KR 100792016 B1 KR100792016 B1 KR 100792016B1
Authority
KR
South Korea
Prior art keywords
unit
face
speaker
character
video
Prior art date
Application number
KR1020060069845A
Other languages
English (en)
Inventor
백중환
이순탁
김종성
Original Assignee
한국항공대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국항공대학교산학협력단 filed Critical 한국항공대학교산학협력단
Priority to KR1020060069845A priority Critical patent/KR100792016B1/ko
Application granted granted Critical
Publication of KR100792016B1 publication Critical patent/KR100792016B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20052Discrete cosine transform [DCT]

Abstract

본 발명은 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 기술을 제공하는 것으로, 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 화자 인식부와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 얼굴 인식부와; 화자 인식부에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 얼굴 인식부에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 비디오 요약부;를 포함하여 구성함으로서, 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공할 수 있게 되는 것이다.
오디오, 비디오, 등장인물, 비디오 요약, 청각 정보, 시각 정보,

Description

오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법{Apparatus and method for character based video summarization by audio and video contents analysis}
도 1은 본 발명의 일 실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치의 블록구성도이다.
도 2는 도 1에서 화자 인식부의 상세블록도이다.
도 3은 도 2에서 화자 인식부에서의 음향분석을 통한 화자중심 비디오 요약의 개요를 보인 개념도이다.
도 4는 도 2에서 SONE 변환부의 상세블록도이다.
도 5는 도 2에서 MFCC 추출부의 상세블록도이다.
도 6은 도 1에서 얼굴 인식부의 상세블록도이다.
도 7은 본 발명의 일 실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 방법을 보인 흐름도이다.
도 8은 도 7에서 ST1의 상세흐름도이다.
도 9는 도 7에서 ST2의 상세흐름도이다.
도 10은 본 발명에서 사용하는 M개의 가우시안 혼합 모델에 대한 개념도이 다.
도 11은 본 발명에서 음성 검출의 후처리 과정을 보인 개념도이다.
도 12는 본 발명에서 화자 인식의 후처리 과정을 보인 개념도이다.
도 13은 본 발명에서 피부색의 훈련 샘플을 추출한 예를 보인 것으로, (a)는 원 영상이고, (b)는 피부색 추출을 위한 마스크를 보인 도면이다.
도 14는 본 발명에서 피부색 검출 결과를 보인 것으로, (a)는 원 영상이고, (b)는 8x8 블록에 대해서 피부색 검출 후의 이진화 영상을 보인 도면이다.
도 15는 도 14에서 투영을 이용한 영역을 분할을 보인 것으로, (a)는 전체 영상에 대한 투영 결과이고, (b)는 각 분할 영역에 대한 2차 투영 결과를 보인 도면이다.
도 16은 본 발명에서 탐색 과정과 얼굴 영역의 검출 결과를 보인 것으로, (a)는 입력 영상이고, (b)는 피부색 검출 후의 이진화 영상 및 분할 영역이며, (c)는 초기 탐색 창이고, (d)는 탐색 과정의 중간 단계이며, (e)는 후보 영역에 대해서 얼굴 영역을 검출한 결과이고, (f)는 원 영상과 얼굴 영역으로 검출한 탐색창을 보인 도면이다.
도 17은 본 발명에서 SGLD 매트릭스로부터 추출된 inertial, inverse difference, correlation 등의 질감 특성을 보인 도면이다.
도 18은 본 발명에서 배열의 인덱싱 및 1차원 변환 순서를 보인 것으로, (a)는 BI(m, n), BD(m, n), BC(m, n)의 m, n에 대한 인덱싱이고, (b)는 각 요소들의 1 차원 나열 순서를 보인 도면이다.
도 19는 본 발명에서 전체 영상에 대한 (m, n) 국부 영역의 BC(m, n) 배열의 동질성에 관한 특성을 보인 도면이다.
도 20은 본 발명에서 얼굴 영상에 대하여 전처리된 영상의 BI(m, n), BD(m, n), BC(m, n) 배열의 예를 보인 도면이다.
도 21은 본 발명에서 시간별 얼굴영역 프레임의 수를 보인 도면이다.
도 22는 본 발명에 대한 실험을 위한 데이터 환경을 보인 표이다.
도 23은 도 22의 실험 데이터 D1에 대한 화자 중심 비디오 요약을 보인 표이다.
도 24는 도 22의 실험 데이터 D2에 대한 화자 중심 비디오 요약을 보인 표이다.
도 25는 도 22의 실험 데이터 D3에 대한 화자 중심 비디오 요약을 보인 표이다.
도 26은 도 23 내지 도 25에서의 화자 중심의 비디오 요약의 성능을 분석한 표이다.
도 27은 본 발명에 대한 실험에서 얼굴 영역 검출 결과를 보인 표이다.
도 28은 본 발명에 대한 실험에서 실험 비디오에 대한 얼굴 인식 결과를 표인 표이다.
도 29는 도 22의 실험 데이터 D1에 대한 등장인물 기반 비디오 요약을 보인 표이다.
도 30은 도 22의 실험 데이터 D2에 대한 등장인물 기반 비디오 요약을 보인 표이다.
도 31은 도 22의 실험 데이터 D3에 대한 등장인물 기반 비디오 요약을 보인 표이다.
도 32는 도 29 내지 도 31의 등장인물 기반 비디오 요약의 성능을 분석한 표이다.
* 도면의 주요 부분에 대한 부호의 설명 *
100 : 화자 인식부 110 : SONE 변환부
111 : FFT 112 : 외이 모델링부
113 : 바크 스케일링부 114 : 마스킹부
115 : SONE 계산부 120 : K-NN 분류부
130 : 음성신호 추출부 140 : MFCC 추출부
141 : 제 1 곱셈부 142 : FFT
143 : 절대값 변환부 144 : 제 2 곱셈부
145 : 멜에너지 출력부 146 : DCT
150 : GMM 분류부 160 : 후처리부
200 : 얼굴 인식부 210 : 피부색 검출부
220 : 후보군 선정부 230 : 얼굴영역 탐색부
240 : SGLD 매트릭스 250 : 얼굴인식 처리부
300 : 비디오 요약부
본 발명은 등장인물 기반 비디오 요약에 관한 것으로, 특히 비디오 데이터 요약(Video Summarization) 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공하기에 적당하도록 한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법에 관한 것이다.
일반적으로 비디오 데이터 요약(Video Summarization) 방식은 사용자가 원하는 정보를 사용자 환경에 맞추어 최대한 빠르게 전달할 수 있는 기술이다.
최근에는 전자, 통신 및 컴퓨터 기술의 빠른 발전으로 인하여 이미지, 동영상, 그리고 음성 데이터와 같은 멀티미디어 데이터로 생성되는 정보의 양이 폭발적으로 증가하였다. 이러한 기술 발전은 멀티미디어 데이터를 효과적으로 저장, 관리 및 검색 할 수 있는 기술에 대한 요구가 생겨나게 하였다. 또한, 최근에 도입되는 유비쿼터스(Ubiquitous) 환경은 다양한 형태의 단말기를 통하여 멀티미디어 데이터베이스를 사용하기 위해 접근 가능하도록 하였다.
유비쿼터스 환경의 경우 전용선을 이용하는 개인용 컴퓨터와 같이 높은 해상도, 빠른 연산능력, 풍부한 전원 및 빠른 통신 속도를 가지는 좋은 환경에서 접속 할 수도 있지만, PDA(portable Display Adapter)나 핸드폰 같은 낮은 해상도, 느린 연산능력, 제한된 전원 및 느린 통신 속도에서 원하는 정보를 검색하려는 사용자의 요구도 수용 할 수 있어야 한다. 그러므로 사용자가 원하는 정보를 사용자 환경에 맞추어 최대한 빠르게 전달하기 위하여 접속한 단말에 특성을 고려하여 멀티미디어 데이터를 요약하고 변환하여 주는 기술이 필요하다.
멀티미디어 데이터는 정지 영상, 동영상, 그래픽, 애니메이션, 소리, 음악 그리고 텍스트 등의 다양한 미디어들로 구성되어 있다. 이러한 데이터 내에 포함된 정보는 기존의 문자 위주의 정보보다 포함된 정보량이 비교 할 수 없을 만큼 방대하여 기존의 주석 기반으로 멀티미디어 데이터의 검색은 객관적인 키워드 검출이나 표현 등에서 곤란한 부분이 많다. 그러나 내용 기반 검색은 멀티미디어 데이터 내의 이미지와 비디오 등에 대해서는 색상, 윤곽선(edge), 모양 등의 특징으로, 음악이나 음성 등에 대해서는 음절, 악기 소리 등의 특징으로, 그리고 텍스트의 특징으로 데이터베이스에 객관적이고 쉬운 검색 환경을 제공할 수 있다.
이러한 내용 기반 멀티미디어 정보 검색은 텍스트 데이터, 멀티미디어 데이터의 저장과 관리를 위한 대규모 멀티미디어 데이터베이스 정보 구축 기술, 멀티미디어 정보 검색 기술, 다양한 사용자 그룹을 위한 사용자 인터페이스 기술, 멀티미디어 데이터를 효과적으로 사용자에게 제공하기 위한 자연언어, 영상 인식, 음성인식 기술, 그리고 분류(classification and clustering) 기술 등 다양한 정보 기술 분야를 포함하고 있다.
멀티미디어 정보 검색은 향후 멀티미디어 서비스의 질적 향상과 서비스 제공자가 소유하고 있는 컨텐츠(contents)의 부가가치를 크게 높여주어 멀티미디어 서 비스산업 분야에 필수적인 기술로 부각될 것이다. 예를 들면, 새롭게 특정 배우에 대한 관심이 생겨서 그 배우가 출연하는 다양한 비디오 클립을 원한다고 가정해 보자. 기존의 텍스트 기반의 데이터베이스 시스템에서는 서비스 사용자는 직접 그 배우가 어떤 작품에 출연하였는지 검색하고 관련 비디오 클립을 취득하거나, 서비스 제공자가 직접 배우가 출연하는 작품을 정리하여 데이터베이스로 만들어 사용자에게 제공하여야 한다.
이에 대해 멀티미디어 데이터베이스 환경에서는 사용자는 배우의 얼굴을 질의어로 사용하여 그 배우가 등장하는 작품명을 검색할 필요 없이 다양한 비디오 클립을 제공받을 수 있고, 서비스 제공자 역시 사람이 직접 배우의 데이터베이스를 구축하는 부가적인 비용 및 수작업으로 인한 오류 가능성을 줄여 제공하는 서비스의 부가가치를 높일 수 있다. 이와 같이 멀티미디어 정보 검색의 응용 범위는 넓고, 그 활용 범위는 증가하고 있으며 보다 효율적인 정보 검색 및 관리 기술이 꾸준히 연구되어져야 한다.
그러나 종래에는 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약은 제공하지 못한 한계가 있었다.
이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공할 수 있는 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 일실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치는, 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 화자 인식부와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 얼굴 인식부; 및 화자 인식부에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 얼굴 인식부에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 비디오 요약부;를 포함하여 이루어짐을 그 기술적 구성상의 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명의 일실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 방법은, 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 제 1 단계와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 제 2 단계; 및 제 1 단계에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 제 2 단계에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 제 3 단계;를 포함하여 수행함을 그 기술적 구성상의 특징으로 한다.
이하, 상기와 같은 본 발명, 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법의 기술적 사상에 따른 일실시예를 도면을 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 일 실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치의 블록구성도이다.
이에 도시된 바와 같이, 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 화자 인식부(110)와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 얼굴 인식부(200); 및 화자 인식부(100)에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 얼굴 인식부(200)에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 비디오 요약부(300);를 포함하여 구성된다.
도 2는 도 1에서 화자 인식부의 상세블록도이고, 도 3은 도 2에서 화자 인식부에서의 음향분석을 통한 화자중심 비디오 요약의 개요를 보인 개념도이다.
이에 도시된 바와 같이, 화자 인식부(100)는, 음성 검출을 위한 특징값으로 잘게 나누어진 국부 대역에서의 신호의 세기를 SONE(Specific Loudness Sensation)로 변환하여 표시하는 SONE 변환부(110)와; SNOE 변환부(110)에서 변환된 SONE를 특징값으로 하여 K-NN(K-nearest neighbo) 분류를 수행하는 K-NN 분류부(120)와; 입력된 시그널(Signal)에서 음성신호를 추출하는 음성신호 추출부(130)와; 음성신호 추출부(130)와 K-NN 분류부(120)의 결과를 입력받아 MFCC(Mel-Frequency Ceptrum Coefficient)를 추출하는 MFCC 추출부(140)와; MFCC 추출부(140)의 결과를 입력받아 GMM(Gaussian Mixture Model) 분류를 수행하는 GMM 분류부(150); 및 GMM 분류부(150)의 결과를 입력받아 후처리를 수행하여 화자 인식 결과를 출력하는 후처리부(160);를 포함하여 구성된다.
도 4는 도 2에서 SONE 변환부의 상세블록도이다.
이에 도시된 바와 같이, SONE 변환부(110)는, 음향 신호를 입력받아 FFT(Fast Fourier Transform, 고속 푸리에 변환)를 수행하는 FFT(111)와; FFT(111)의 출력을 입력받아 외이 모델링을 사용하여 주파수 도메인에서의 신호에 가중치를 달리하는 외이 모델링부(112)와; 외이 모델링부(112)의 출력을 입력받아 여러 개의 국부 대역으로 나누는 바크 스케일링(Bark Scaling)부(113)와; 바크 스케이링부(113)에서 나누어진 각각의 대역에 속하는 신호의 세기에 마스킹(Masking)을 취하는 마스킹부(114); 및 마스킹부(114)의 출력을 입력받아 각 대역의 신호를 SONE의 도메인으로 변환시켜 SONE 계산을 수행하는 SONE 계산부(115);를 포함하여 구성된 다.
도 5는 도 2에서 MFCC 추출부의 상세블록도이다.
이에 도시된 바와 같이, MFCC 추출부(140)는, 윈도우 w[n]을 이용하여 입력된 음성 신호를 분할하는 제 1 곱셈부(141)와; 제 1 곱셈부(141)의 출력을 주파수 변환시키는 FFT(142)와; FFT(142)의 출력에 대해 절대값을 취하는 절대값 변환 부(143)와; 절대값 변환부(143)의 출력에 대해 주파수 응답을 곱하는 제 2 곱셈부(144)와; 제 2 곱셈부(144)의 출력에 대해 다양한 대역폭을 갖는 필터들의 균일한 스펙트럼을 위한 정규화 과정을 수행하여 멜에너지를 출력하는 멜에너지 출력부(145); 및 멜에너지 출력부(145)에서 출력되는 멜에너지를 이산여현변환(discrete cosine transform, DCT)하여 멜 켑스트럼(mel cepstrum)을 출력하는 DCT(146);를 포함하여 구성된다.
도 6은 도 1에서 얼굴 인식부의 상세블록도이다.
이에 도시된 바와 같이, 얼굴 인식부(200)는, 시각 정보를 입력받아 피부색을 검출하는 피부색 검출부(210)와; 피부색 검출부(210)에서 검출된 피부색에 대해 후보군을 선정하는 후보군 선정부(220)와; 후보군 선정부(220)에서 선정된 후보군을 이용하여 얼굴영역을 탐색하여 임의의 영상이 얼굴을 포함하고 있는지에 관한 여부를 결정하고 각 얼굴 영역에 대한 위치와 크기를 파악하는 얼굴영역 탐색부(230)와; 얼굴영역 탐색부(230)의 결과를 입력받아 SGLD 질감 특징을 추출하여 얼굴 영역 이미지를 검출하는 SGLD 매트릭스(240); 및 SGLD 매트릭스(240)의 출력을 입력받아 얼굴 인식을 처리하는 얼굴인식 처리부(250);를 포함하여 구성된다.
피부색 검출부(210)는 베이스 분류기를 이용한다.
후보군 선정부(220)는 미디언 필터를 이용한다.
얼굴영역 탐색부(230)는 사각형의 탐색창을 이용한다.
SGLD 매트릭스(240)는 CART 분류기를 사용한다.
얼굴인식 처리부(250)는 PCA를 사용한다.
얼굴인식 처리부(250)는 고유얼굴을 추출한다.
얼굴인식 처리부(250)는 MPM 분류기를 사용한다.
도 7은 본 발명의 일 실시예에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 방법을 보인 흐름도이다.
이에 도시된 바와 같이, 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 제 1 단계(ST1)와; 시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 제 2 단계(ST2); 및 제 1 단계에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 제 2 단계에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 제 3 단계(ST3);를 포함하여 구성된다.
도 8은 도 7에서 ST1의 상세흐름도이다.
이에 도시된 바와 같이, 제 1 단계는, SONE를 특징값으로 하여 K-NN 분류기를 사용하여 음성 부분을 추출하는 제 11 단계(ST11)와; 제 11 단계 후 추출된 음성에서 MFCC를 특징값으로 추출하는 제 12 단계(ST12); 및 제 12 단계 후 GMM과 보팅 방식을 사용하여 화자 인식을 수행하는 제 13 단계(ST13);를 포함하여 구성된 다.
도 9는 도 7에서 ST2의 상세흐름도이다.
이에 도시된 바와 같이, 제 2 단계는, 시각 정보를 입력받아 피부색을 검출하는 제 21 단계(ST21)와; 제 21 단계에서 검출된 피부색에 대해 후보군을 선정하는 제 22 단계(ST22)와; 제 22 단계에서 선정된 후보군을 이용하여 얼굴영역을 탐색하여 임의의 영상이 얼굴을 포함하고 있는지에 관한 여부를 결정하고 각 얼굴 영역에 대한 위치와 크기를 파악하는 제 23 단계(ST23)와; 제 23 단계의 결과를 입력받아 SGLD 질감 특징을 추출하여 얼굴 영역 이미지를 검출하는 제 24 단계(ST24); 및 제 24 단계의 출력을 입력받아 얼굴 인식을 처리하는 제 25 단계(ST25);를 포함하여 구성된다.
제 21 단계는 베이스 분류기를 이용한다.
제 22 단계는 미디언 필터를 이용한다.
제 23 단계는 사각형의 탐색창을 이용한다.
제 24 단계는 CART 분류기를 사용한다.
제 25 단계는 검출된 영역에서 PCA 기법을 이용하여 고유얼굴을 구성하고, 중요특징값 추출 후 MPM 방식을 이용하여 분류한다.
이와 같이 구성된 본 발명에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다 고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.
먼저 본 발명은 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공하고자 한 것이다.
그래서 비디오 요약은 청각정보를 이용한 화자 중심의 비디오 요약과 시각 정보를 이용한 얼굴 영역 검출 및 얼굴 인식을 추가한 등장인물 기반 비디오 요약을 수행하였다. 청각 정보를 이용한 화자 중심의 비디오 요약은 SONE(Specific Loudness Sensation)를 특징값으로 하여 K-nearest neighbor(K-NN) 분류기를 사용하여 음성 부분을 추출 한 후, 추출된 음성에서 MFCC(Mel-Frequency Ceptrum Coefficient)를 특징값으로 추출하여 GMM(Gaussian Mixture Model)과 후처리 과정으로 보팅(Voting) 방식을 사용하여 화자 인식 과정을 수행하였다. 특정 인물의 음성이 포함된 장면을 중심으로 하는 화자 중심의 비디오 요약을 수행하였다.
시각 정보를 이용한 얼굴 영역 검출을 위해 피부색의 통계적 분포 특성을 이용하여 피부색을 분류하고 SGLD(spatial gray-level dependence) 매트릭스를 특징값으로 하고 분류기는 CART로 사용하였다. 얼굴 인식은 검출된 얼굴 영역에서 PCA 기법을 이용하여 고유 얼굴(Eigenface)을 구성하고 중요 특징값을 추출 한 후 Minimax Probability Machine(MPM) 방식을 이용하여 분류기를 구현하였다.
등장인물 기반 비디오 요약의 수행은 위의 화자 중심의 비디오 요약 결과와 얼굴인식 결과를 이용하여 수행한다.
비디오 분할 및 요약의 성능을 분석하기 위해 세 편의 비디오 클립을 선정하여 장면 분할 및 비디오 요약을 수행하였다.
화자 중심의 비디오 요약에 대해 recall과 precision 값으로 성능평가를 하였다. Post-Processing을 수행하지 않은 경우는 70.0%와 71.9%를 보였으며 Post-Processing을 수행한 경우는 83.9%와 86.3%의 성능을 나타내었다.
얼굴 영역 검출 성능의 평가를 위해 recall과 precision 을 계산하였다. 피부색을 분류하고 SGLD 매트릭스를 값을 구한 후 임계치(Threshold Value)를 이용한 경우 90.2%와 66.5%이고 CART를 이용한 경우 92.2%와 84.6%를 나타내었다.
얼굴 인식 성능 평가를 위해 인식률을 사용하였으며, PCA(Principle Component Analysis)와 MPM(Minimax Probability Machine)을 사용하여 얼굴 인식을 수행한 결과 AT&T Face Database에서 95.3%의 성능을 보이고 비디오 클립에서 90.84%의 성능을 나타내었다.
오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 성능 평가를 위해 recall과 precision 을 계산하였다. 각각 화자인식만을 이용한 경우보다 7.4%, 2.3% 향상된, 90.3%, 88.6%를 나타내었다.
이러한 본 발명에 대해 좀 더 상세히 설명하면 다음과 같다.
1. 서설
씬 중심의 비디오 분석이 샷 단위의 비디오 분석보다 고차원의 비디오 구조 를 제공하지만 비디오 내의 모든 인접한 샷들이 의미를 갖는 하나의 주제를 구성하기 위해 존재하는 것은 아니다. 따라서 좀 더 고차원적인 비디오 분석과 요약을 위해 특정 내용을 갖고 있는 샷을 검출하는 기법들이 요구된다. 내용 기반의 비디오 분석을 위해 대표적인 연구로는 비디오 내에서 얼굴 영역 검출, 화자 인식 등의 연구가 있다. 이미 언급한 것과 같이 멀티미디어 데이터베이스가 좀 더 높은 부가가치를 지니기 위해서는 특정 변수에 대한 검색 능력을 지님으로써 다양한 사용자의 요구를 충족시킬 수 있어야 한다. 등장인물 기반 비디오 검색 및 요약이 가능하다면, 사용자가 특정 배우와 관련된 자료를 요청 할 경우 효과적으로 사용 할 수 있을 것이다.
예를 들면, 방송국의 드라마 제작자가 새로 시작하는 드라마의 배우를 선발하기 위하여 후보 배우별로 연기하는 샷을 검토하길 원할 수도 있고, 특정 배우의 팬들이 팬 사이트 구축을 위해 자료 화면을 검색 할 수도 있을 것이다. 이러한 요구들을 충족시키기 위해서는 단순하게 비디오를 분할하고 키 프레임 선정 후 나열하는 것이 아니라, 비디오 컨텐츠를 분석하여 원하는 정보의 형태로 가공하여 제공할 수 있는 능력이 요구된다.
인물별로 비디오를 요약하는 방법은 크게 두 가지로 나뉠 수 있다. 하나는 영상에서 등장인물의 얼굴을 인식하는 방법이고, 다른 하나는 음향 정보에서 음성을 추출하여 음성을 통해 화자를 가려내는 방법이다. 전자의 경우 각 프레임에서 등장인물의 얼굴을 추출한 후 인식을 수행한다. 얼굴 인식을 통해 비디오 컨텐츠 내에서 배우를 검색하는 방식은 사용자가 원하는 배우가 출연하는 장면을 정확하게 검색 가능하다는 커다란 장점이 있다.
그러나 실제 비디오에서는 영상에 출현하고 있는 등장인물과 해당 시간에서의 음성의 동기가 맞지 않는 경우가 많이 발생한다. 예를 들면, 화자 A와 B가 대화를 하는 경우, 실제 음성은 화자 B의 음성이지만 듣고 있는 화자 A의 얼굴이 영상에 나오는 경우에 영상은 듣고 있는 화자 A의 심정을 표현할 뿐 실제 대화의 흐름은 화자 B에 의해 주도된다. 따라서 컨텐츠 내 화자의 목소리를 추출 후 화자인식을 통하여 사용자가 원하는 배우가 등장하는 영상을 요약한다면 사용자가 원하는 배우가 등장하면서 그 배우가 이끌어 가는 스토리를 지니게 되는 의미있는 내용의 요약이 가능하다.
또한, 얼굴 영역 검출 및 얼굴인식 과정을 통하여 요약된 결과내의 배우 얼굴이 나오는 빈도를 측정하여 음성만으로 요약한 결과의 성능을 향상 시킬 수 있다.
그래서 본 발명에서는 비디오 컨텐츠에서 등장인물들의 목소리를 분석하여 각각의 등장인물을 중심으로 하는 비디오 요약 기법, 얼굴영역의 검출 및 얼굴인식을 통하여 원하는 인물의 얼굴이 포함된 장면의 검출 및 화자인식 및 얼굴인식을 통한 등장인물 기반 비디오 요약 방법을 제안한다.
2. 청각 정보를 이용한 화자 중심의 비디오 요약
여기서는 분할된 씬에서의 화자 중심의 비디오 요약 과정을 설명한다. 화자 중심의 요약 과정은 도 3에 나타나있다.
화자 중심의 요약 과정은 음성 검출 부분과 화자 인식 부분으로 크게 나눌 수 있다. 전체 비디오에서 사람의 음성 부분을 먼저 추출 한 후, 추출된 음성에서 화자 인식 과정을 수행하여 특정 인물의 음성이 포함된 장면을 중심으로 하는 화자 중심의 비디오 요약을 수행하였다. 음성 검출 부분은 SONE(Specific Loudness Sensation)을 특징값으로 하여 K-nearest neighbor(K-NN) 분류 방식을 사용하였고, 이렇게 분류된 음성 신호에서 MFCC(Mel-Frequency Ceptrum Coefficient)를 추출하여 GMM(Gaussian Mixture Model)을 이용해 화자 인식을 수행하였다.
2.1 음성 검출 및 화자 인식을 위한 음향 특징값
여기서는 화자 인식의 전처리에 해당하는 음성 성분 추출과 실제 화자 인식을 위한 특징값에 대하여 설명한다.
특징값 추출을 위해 음향 신호를 분석하는 방식은 크게 두 가지로 나누어 볼 수 있다. 하나는 시간 도메인 상에서 신호를 분석하는 것이고, 다른 하나는 주파수 도메인 상에서 신호를 분석하는 것이다. 하지만 전자는 상황이나 분위기에 의해 변할 뿐, 사람에 따라 규칙적인 변화를 갖지 않는다. 가장 일반적인 예로서 RMS는 해당 구간에서의 신호 세기를 알 수 있지만, 사람에 따라서 큰 특징 변화를 보이지 않는다. 따라서 사람의 목소리를 다른 복합적인 음향 성분으로부터 검출하고 각각의 화자를 구분하기 위해서는 주파수 도메인에서의 신호 분석이 필요하다. 따라서 이 절에서는 특징값 추출을 위한 주파수 도메인에서의 음성 신호 분석에 관하여 서술한다.
2.1.1 SONE(Specific Loudness Sensation)
음성 검출을 위한 특징값으로 잘게 나누어진 국부 대역에서의 신호의 세기를 SONE로 변환하여 표기하는 방식을 선택하였다. 본 발명에서는 Bark Scale(Critical-Bands)을 통해서 신호를 서로 다른 대역 별로 나누어 그 대역에서의 음향의 크기를 SONE으로 표기하여 특징값으로 사용한다. SONE의 계산 방법은 도 4에 나타나 있다.
기본적으로 음향 신호가 입력되면 FFT를 통해서 신호는 주파수 도메인에서 분석된다. 주파수 도메인으로 변환된 신호에 대해서 인간의 귀 특성을 담고 있는 외이 모델(Outer Ear Modeling)을 사용하여 주파수 도메인에서의 신호에 가중치를 달리한다.
외이 모델은 프리-엠퍼시스 필터의 하나이다. 그리고 외이 모델이 적용된 신호를 여러 개의 국부 대역으로 나누기 위하여 Bark Scale을 사용한다. Bark Scale은 주파수 도메인을 인간 청각의 특징을 고려하여 비선형적으로 조정한 것으로 비선형 변환의 일종이다.
신호를 각각의 대역으로 나눈 뒤 각각의 대역에 속하는 신호의 세기에 마스킹(Masking)을 취한다. 마스킹은 다른 음향에 의해 생기는 음향의 특성을 반영한 것이다. 즉, 특정 주파수를 갖는 음향이 전해질 때, 사람의 귀는 그 해당 주파수 대역 부근의 음향도 듣게 되는 것이다. 이렇게 마스킹의 적용까지 받은 각 대역의 신호는 마지막으로 SONE의 도메인으로 변환되며 변환 방식은 다음의 수학식 1과 같 다.
Figure 112006053358925-pat00001
여기서 Ma(n)는 n번째 대역의 마스킹이 적용된 신호 세기를 의미한다.
2.1.2 MFCC(Mel Frequency Ceptrum Coefficient)
MFCC는 음성 인식, 화자 인식 등에 유용한 특징 값 중의 하나이며 음성 스펙트럼을 표현하기 위해 멜 주파수 필터로부터 계산된다. 도 5의 상세블록도는 MFCC를 추출하는 과정을 나타낸다.
음성 신호는 먼저 윈도우 w[n]을 이용하여 분할되며 윈도우내의 음성신호는 수학식 2에서처럼 주파수 변환된다.
Figure 112006053358925-pat00002
수학식 2에서 N은 FFT의 길이를 의미한다. 주파수 변환된 X(n, wk)의 크기(magnitude)는 필터 시퀀스의 주파수 응답에 의해 가중화된다. 이러한 필터 시퀀스는 저주파수(1000Hz 이하)에서는 필터 중심주파수와 대역폭이 선형이적이지만 주파수가 높아질수록 로그 스케일로 증가하는 특성을 갖고 있다. 이것은 저주파 영역 의 신호에서 인간의 청각 특성이 민감한 반면 고주파 영역의 신호에서는 민감하지 않은 특성을 적용한 것이다.
필터뱅크의 중심 주파수는 멜 스케일로 존재하게 되며 수학식 3을 이용하여 멜 스케일을 계산한다.
Figure 112006053358925-pat00003
Mel(f)는 전체 주파수 대역을 n으로 나눈 등 간격으로 대역을 나누게 된다. n번째 필터의 중심주파수는 n번째 간격에 대응되는 주파수가 된다. 각 필터의 대역폭은 수학식 4의 critical bandwidth에 의해 결정된다.
Figure 112006053358925-pat00004
멜 스케일 필터 뱅크의 l번째 필터의 주파수 응답을 Vl(w)라고 하면 n번째 음성 프레임에 대한 멜 에너지는 수학식 5로 표현할 수 있다. Ll, Ul은 l번째 필터에서 영이 아닌 주파수 영역의 상한, 하한 값을 의미한다. 수학식 6은 다양한 대역폭을 갖는 필터들의 균일한 스펙트럼을 위한 정규화 과정이다.
Figure 112006053358925-pat00005
Figure 112006053358925-pat00006
그리고 수학식 7에서처럼 멜 에너지를 이산여현변환(discrete cosine transform, DCT)하여 멜 켑스트럼(mel cepstrum)을 구할 수 있다. 이산여현변환을 통하여 멜 스케일 에너지를 무상관된(decorrelated) M차의 차수로 변환할 수 있다. 수학식 7을 이용하여 R개의 필터로 구성된 필터 뱅크 중 n번째 음성 프레임에 대한 m번째 계수를 계산한다.
Figure 112006053358925-pat00007
2.2 가우시안 혼합 모델(Gaussian Mixture Model, GMM)
GMM은 문장 독립(text-independent) 화자 인식 시스템을 위한 화자 발성의 음향학적인 분포를 표현함에 있어서 매우 뛰어나다. 다수의 화자 음성으로부터 추출된 MFCC 특징 값을 이용하여 GMM 분류기를 훈련시킨 후 실시간 화자 인식 시스템에 적용할 수 있다. 도 10은 본 발명에서 사용하는 M개의 가우시안 혼합 모델에 대 한 개념도이다.
가우시안 혼합 분포는 수학식 9로 표현되며 M개의 요소 분포를 가중치와 함께 합산된 것이다. x는 D차원의 랜덤 벡터이며, bi(x)는 요소 분포(component density), pi는 i번째 요소분포에 대한 가중치를 의미한다. 이때 가중치 pi는 를 만족해야 한다. 각 요소 분포 bi(x)는 수학식 9에서와 같은 μi의 평균 벡터와 Σi의 공분산 행렬을 갖는 D차원 가우시안 분포를 갖는다고 가정한다.
Figure 112006053358925-pat00008
Figure 112006053358925-pat00009
가우시안 혼합 모델에서 확률 밀도 함수 p(x|λ)는 각 모드(mode)에 대한 평균 벡터, 공분산 매트릭스, 가중치에 관한 함수이며 수학식 8에서처럼 3개의 매개변수를 훈련 과정에서 모델링한다. 즉, 훈련 샘플을 이용하여 수학식 10에서와 같이 각 화자에 대한 λ를 추정한다.
Figure 112006053358925-pat00010
GMM의 훈련은 ML(Maximum Likelihood) 추정 방법을 이용하여 수학식 11에 있는 GMM의 우도함수를 최대화할 수 있는 매개변수 λ를 추정한다. 수학식 11은 훈련 샘플의 T차원의 특징 벡터 X=(x1, x2, ..., xT)에 대한 가우시안 혼합 모델에 대한 우도함수를 의미한다. 이러한 우도함수를 최대화할 수 있는 매개변수를 추정하기 위해 순환알고리즘인 EM(Expectation Maximization)을 통해서 GMM의 매개변수를 추정한다.
Figure 112006053358925-pat00011
EM 알고리즘의 기본 개념은 초기 모델 λ인 혼합 모델에 p(x|λ)에 대해서 p(x|)를 만족하는 새로운 모델 를 추정하는 것이며 다음번의 순환 과정에서 새로운 모델은 초기 모델이 되며 특정 오차 수준에 수렴하거나 최대 순환 횟수를 만족할 때까지 반복하게 된다.
훈련된 GMM을 이용하여 새로운 음성 샘플은 수학식 12의 사후(posteriori) 확률이 최대가 되는 클래스로 분류하게 된다.
Figure 112006053358925-pat00012
수학식 12에서 Pr(λk)가 모든 클래스에 1/S로 동등하다고 한다면 분류 규칙 은 수학식 13으로 간략화 된다.
Figure 112006053358925-pat00013
임의의 음성 프레임이 입력되었을 때 학습된 GMM은 각 클래스의 사후 확률 값을 계산한다. 또한 입력된 음성 신호는 다수의 프레임을 갖고 있으므로 프레임들에 대한 사후 확률 평균값이 최대가 되는 화자 클래스로 음성 신호를 분류한다. 따라서 분류 규칙인 수학식 13은 수학식 14로 표현할 수 있다.
Figure 112006053358925-pat00014
2.3 음성 검출 및 화자 인식 특징값 성능 검증
여기서는 앞에서 제시한 특징값들을 이용하여 음성 검출과 화자인식의 성능을 실험한다.
2.3.1 음성 검출을 위한 MFCC와 SONE의 성능 분석
앞에서 설명한 MFCC와 SONE의 음성 검출을 위한 특징값으로서의 성능을 검출하기 위한 간단한 실험을 한다. 실험을 위해 사용되는 표본은 총 5개를 생성하여 실험하였다.
표본 생성에 사용되는 10개의 음성과 5개의 음악은 모두 Mono 채널이며 16 bits/sample, 11.025 KHz의 데이터로 이루어져 있다. 10명의 음성 총 길이는 3분 40초이며, 음악은 이 길이를 채우기 위해 반복적으로 패딩 된다. 음악 성분은 일반 비디오에서 음성이 음악 성분보다 큰 음량을 갖는다는 것을 고려하여 음성 성분보다 10 dB 작은 음량을 갖는다. 5가지 음악을 이용해서 총 5개의 표본을 만들고, 음악이 없는 순수 음성 표본을 생성하여 참조 클래스로 사용한다. 특징값으로 앞에서 사용한 MFCC와 SONE을 사용하며, 추가적으로 RMS를 이용하였다.
MFCC, SONE, RMS를 특징값으로 이용한 음성 검출 성능
임계값 1번 표본 2번 표본 3번 표본 4번 표본 5번 표본 평균
0.02 0.796 0.887 0.895 0.882 0.905 0.873
0.03 0.831 0.904 0.902 0.908 0.928 0.898
표 1에는 앞에서 생성한 표본들에 대해 음성 검출 실험을 한 결과가 나타나있다. 앞에서 제시한데로 분류기로 CART를 사용하였다. 표 1에서 임계값이란 순수 음성으로 생성된 표본에서 어떤 윈도우가 음성이고 음성이 아닌지를 판단하기 위해 사용된 계수로서, 해당 윈도우에서 RMS값이 임계값보다 높은 경우를 음성으로 판단하였다. 따라서 임계값이 높게 정해질수록 높은 성능을 보이는 것은 당연한 것이다. 평균적으로 90% 정도의 정확도를 보이며, MFCC, SONE, 그리고 RMS의 성능을 입증하였다.
이 실험에서 각각의 특징값에 대하여 각각의 특징값이 갖는 중요도를 분석하기 위하여 각각의 표본에 대해 특징값의 중요도를 추출하였으며, 그 결과 중에서 중요도 10위 안에 속하는 특징값들이 표 2에 나타나있다. 표 2에서 'R'은 RMS, 'M'은 MFCC, 'S'는 SONE, 그리고 숫자는 특징값의 차수를 의미한다. SONE의 경우 수학식 2의 n 값을 변화시키면서 추출한 것이고, MFCC의 경우 수학식 7의 m 값을 변화시키면서 추출한 것이다.
음성 검출에 있어서 각각의 특징값 중요도
표본 1번 표본 2번 표본 3번 표본 4번 표본 5번 표본
중요도 임계값 0.02 0.03 0.02 0.03 0.02 0.03 0.02 0.03 0.02 0.03
1 S05 S05 R R R R R R R R
2 S04 S04 S05 S05 S03 S03 S05 S05 S03 S03
3 S03 S03 S04 S04 S04 S04 S03 S04 S04 S04
4 R R S03 S03 S02 S02 S04 S03 S02 S02
5 S06 S06 S06 S06 S05 S05 S06 S06 S05 S05
6 S07 S07 S02 S02 S01 S01 S02 S02 S01 S01
7 S18 S18 S16 S12 S18 S17 S18 S16 S17 S16
8 S16 S19 S18 S16 S17 S18 S17 S18 S16 S17
9 M03 S16 S19 S11 M01 S10 S15 S17 S18 S15
10 S19 M03 M03 M03 S19 M01 S16 M01 S15 S18
표 2를 보면 알 수 있듯이 거의 대부분의 음성 검출은 RMS와 SONE에 의해 이루어진다. MFCC의 계수는 차수가 낮은 몇 개의 성분만이 쓰일 뿐, 대부분 사용되지 않는다. 이것은 MFCC의 경우, 마지막에 이산 여현 변환을 통해서 신호의 하모닉스(Harmonics) 성분을 검출하기 때문에 단순히 음성이 분포하는 주파수 대역에서의 에너지양을 검출하기에는 무리가 있는 것이다. 따라서 MFCC를 제외한 나머지 특징값들을 이용하여 성능을 평가하였고, 표 3에 나타내었다.
SONE과 RMS만을 이용한 음성 검출 성능
임계값 1번 표본 2번 표본 3번 표본 4번 표본 5번 표본 평균
0.02 0.798 0.887 0.891 0.874 0.907 0.871
0.03 0.827 0.905 0.922 0.901 0.925 0.896
표 1의 모든 특징값을 사용했을 때의 성능과 비교해보면 성능의 저하는 거의 없는 것을 알 수 있다. 이 실험에서 가장 중요한 특징값으로 사용되는 RMS는 비디오에 포함되는 음향의 특성에 따라 그 성능이 달라질 수 있는 확률이 있다. 따라서 RMS도 제외한, 즉 SONE만을 이용하여 음성 검출 실험을 하였고 결과는 표 4에 나타나있다.
SONE만을 이용한 음성 검출의 성능
임계값 1번 표본 2번 표본 3번 표본 4번 표본 5번 표본 평균
0.02 0.788 0.882 0.882 0.871 0.902 0.865
0.03 0.820 0.898 0.908 0.896 0.918 0.888
앞의 표 1과 3의 성능과 비교해보면 특징값을 SONE만 사용했을 때, 거의 성능 열하가 없다. 1% 미만의 성공률을 위해 많은 계산을 할 필요는 없다는 판단 하에, 나머지 MFCC와 RMS에 의해 미세하게 상승하는 정확도는 무시한다. 따라서 본 발명에서는 음성 검출을 위한 가장 적합한 특징값을 SONE으로 결정하였으며, 실제 실험에서도 SONE만을 이용하여 음성 검출을 수행한다.
2.3.2 화자 인식을 위한 MFCC와 GMM의 성능 분석
여기서는 MFCC와 GMM을 이용한 화자 인식 성능을 분석한다. 실험을 위해 먼저, 영화, 드라마 등의 멀티미디어 영상에서 남자와 여자, 노인과 어린이의 다양한 음성 샘플을 평균 15초에서 20초 정도로 맞추어서 추출하였다. 이 샘플들로부터 음성인식에 사용할 최적의 특징 값 추출을 위해 MFCC 차수를 13, 24, 32로 다양하게 변화시켜서 그 결과를 비교해보았다. 그리고 이 특징 값을 가지고 각 화자별로 GMM의 파라미터를 결정하는데. 이때 GMM의 노드의 개수를 변화시키면서 결과를 비교해보았다. 분류기의 성능평가는 10 Cross- Validation을 이용하여서 평가하였다.
다음의 표 5 ~ 7은 MFCC 첫째 차수의 사용 유무와 차수 개수를 변화시키면서 얻은 결과다. MFCC의 첫 번째 차수는 음성의 에너지를 나타낸다. 에너지의 경우 화자별 특징을 나타내는데 적합하지 않을 수도 있기 때문에 검증을 위해 첫 번째 차수를 사용한 경우와 안하는 경우로 나누어 실험을 수행하였다.
샘플1(드라마) 실험 결과
샘플 1(5명의 음성샘플)
사용차수 첫 번째 차수 사용 안한 경우의 인식률 첫 번째 차수 사용 한 경우의 인식률
13 76.32 % 78.84 %
24 78.12 % 78.96 %
32 79.04 % 79.6 %
샘플2(드라마) 실험 결과
샘플 2(5명의 음성샘플)
사용차수 첫 번째 차수 사용 안한 경우의 인식률 첫 번째 차수 사용 한 경우의 인식률
13 78.24 % 79.16 %
24 81.72 % 82.4 %
32 82.14 % 83.08 %
샘플3(드라마) 실험 결과
샘플 3(5명의 음성샘플)
사용차수 첫 번째 차수 사용 안한 경우의 인식률 첫 번째 차수 사용 한 경우의 인식률
13 76.58 % 77.66 %
24 83.82 % 84.26 %
32 84.18 % 85.8 %
위의 표 5, 표 6, 표 7에 보듯이 샘플 영역의 에너지 값을 가지고 있는 첫째 차수를 사용하는 것이 성능이 좋음을 알 수 있다. 그리고 MFCC 차수는 32일 경우가 가장 성능이 좋은 것으로 나타났다. 하지만 차수 24를 사용하는 경우와 비교해서 차수가 많아지면서 수행시간은 3배 가까이 길어지는 반면 성능은 크게 향상되지는 못하는 것을 보였다. 따라서 최적의 차수로 24를 선택하였다.
다음은 GMM의 노드의 개수 변화를 주었을 때 성능을 비교해본 결과이다. 인식률의 증가를 쉽게 보기위해 가장 인식률이 낮은 샘플1을 가지고 실험해 보았다.
GMM 노드 변화 결과
샘플1(5명의 음성샘플)
노드 개수 9 10 11 12 13
인식률 76.4 77.56 77.76 77.04 79.6
노드개수 14 15 16 17 18
인식률 80.0 80.08 81.12 80.08 79.96
표 9에 의하면 노드의 개수가 약 3% 정도의 성능차이를 보였으며 16에서 가장 좋은 것으로 나왔다. 하지만 MFCC 최적 차수 선정과 마찬가지로 성능은 비슷하면서 수행시간이 비교적 짧은 13개의 노드를 선택하였다. GMM의 경우 노드수가 n일 경우
Figure 112006053358925-pat00015
의 연산량을 지니므로 노드수 16의 경우, 노드수 13에 비하여 50% 이상 수행시간이 길어진다.
제안한 알고리즘에 대해 위의 두 결과에 의해서 가장 성능이 좋은 최적의 조건인 24개의 MFCC 특징 값과 13개 노드의 GMM으로 3개의 실험 비디오를 각각 실험했을 때 평균 약 83%의 인식률을 보였다.
2.4 음성 검출 및 화자 인식 성능 향상
2.3절에서 생성한 표본을 통해서 실제 음성 검출과 화자 인식에 사용할 분류기를 구축하였다. 음성 검출의 경우 K-nearest neighbor(K-NN) 방식을 사용하였으며, 화자 인식의 경우 GMM을 사용하였다. 분류기를 구축하는 과정에서 K-NN은 K값이 4일 때 가장 좋은 성능을 보였으며, GMM은 13개의 노드를 사용하였다.
각각의 등장인물을 추출된 scene과 연계를 짓기 위해서는 각각의 scene에서 어떤 등장인물이 출연하는지 분석해야 한다. 하지만 시간적 길이가 긴 scene에서 아주 잠깐 출연하는 등장인물과 해당 scene을 연결할 수 없다. 그 이유는 그 등장인물이 해당 scene에서 갖고 있는 의미가 매우 작기 때문이다.
본 발명에서는 등장인물과 scene의 합리적인 연결을 위하여 수학식 15와 같이 출연율(Appearance Ratio)이라는 변수를 설정하여, 어떤 scene에 어떤 등장인물이 어느 정도 출연하는지 분석하며 다음과 같이 나타낼 수 있다.
Figure 112006053358925-pat00016
여기서,
Figure 112006053358925-pat00017
Figure 112006053358925-pat00018
번째 등장인물의 출연율을 의미하며,
Figure 112006053358925-pat00019
Figure 112006053358925-pat00020
번째 화자의 음성 부분의 총 길이를 의미한다.
하지만 2.3에서 보인 성능을 감안하였을 때, 이 방식을 그대로 이용하는 것은 비디오 요약을 하는데 있어서 정확한 요약을 제공할 수 없다. 따라서 본 절에서는 이미 분류기를 통해 검출된 결과에 대해 후처리(Post-processing)를 적용하여 음성 검출 및 화자 인식의 성능을 향상시킨다.
첫 번째 단계로서 음성 검출 결과에 대한 후처리를 통해 음성 검출의 성능을 향상시킨다. 음성 검출의 결과는 뒤에 이어지는 화자 인식의 성능에 결정적인 영향을 미친다. 음성 검출의 후처리를 위하여 가정을 세웠다. 인간이 말을 할 때, 음절과 음절의 사이 소리가 나지 않는 구간이 있다. 그리고 그 구간의 길이는 일정 길이보다 길어야 한다. 그리고 각각의 음절들도 모두 일정 길이보다 길어야 한다.
도 11은 본 발명에서 음성 검출의 후처리 과정을 보인 개념도이다.
그래서 도 11에서 각각의 윈도우로부터 특징값을 추출하여 해당 윈도우가 음성을 포함하는지 음성을 포함하지 않는지 판단을 하게 된다. 추출된 결과에 대해서 일정 크기의 윈도우를 씌워가면서 다음과 같은 방식의 교정 과정을 거친다.
<음성 검출 후처리 과정>
Figure 112006053358925-pat00021
여기서 N은 해당 윈도우가 음성을 포함하지 않는다는 것이고, V는 음성을 포함하는 것을 의미한다. 이 후처리 과정은 앞에서 제시한 가정과 같이 모든 무음 구간 사이에 26 ms간의 음성이 있다고 판단하였거나, 음절과 음절 사이의 구간이 26 ms보다 짧을 때, 오분류라 판단하고 교정을 하는 것이다.
위와 같이 음성 검출에 관한 후처리가 완료되면, 각각의 음성 구간에 있어서 화자 인식 과정을 수행한다. 화자 인식 과정의 결과가 추출되면, 결과에 대해서 후처리 과정을 거쳐 화자 인식의 정확도를 높이게 된다. 화자 인식의 후처리 과정은 보팅(Voting) 방식을 사용한다.
도 12는 본 발명에서 화자 인식의 후처리 과정을 보인 개념도이다.
그래서 도 12에서와 같이 하나의 연속적인 음성 구간으로부터 결과를 추출하면, 하나의 연속적인 음성은 하나의 등장인물로부터 나온 음성이라는 가정 하에 화자 인식 결과 가장 많은 분포를 차지하는 등장인물의 음성으로 간주한다. 예를 들어, 도 12에서 등장인물 1, 2, 3, 4로 분류된 윈도우의 개수가 각각 50, 5, 3, 7이라고 한다면 해당 음성 구간은 50개의 윈도우로 가장 많은 분포를 차지하는 등장인물 1의 음성으로 간주된다.
3. 시각 정보를 이용한 얼굴 영역 검출 및 얼굴 인식
여기서는 대표 프레임들 중에서 특정 객체인 얼굴을 포함하고 있는 장면 검출 후 얼굴 인식 기법을 이용하여 특정 인물을 출연하는 장면을 추출한다. 얼굴 영역 검출은 피부색의 통계적 분포 특성을 이용하여 피부색을 분류하고 SGLD(spatial gray-level dependence) 매트릭스를 이용하여 얼굴 영역을 분류하기 위한 이진 분류 나무를 생성한다. 얼굴 인식은 검출된 얼굴 영역에서 PCA 기법을 이용하여 고유 얼굴(Eigenface)을 구성하고 중요 특징값을 추출 한 후 Minimax Probability Machine(MPM) 방식을 이용하여 분류기를 구현하였다.
3.1 피부색 검출
인간의 피부색은 다양한 자연 객체와는 다른 독특한 색 특성을 갖고 있으며 얼굴 영역 검출 및 핸드 트랙킹(hand tracking) 등 다양한 응용분야에 효율적인 특징 값으로 사용되어 왔다. 다양한 민족들이 각각 다른 피부색을 갖고 있지만 몇몇 연구 결과로부터 민족별 피부색의 차이점은 색상 성분 보다는 밝기 성분에서 크게 나타난다는 것을 알 수 있다. RGB, HSI, YCbCr, YIQ, CIE 등의 다양한 색 공간에서 피부색에 대한 통계적 모델을 이용하여 피부색 영역을 분류하는 연구가 진행되었다.
본 발명에서는 YCbCr의 색공간에서 -0.5 ~ 0.5로 정규화된 Cb, Cr 값을 훈련 영상 샘플로부터 추출하여 통계적 특성을 분석하였다. 또한 피부색의 통계적 모델로부터 베이즈의 결정 함수를 이용하여 피부색 영역을 분류하였다.
도 13은 본 발명에서 피부색의 훈련 샘플을 추출한 예를 보인 것으로, (a)는 원 영상이고, (b)는 피부색 추출을 위한 마스크를 보인 도면이다.
이러한 도 13은 피부색 검출을 위한 웹 이미지의 훈련 샘플에 대해서 추출된 피부색 영역을 보여주고 있으며, 8x8 블록 내의 Cb, Cr의 평균값을 피부색 값으로 추출하였다. RGB의 색 공간은 수학식 16을 이용하여 YCbCr 색 공간으로 변환되며 Cb, Cr의 색상 성분은 [-0.5, 0.5]의 범위에 분포하게 된다.
Figure 112006053358925-pat00022
도 13의 (b)에서 흰 영역은 피부색의 학습 샘플로, 검은 영역은 피부색이 아닌 학습 샘플로 간주된다. 피부색의 학습 샘플들은 CbCr색 공간에서 표준편차(σ)가 낮은 가우시안 형태의 분포 특성을 갖고 있다. 따라서 피부색 검출은 Cb성분과 Cr성분을 이용하여 수학식 18 ~ 20의 베이즈 분류기를 이용하였다. Cb, Cr의 확률 밀도 함수는 수학식 17과 같은 2차원 가우시안 분포로 가정하였으며 분류 단위는 8x8 블록에 대해서 피부색이 검출되어진다.
Figure 112006053358925-pat00023
베이즈 분류기에서 두 클래스 Ci, Cj가 d차원의 연속된 특징 값 x를 가질 때 두 클래스를 분류하는 최적의 분류 경계는 수학식 18이 성립하는 초평면(hyper-plane)이다. 수학식 13에 베이즈 이론을 적용하면 수학식 19가 성립하며 베이즈 결정 함수를 위한 수학식 15의 판별 함수 D를 구할 수 있다. 이때 판별 함수 D≥0일 때 베이즈 분류기는 새로운 샘플을 클래스 Ci로 분류한다. 본 발명에서는 1,100개의 8x8 픽셀 블록에 대해 피부색 클래스(skin)와 피부색이 아닌 클래스(non-skin)에 대한 2차원 가우시안 분포의 매개변수 μ, σ, ρ를 ML(Maximum Likelihood) 추정 기법을 이용하여 추정하였다.
Figure 112006053358925-pat00024
Figure 112006053358925-pat00025
Figure 112006053358925-pat00026
도 14는 본 발명에서 피부색 검출 결과를 보인 것으로, (a)는 원 영상이고, (b)는 8x8 블록에 대해서 피부색 검출 후의 이진화 영상을 보인 도면이다.
피부색을 검출 한 후 결과 영상은 이진화된 영상이며 피부 영역으로 분류된 영역을 1, 피부색이 아닌 영역을 0으로 한다. 이진화된 영상에는 팔과 같은 얼굴 영역이 아닌 다른 영역이 포함될 수 있으며 배경이 복잡하고 피부색과 유사한 색을 갖는 배경에 대해서는 오검출이 증가한다. 따라서 이러한 오검출 제거하기 위해서 Ying Dai는 SGLD 매트릭스를 이용하여 얼굴 영역 검출 알고리즘을 제안하였다.
본 발명에서는 비디오 시퀀스에 적용하기 위해서 보다 효율적이고 고속의 알고리즘을 제안하기 위해서 블록 단위의 탐색 과정과 피부색 검출 결과 영상에 대한 영상 분할 알고리즘을 이용하여 얼굴 영역 후보군들을 선정한다. 선정된 후보군들에 대해서 SGLD 매트릭스를 이용하여 얼굴 영역 오검출 영역을 최소화한다.
3.2 얼굴 영역의 후보군 선정
피부색 검출 결과인 이진화 영상 도 14의 (b)에서 잡음을 제거하기 위해서 미디언 필터를 이용하여 필터링 과정을 수행한다. 필터링 과정이 없을 경우 각 분할 영역이 증가되어 얼굴 영역의 후보군이 증가하게 된다. 따라서 1개의 블록으로 구성되는 수직 및 수평선들을 제거하기 위해서 넓이가 3이고 필터링 속도를 고려하여 크로스 미디언 필터링 과정을 수행한다. 미디언 필터링된 이진 블록 영상에 대해서 수평 및 수직 방향의 투영을 이용하여 영역 분할을 수행한다.
도 15는 도 14에서 투영을 이용한 영역을 분할을 보인 것으로, (a)는 전체 영상에 대한 투영 결과이고, (b)는 각 분할 영역에 대한 2차 투영 결과를 보인 도면이다. 이러한 도 15는 투영 결과로부터 영역 분할된 얼굴 영역 후보군을 보여주고 있다. 그리고 도 15의 (a)는 미디언 필터 후 영상에 대해서 1차 투영한 결과이며, (b)는 1차 투영 결과로부터 각각의 분할 영역에 대해서 2차 투영으로부터 얻은 결과이다. 2차 투영결과로부터 얻은 분할 영역들은 얼굴 영역의 후보군들이며 탐색 과정을 통하여 팔, 손, 목 부분과 같은 얼굴 영역과 형태적 특성이 다른 피부 영역들을 제거한다.
3.3 얼굴 영역 탐색 알고리즘
얼굴 영역 검출의 목적은 임의의 영상이 얼굴을 포함하고 있는지에 관한 여부를 결정하는 것이며 또한 각 얼굴 영역에 대한 위치와 크기를 파악하는 것이다. 인간의 얼굴 영역은 타원 또는 호들의 결합 형태 등으로 추정된다.
본 발명에서는 블록단위의 탐색을 하기 위해서 사각형의 탐색창을 이용하였다. 탐색창은 전형적인 얼굴 형태의 비율인 1.4∼1.6의 비율을 갖는 사각형을 탐색창으로 설정하였다. 탐색창의 크기는 2개의 블록 단위로 축소하면서 후보군에 대해서 얼굴 영역을 탐색한다.
도 16은 본 발명에서 탐색 과정과 얼굴 영역의 검출 결과를 보인 것으로, (a)는 입력 영상이고, (b)는 피부색 검출 후의 이진화 영상 및 분할 영역이며, (c)는 초기 탐색 창이고, (d)는 탐색 과정의 중간 단계이며, (e)는 후보 영역에 대해서 얼굴 영역을 검출한 결과이고, (f)는 원 영상과 얼굴 영역으로 검출한 탐색창을 보인 도면이다.
도 16의 경우는 (b)에서처럼 배경이 피부색과 유사할 경우 피부색 검출 결과인 이진 영상으로부터 얼굴 영역의 정확한 위치와 크기 파악이 부정확하다.
따라서 본 발명에서는 탐색창의 크기와 위치를 변화시키면서 얼굴 영역을 검 출하는 방법을 제안한다. 또한 탐색창을 사용하는 방법은 검출 속도가 느린 단점이 있으나 블록 단위의 탐색창 위치 이동 및 크기 조절은 속도 개선에 매우 효율적이다. 후보군에 대해서 탐색창 내의 피부색 블록의 수가 일정한 비율 이상을 차지할 때(조건 1)와 탐색창 외의 테두리 부분에 대해서 피부색이 아닌 블록 수가 일정한 비율 이하일 때(조건 2)의 두 조건을 만족하는 영역을 얼굴 영역이라고 가정한다. 도 16의 (b), (c)에서는 조건 1을 만족하지 않으며 (d)에서는 조건 2를 만족하지 않는다. 하지만 탐색창의 위치와 크기가 (e)일 경우 조건 1을 만족하고 얼굴 영역이 아닌 머리카락 등의 배경으로 인해 조건 2 또한 만족하게 된다.
3.4 SGLD(Spatial Gray-Level Dependence) 매트릭스
SGLD 매트릭스는 질감 특징 분석에 사용되며 픽셀 (i, j) 위치에서의 [0, L-1]의 범위를 갖는 픽셀 값을 I(i, j)로 했을 경우 벡터 (m, n) (단, m = 1, 2 , ..., M, n = 1, 2, ..., N)에 대해 이웃하는 픽셀 값들의 발생 빈도 Pab(m, n)를 수학식 21으로부터 구할 수 있으며 SGLD 매트릭스라고 정의한다.
Figure 112006053358925-pat00027
Figure 112006053358925-pat00028
수학식 21에서 #은 집합 {a, b}에 대한 발생 빈도를 의미하며 W, H는 각각 영상의 폭, 높이를 의미한다. Pab(m, n)의 정규화된 Nab(m, n)는 수학식 22로 근사화되며 정규화된 SGLD 매트릭스 Nab(m, n)를 바탕으로 질감에 관한 특징 값들이 유도된다. 질감 특징들은 수학식 23 ~ 27과 같이 SGLD 매트릭스를 이용하여 에너지(energy), 엔트로피(entropy) 등이 측정되며, 본 발명에서는 관성(inertial), 역차(inverse difference), 상관도(correlation) 특징만을 이용한다. 수학식 27에서 μ, σ는 각각 영상 전체에 대한 평균과 표준편차를 의미한다.
Figure 112006053358925-pat00029
Figure 112006053358925-pat00030
Figure 112006053358925-pat00031
Figure 112006053358925-pat00032
Figure 112006053358925-pat00033
3.4.1 SGLD 매트릭스의 질감 특징 분석
수직 방향의 얼굴 영역에서의 질감 정보는 입, 코, 눈의 영향으로 수직 방향의 밝기 성분의 연속성이 떨어진다. 즉, 수직 방향으로 고주파 성분이 크게 나타나며 반면, 수평 방향의 고주파 성분은 적게 나타나는 질감 특징을 갖고 있다.
SGLD 매트릭스를 이용한 특징 값 중 BI(m, n) 배열은 근접한 두 픽셀 값 {a, b}의 변화량 정도를 의미한다.
도 17은 본 발명에서 SGLD 매트릭스로부터 추출된 inertial, inverse difference, correlation 등의 질감 특성을 보인 도면이다. 이러한 도 17은 수평, 수직 방향의 선으로 구성된 영상 등에 대해서 M=N=2일 때 각각의 BI(m, n), BD(m, n), BC(m, n) 배열을 보여주고 있다.
도 17에서 수직 방향의 선을 갖는 영상 (a)는 수평 방향으로의 인접한 픽셀간의 변화량이 수직 방향의 변화량 보다 크다.
도 18은 본 발명에서 배열의 인덱싱 및 1차원 변환 순서를 보인 것으로, (a)는 BI(m, n), BD(m, n), BC(m, n)의 m, n에 대한 인덱싱이고, (b)는 각 요소들의 1차원 나열 순서를 보인 도면이다.
그래서 BI(m, n) 배열을 도 18의 (a)와 같이 m, n에 대해서 인덱싱했을 때 수직 방향의 선을 갖는 영상 (a)의 BI(m, n) 배열은 m에 변화에 민감하다고 할 수 있다. 역으로 수평 방향의 질감을 갖는 영상 (b)에서는 BI(m, n) 배열이 n에 민감하다. 격자 형태의 질감을 갖는 그림 (c)의 BI(m, n) 배열이 m, n에 모두 민감한 이유는 격자가 하나의 픽셀로 구성되어 있기 때문이다. 또한 변화가 존재하지 않는 그림 (d)에서는 BI(m, n) 배열의 요소 값이 모두 영이 되는 것을 알 수 있다.
Inverse difference 배열은 m, n 내에 있는 국부 영역에 대한 동질성을 나타낸다. 즉, m, n 내의 국부 영역이 동질의 픽셀로 구성될 경우 BD(m, n) 배열의 요소 값은 증가하며 이질의 픽셀로 구성될 경우 감소하게 된다. Inverse difference 배열은 [0, 1]의 범위를 가지며 0일 경우 동질의 정도가 최소임을 의미한다. 도 18에서 BD(m, n) 배열은 BI(m, n) 배열과 역의 관계에 있음을 알 수 있다.
Correlation 배열은 영상의 전체 영역에 대한 상관도를 의미한다. BC(m, n)은 m, n에 있는 a, b가 전체 영상에 대하여 상관도가 높을수록 +1, 상관도가 낮을수록 0, 음에 관한 상관도가 높을수록 -1의 값을 갖는다. m, n내에 있는 영역이 전체 영상에 비해 상관도가 높을수록 |BC(m, n)|은 1에 접근하며 상관도가 낮을 수록 |BC(m, n)|은 0에 접근하게 된다. 도 19는 본 발명에서 전체 영상에 대한 (m, n) 국부 영역의 BC(m, n) 배열의 동질성에 관한 특성을 보인 도면이다. 그래서 도 19에서 처럼 BI(m, n), BD(m, n) 배열에 대해서는 변화가 없으나 m, n에 있는 국부 영역이 전체 영상에 동질성(homogeneity)이 높을수록 |BC(m, n)|의 값은 낮아지게 된다.
도 20은 본 발명에서 얼굴 영상에 대하여 전처리된 영상의 BI(m, n), BD(m, n), BC(m, n) 배열의 예를 보인 도면이다.
도 20에서는 얼굴 영상에 대하여 미디언 필터링과 히스토그램 평활화를 이용하여 입력 영상의 다양한 조명 조건을 전처리하였다. 도 20에서 전처리 결과 영상은 20x26으로 정규화된 영상이며 저해상도에 적당한 (M=2, N=2)을 설정하였다. 도면에서처럼 얼굴 영역에서 눈, 코, 입의 특성 때문에 수평 성분이 강하게 나타난다. C(k, l)을 k번째 열공간(column space)에서 l번째 요소라 하고 R(k, l)을 k번째 행공간(row space)에서 l번째 요소라고 했을 때 얼굴 영역의 BI(m, n) 특징에 대해서 C(k, l)≤R(k, l)이 성립한다. 또한 눈, 코, 입 영역이 국부적으로 밀집되어 있는 특성에 따라 BD(m, n), BC(m, n) 배열의 요소 값이 특정 범위에 분포하게 된다. 따라서 분류기를 학습시키기 위해서 각각의 질감 특징 배열에 대해서 m=n=0의 요소 값을 제외한 (m+1)x(n+1)-1개의 배열 요소 값들을 특징 값으로 한다.
3.4.2 최적의 SGLD 질감 특징 추출
SGLD 매트릭스의 (M, N)의 값과 정규화 영상 크기를 설정하기 위해서 입력 영상 90x112에 대해서 정규화 영상을 20x26을 기준으로 가로/세로 1.5배씩 증가시 키면서 (M, N)에 값에 따른 분류 성능을 평가하였다. 분류 방법은 이진분류 나무를 이용하였으며 교차 검증(cross validation) 방법을 이용하여 소환(recall) 비율과 정확(precision) 비율로 성능을 평가하였다. 또한, 분류를 위해 사용된 영상 샘플로는 AT&T의 얼굴 영상 데이터베이스의 400개 얼굴 영상과 Corel 영상들로부터 얼굴이 아닌 영상 300여개 영상을 이용하였다.
(M, N) 값에 따른 성능과 처리속도는 보상관계(tradeoff)에 있으며 정규화 영상에 따른 처리 속도는 큰 변화가 없다. 따라서 높은 성능을 갖는 정규화 영상크기와 처리속도가 낮은 (M, N)의 값을 설정하여야 한다. 얼굴 영역 검출에서는 얼굴 영역이 아닌 영역을 얼굴 영역으로 잘못 분류하는 정도를 나타내는 정확 비율 또한 성능 평가에 중요한 요소이다.
그래서 본 발명에서는 성능이 가장 우수한 60x78의 정규화 영상 크기를 선택 하였으며 (M, N)의 값은 M=N=6으로 선택하였다.
3.5 얼굴 인식
3.4절에서 SGLD 매트릭스를 사용하여 얼굴 영역 이미지를 검출하였다. 본 절에서는 검출된 얼굴 영역 이미지에서 PCA(Principle Component Analysis) 기법을 적용하여 고유 얼굴(Eigenface)을 구성하고 분류기에 사용될 주요 특징값을 구한 후 Minimax Probability Machine(MPM)을 사용하여 분류기를 구현한다.
3.5.1 PCA(Principle Component Analysis)
기존 연구에서 얼굴을 표현하는 방법들은 대체적으로 두 가지 형태의 접근 방법으로 나눌 수 있다.
첫째는 얼굴 영상에서 특징 기반(Feature based) 기법으로 얼굴을 표현하는 것이다. 입력 영상으로부터 얼굴의 주요 부분인 눈이나 코, 입의 여러 특징점을 추출하는 지역 특징 추출 기법, 얼굴 영상의 경계선들(edges)을 모아 만든 경계선 지도(edge map) 기법, Garbor 필터를 이용한 기법 등이 이에 포함된다. 이중 가장 높은 성능을 보이고 뇌과학적 근거가 있는 Garbor 필터를 이용한 방법은 다양한 방위와 공간주파수의 Gabor 필터를 이용하여 영상에 convolution을 수행한 후, 지역적인 특징요소에서의 필터 반응 값에 대해 입력된 영상과 기준 영상의 상관계수를 구해 얼굴 인식을 하는 방법이다.
두 번째 접근 방법은 입력 얼굴 영상에서 직접 얼굴의 코딩을 얻어내는 외형 기반(Appearance based) 기법이다. 가장 대표적인 방법으로 PCA가 쓰이고 있는데 이는 각 입력 영상을 1차원 벡터로 변환한 후 전체 입력 영상들의 직교적인 공분산 행렬(Covariance Matrix)을 계산한 후에 그것의 고유값(Eigenvalue)에 따라 고유벡터(Eigenvector)를 구하고 입력된 얼굴과 기준 얼굴의 고유벡터를 벡터 공간상에서 비교하여 가장 가까운 거리의 벡터를 지닌 얼굴이 인식되도록 하는 방법이다.
따라서 PCA를 적용한 기법은 고유얼굴(Eigenface) 기법으로 불리기도 하는데, 많은 연구 결과에서 높은 성능을 보이고 있다.
3.5.2 고유얼굴(Eigenface) 추출
3.4 절에서 얻어진 (M, N)의 값은 M=N=6이고 크기가 60ㅧ78인 정규화 영상으로부터 PCA 기법을 이용하여 고유얼굴을 구하고 특징값을 추출하는 과정을 설명한다.
크기가 60x78인 하나의 정규화 영상에서 고유얼굴을 추출할 경우 4,680 차원의 공간을 지니게 되는데 이렇게 고차원으로 표현된 영상의 경우 얼굴인식을 수행하기에는 너무 복잡하고 시간 또한 오래 걸린다. 고유얼굴 기본 개념은 고차원으로 표현된 이미지를 저차원으로 표현해서 얼굴을 쉽게 인식하게 하는 것이다. 이렇게 차원을 줄여 이미지의 모든 픽셀을 비교하지 않고도 학습된 얼굴들과 비교 할 수 있다.
고유얼굴을 구하기 위해 얼굴 이미지로부터 고유벡터를 추출하기 위하여 다음과 같은 과정을 거친다.
먼저, 얼굴 이미지는
Figure 112006053358925-pat00034
크기의 벡터
Figure 112006053358925-pat00035
의 집합으로 정의될 때, 수학식 28은 학습을 위한 얼굴영상의 평균이고 수학식 29는 얼굴영상의 공분산이다.
Figure 112006053358925-pat00036
Figure 112006053358925-pat00037
이 공분산 행렬을 이용하여 고유치와 고유백터를 구하여 이미지를 수학식 30과 같이 선형결합(linear combination)의 형태로 만들 수 있고, 공분산 행렬은 수학식 31과 같이 나타낼 수 있다.
Figure 112006053358925-pat00038
Figure 112006053358925-pat00039
그러나,
Figure 112006053358925-pat00040
의 크기는
Figure 112006053358925-pat00041
이기 때문에 여기서 고유치를 구한다는 것은 엄청난 비용을 초래하게 된다. 그러나
Figure 112006053358925-pat00042
의 경우 크기가
Figure 112006053358925-pat00043
Figure 112006053358925-pat00044
와 달리 현실적으로 연산 가능하다. 다음의 수학식 32, 수학식 33, 수학식 34를 보면
Figure 112006053358925-pat00045
를 구하기 위해 계산이 어려운
Figure 112006053358925-pat00046
대신
Figure 112006053358925-pat00047
을 이용할 수 있음을 알 수 있다. 이때,
Figure 112006053358925-pat00048
의 고유벡터는
Figure 112006053358925-pat00049
가 되며,
Figure 112006053358925-pat00050
의 고유벡터는
Figure 112006053358925-pat00051
이다.
Figure 112006053358925-pat00052
Figure 112006053358925-pat00053
Figure 112006053358925-pat00054
각 얼굴 영상은 수학식 35와 같이 나타낼 수 있으며, 수학식 36은 학습을 위한 얼굴 영상을 정규화 시킨 것이다.
Figure 112006053358925-pat00055
Figure 112006053358925-pat00056
이렇게 얻어진 수학식 36의
Figure 112006053358925-pat00057
Figure 112006053358925-pat00058
들을 얼굴 인식을 위한 특징값으로 사용한다.
3.5.3 MPM(Minimax Probability Machine)
얼굴인식을 위한 분류기로 신경망(Neural Network)과 SVM(Support Vector Machine)이 대표적으로 많이 사용된다. 신경망의 경우 얼굴인식 분야에서 다양하게 사용되었으며, 최근에는 SVM 또한 많이 사용되는 추세이다. SVM은 기존의 학습 알고리즘이 학습집단을 이용하여 학습오류(empirical error)를 최소화하는 경험적 위험 최소화 원칙(Empirical Risk Minimization, EMR)을 구현하는 것인데 비해 SVM이 사용하는 구조적 위험 최소화 원칙(Structural Risk Minimization, SRM)은 전체집 단을 하위 집단으로 세분화한 뒤 이 집단에 대한 경험적 위험도를 최소화하는 의사결정함수를 선택하는 것이다.
본 발명에서 얼굴인식을 위하여 사용한 분류기인 MPM(Minimax Probability Machine)은 새로운 분류 방법이다. MPM의 최고 강점은 입력 데이터의 평균과 공분산 행렬을 알 경우, 입력 데이터가 가질 수 있는 최악의 경우의 오분류 확률 범위를 명시적으로 알려준다는 것이다. 이진 분류를 위한 MPM의 기본 이론은 다음과 같다.
MPMC(Minimax Probability Machine Classifier)의 목표는 입력 데이터가 올바르게 분류될 최소한의 확률 ΩH가 최대화 될 수 있는 범위 H(a,b)={z|aTz = b}을 찾아내는 것이다. 랜덤 벡터 x, y로 부터 두 개의 클래스가 생성되었다고 가정할 때, 이 범위를 랜덤 벡터 x, y의 평균과 공분산으로 나타낼 수 있다.
Figure 112006053358925-pat00059
수학식 37을 수학식 38과 같이 나타낼 수 있다.
Figure 112006053358925-pat00060
이 때, 수학식 38은 초평면 파라미터 a*가 최적값(optimal value)을 가질 때 최소화 된다. 이때, 초평면 파라미터 b*는 수학식 39와 같이 구할 수 있다.
Figure 112006053358925-pat00061
이렇게 얻어진 새로운 데이터 좌표 Znew는 sign(a* TZnew-b*)에 따라 분류된다. 즉, sign(a* TZnew-b*)의 값이 양수이면 x 클래스에 속하고, 아닐 경우 y 클래스에 속하게 된다.
4. 등장인물 기반 비디오 요약
2.절에서는 화자 인식을 통한 등장인물 기반 비디오 요약 방식을 제안하였고, 3.절에서 제안한 얼굴영역 검출 및 얼굴인식 방법을 제안하였다. 4.절에서는 이 두 가지 방법을 이용한 등장인물 기반 비디오 요약 방식에 대하여 제안한다.
4.1 비디오 데이터에서 얼굴 인식 결과의 특징
본 발명에서 제안한 비디오 데이터에서 얼굴 인식의 경우 얼굴 영역 검출로 후보군을 선정 후 얼굴인식을 수행하였다. 얼굴 후보군의 경우 형태적 제약조건을 가지고 있기 때문에 비디오 데이터 전 영역에서 골고루 분포되지 않는다. 예를 들 어보면, 두 배우가 테이블에 마주보고 앉아서 서로 대화를 주고받는다고 가정하자. 카메라는 두 배우의 얼굴을 클로즈업 하여 번갈아가며 보여주는 경우가 많을 것이고, 짧은 시간에 많은 얼굴영역 후보군이 선택되어 질 것이다. 그러나 두 배우가 길을 걸어가면서 대화를 하거나 사람들이 많은 곳에서 움직이면서 대화를 할 경우 얼굴이 클로즈업 되는 경우가 앞의 경우보다 적어서 얼굴 영역 후보군으로 선정되는 프레임의 수가 상대적으로 적을 것이다.
도 21은 본 발명에서 시간별 얼굴영역 프레임의 수를 보인 도면이다. 이러한 도 21은 실제 실험에 사용된 비디오 중 하나에서 검출된 얼굴 영역 프레임의 수를 시간대 별로 나누어 본 것이다. 이렇게 비디오 데이터 전체에 골고루 분포하는 음성 데이터와는 다르게 얼굴 인식 결과는 특정 부분에서만 많은 프레임이 선택되어지고 다른 부분에서는 적게 선택되어지는 특징을 지니게 된다. 그러므로 단순하게 얼굴인식 결과를 화자 인식과 같이 출연율을 기준으로 하여 화자인식 결과와 조합하는 것은 문제가 될 소지가 있다. 실제로는 상당시간 출연하였음에도 불구하고 얼굴이 크게 잡히지 않았다는 이유로 낮은 출연율을 지니는 오류를 범할 가능성이 매우 크기 때문이다.
4.2 얼굴 인식 결과의 적용
수학식 40은 얼굴인식 결과를 화자 인식 결과와 병합하여 최종적으로 등장인물 기반 비디오 요약을 수행하기 위하여 거치는 과정이다. 수학식 40의 W는 가중 치, f는 얼굴영역 프레임의 수, RC는 얼굴인식을 통하여 구한 해당 구간에서 등장인물 C의 얼굴이 존재할 확률 그리고 k는 등장인물 C가 해당구간에서 주요 등장인물로 선택할지 기준이 되는 확률이다. 수학식을 간략히 설명하자면, 해당 구간에서 등장인물 C에 대한 얼굴인식 결과가 특정 기준확률 k 이상이면 양수값을 가지게 되어 출연율이 높아지고 반대의 경우 음수값을 가지면 낮아진다. 그리고 구간내의 얼굴 영역 프레임의 수를 곱하여 얼굴 영역 검출 결과의 신뢰성을 확보하였다.
Figure 112006053358925-pat00062
이렇게 구한 ARCv 값을 수학식 41과 같이 화자 인식을 통하여 구한 출연율, ARCa와 합하여 최종적으로 등장인물 C에 대한 출연율 ARC 값을 구함으로서 비디오 요약을 수행하였다.
Figure 112006053358925-pat00063
5. 실험 및 검토
5.1 실험 환경 및 실험 데이터
본 발명에서 제안하는 화자 중심 비디오 요약, 얼굴영역 검출, 얼굴 인식 및 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 성능의 검증을 위하여 3가지 TV드라마를 실험 데이터로 사용하였다. 총 3개의 드라마를 통해서 화자 인식 그리고 얼굴 영역 검출 성능을 평가한다. 얼굴 영역 검출 실험은 Visual-C++와 Matlab을 사용하였다.
도 22는 본 발명에 대한 실험을 위한 데이터 환경을 보인 표이다.
실험 데이터로 사용된 3개의 비디오는 모두 장르가 드라마로서 도 22와 같은 데이터로 이루어져 있으며, 비디오에 포함된 오디오의 데이터도 같이 나타나있다.
5.2 화자 중심 비디오 요약에 관한 실험
본 절에서는 화자 중심의 비디오 요약을 위한 음성 검출 및 화자 인식에 관한 실험을 한다.
음성 추출 및 화자 인식을 위하여 5.1절의 도 22에서 제시한 RMS, MFCC, 그리고 SONE 기반의 특징값을 이용한다.
도 23은 도 22의 실험 데이터 D1에 대한 화자 중심 비디오 요약을 보인 표이고, 도 24는 도 22의 실험 데이터 D2에 대한 화자 중심 비디오 요약을 보인 표이며, 도 25는 도 22의 실험 데이터 D3에 대한 화자 중심 비디오 요약을 보인 표이다.
이러한 도 23 ~ 25에는 각각의 실험 데이터에 대한 실험 결과가 나타나있다. 모든 실험 데이터가 포함하는 씬의 개수가 매우 크기 때문에, 음성 비율(Voice Ratio)이 일정량 이상인 씬만을 나타내었다. 각각의 실험 데이터는 모두 독립적인 내용을 담고 있으므로, 데이터가 포함하는 비중 있는 인물의 인원수는 각각 다르다.
도면에서 VR(Voice Ratio)은 씬에서 전체 음성이 존재하는 구간의 비율이며, AR은 해당 화자의 출연율(AR : Appearance Ratio)을 의미한다. 각각의 S1, S2는 중심 등장인물을 의미하며, SO는 모든 중요 등장인물을 제외한 나머지 인원을 의미한다. 각각의 결과에서 Pre와 Pst는 각각 기존 실험 결과와 하나의 연속된 음성 구간에서 가장 많은 분포를 차지하는 화자를 그 구간의 등장인물로 선택하는 보팅(Voting) 방식의 후처리(Post-processing) 기법 적용유무에 따른 결과를 나타낸다. 표에 제시한 결과는 각각의 데이터마다 VR이 가장 큰 31개의 결과만 추렸다. 각각의 'O'와 'X'는 해당 화자의 등장 여부를 의미하며, 'F'와 'M'은 실제 등장 여부와 실험 결과가 다른 것을 의미한다. 즉, 어떤 등장인물이 해당 씬에 출연하지 않았는데 실험 결과 출연한 것으로 오분류 하면 'F', 반대의 경우에는 'M'이 표시된다.
도 23 ~ 25에서 음영처리가 되어있는 부분은 실험 결과 분석 후, 중요 등장인물이 아닌 나머지 성분을 포함하는 화자를 의미하며, 본 실험에서는 간단하게 이와 같은 화자를 기타 화자라고 칭한다. 기타 화자의 성분을 보면 대부분 순수 음악 성분이나 음악 성분에서 가수의 목소리 등이 많이 포함되어 있으며, 주요 등장인물을 제외한 나머지 등장인물의 목소리도 대부분 기타 화자로 포함된다.
실험 결과 D1에서는 D2, D3에 비하여 VR값이 매우 높은 것을 알 수 있다. 이것은 D1의 경우 드라마의 전체적인 내용의 초반 부분이기 때문이다. 일반적으로 드 라마의 초반 내용에서는 인물의 대사 위주의 흐름이 진행되기 때문에 이것은 당연한 결과라고 볼 수 있다. 그와 반대로 D2와 D3은 거의 내용의 마지막에 해당하기 때문에, 화자에 의한 내용 전개보다는 전반적으로 배경음악과 영상적인 부분에 의해 흐름이 진행된다.
도 26은 도 23 내지 도 25에서의 화자 중심의 비디오 요약의 성능을 분석한 표이다.
그래서 오분류의 분포를 보면 도 26과 같이 간단히 정리할 수 있다. 소환 비율과 정확 비율의 계산 방식은 앞에서 제시한 것과 동일하며, 오분류의 분포를 분석하는데 있어서 모든 실험 데이터에 대해서 기타 화자의 성능은 제외한다.
도 26에서 Th가 의미하는 것은 출연율의 임계값이며, 해당 화자의 출연율이 Th보다 높으면 해당 씬에 출연한다고 판단한다. 출연율에 대한 정의는 이미 앞에서 제안하였다. D1의 경우, 나머지 실험 영상에 비하여 VR이 매우 높았기 때문에, Th를 높게 설정하여 전체적인 비중의 정도를 낮추었다.
D1, D2, 그리고 D3을 비교해 보았을 때, 전반적으로 D1의 성능이 다른 두 개의 실험 데이터에 비해서 좋은 성능을 갖는 것을 알 수 있다. 이것은 앞에서도 말한 것과 같이 D1의 경우는 대부분 화자간의 대화를 통해 내용이 진행되기 때문이다. D2와 D3의 경우 매우 많은 양의 배경음악이 흐르고, 그 중에는 가수의 목소리가 첨가되어있는 경우도 많다. 따라서 그런 음악 성분과 음악 내부의 음성 성분에 의해서 오분류가 많이 생기는 것은 당연한 것이라고 할 수 있다.
도 26에서 보면, 후처리 이전과 후처리 이후의 결과가 매우 차이가 나는 것 을 알 수 있다. 소환 비율의 경우 평균적으로 13.9%의 향상을 보였고, 정확 비율은 평균적으로 14.4%의 향상을 보였다. 이러한 현상은 오분류가 어떤 한 부분에 집중되지 않을 것이라는 가정 하에서 이루어 졌고, 실제로 간헐적으로 오분류가 발생했기 때문에 앞에서 제시한 후처리 과정에 의해서 거의 대부분의 오분류가 교정되는 결과를 볼 수 있다.
5.3 얼굴 영역 검출에 대한 실험
피부색 검출을 위해 웹 이미지로부터 피부색 픽셀들의 Cb, Cr 값을 추출하여 베이즈 분류기를 생성하였다.
얼굴 영역 검출을 위하여 SGLD 질감 정보를 추출하고 이진 분류 나무를 이용하여 분류기를 설계하였다.
얼굴 영역이 아닌 클래스를 위한 훈련 샘플은 Corel 영상들 중 피부색 영역으로 오분류한 부분을 이용하였다.
추출된 SGLD 특징 값을 교사학습 방법인 이진 분류 나무를 이용해서 최적의 분류 나무를 생성하였다.
도 27은 본 발명에 대한 실험에서 얼굴 영역 검출 결과를 보인 표이다. 이러한 도 27에서는 실험 비디오에 대한 이진 분류 나무와 문턱 값을 이용한 얼굴 영역 검출 성능을 보여주고 있다.
비디오 3의 경우 샷 전환점 검출의 성능 저하와 피부색과 유사한 영역을 포함하는 실내 샷으로 인해 정확 비율에 관한 성능이 낮았다. 또한, 문턱 값을 이용 한 분류 방법은 이상치(outlier)에 민감하여 이진 분류 나무에 의한 분류 결과보다 정확비율의 성능이 현저하게 떨어졌다.
5.4 얼굴 인식에 대한 실험
얼굴 인식 실험은 실험 비디오로 부터 검출된 얼굴 영역 샘플로 구성한 데이터베이스와 성능 검증을 위해 AT&T의 ORL 얼굴 데이터베이스를 사용하였다. 검출된 얼굴 영역 샘플로부터 40명의 개별 인물을 선정하여 한 인물 당 10개씩 총 400개의 얼굴 이미지를 선택하여 데이터베이스를 구축하였다. 각 인물 당 10개의 이미지를 선택할 때는 위치, 각도, 크기 등 최대한 서로 다른 특징을 지니는 이미지를 선택하였다.
다중클래스 패턴 인식을 위하여 PCA를 이용하여 입력 영상의 특징을 추출하였고, binary MPM을 분류기로 사용하였다. 특징값의 개수는 Exhaustive Search 방식을 사용하여 4개로 결정하였다. 성능 검증을 위해서는 10-fold 교차 검증을 수행하였다.
도 28은 본 발명에 대한 실험에서 실험 비디오에 대한 얼굴 인식 결과를 표인 표이다.
AT&T 얼굴 데이터베이스 역시 10-fold 교차 검증을 수행하였다. AT&T 얼굴 데이터베이스의 경우 평균 95.30%, 실험 비디오에서 추출된 데이터베이스의 경우 90.84%의 좋은 성능을 보였다.
5.5 등장인물 기반 비디오 요약 실험
등장인물 기반 비디오 요약은 5.2절에서 수행한 화자인식을 통한 화자 중심의 비디오 요약 결과와 5.4절에서 실험한 얼굴 인식 알고리듬을 각 실험 데이터의 얼굴영역 프레임 전체에 대하여 얼굴 인식 실험을 수행하여 나온 결과를 기반으로 수행하였다.
Figure 112006053358925-pat00064
수학식 42에서 ARa는 화자 인식을 통하여 얻어진 출연율이고 ARv는 얼굴영역 검출 실험을 통하여 얻어진 출연율이다. 최종적으로 등장인물 C에 대하여 화자인식 및 얼굴인식을 통하여 구해진 ARc값이 문턱값 Th보다 클 경우 해당 구간을 등장인물 C를 위한 요약 결과에 포함시키게 된다.
5.5.1 최적 문턱값 및 가중치
5.5절의 문턱값 Th및 수학식 40의 가중치 W값의 최적치를 구하기 위하여 무작위로 테스트 샘플을 추출하여 각각의 오분류 확률을 특성 곡선(characteristic curve) 또는 ROC(receiver operating characteristic) 곡선으로 표현하였다. ROC 곡선은 두 클래스에 대한 오분류 확률의 보상관계(trade-off)를 시각적으로 잘 표현한다. 따라서 ROC 곡선을 이용하여 두 클래스에 대한 최적의 보상관계를 갖는 문턱값 및 가중치를 결정할 수 있다.
5.5.2 비디오 요약 실험 결과
도 29는 도 22의 실험 데이터 D1에 대한 등장인물 기반 비디오 요약을 보인 표이고, 도 30은 도 22의 실험 데이터 D2에 대한 등장인물 기반 비디오 요약을 보인 표이며, 도 31은 도 22의 실험 데이터 D3에 대한 등장인물 기반 비디오 요약을 보인 표이다. 또한 도 32는 도 29 내지 도 31의 등장인물 기반 비디오 요약의 성능을 분석한 표이다.
그래서 도 29 ~ 도 31은 5.5.1에서 구한 문턱값 Th와 가중치 W값을 사용하여 비디오 요약 실험을 수행한 결과이고, 도 32는 성능 평가 결과이다.
도 29 ~ 도 31의 Face는 얼굴영역 프레임의 수이고, Pre는 얼굴인식 결과를 적용하기 이전, Pst는 인식결과를 적용한 이후의 결과이다. 도 32의 결과와 같이 화자 인식을 통한 비디오 요약 결과에 얼굴 인식 결과를 적용하여 소환 비율이 6.4%, 정확 비율이 2.3% 향상됨을 확인하였다.
6. 결 론
본 발명에서는 오디오 정보를 이용한 화자 중심의 비디오 요약 기법, 얼굴 영역의 검출 및 얼굴인식 그리고 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약을 제안하였다.
비디오를 씬 단위로 분할 후, 분할된 씬에 대하여 화자 중심의 비디오 요약을 수행하였다. 일반적으로 하나의 비디오에 대해서 비중이 큰 등장인물의 인원수 는 3~4명이라는 가정 하에서 실험을 하였으며, 출연율이라는 계수를 정하여 등장인물의 비중 정도를 결정하였다. 화자의 인식 과정 이전에 음성을 검출하기 위하여 SONE에 기반한 특징값을 이용하였다. 분류기로 K-NN 분류기를 사용하였으며, 85% 이상의 음성 구간을 추출하면서 좋은 성능을 보였다. 추출된 음성에 대해서 화자 인식을 수행하기 위하여 MFCC와 GMM를 사용하였다. 본 실험에서는 총 24개의 MFCC 특징 값과 13개 노드의 GMM를 사용하였다. 순수 음성 구간에서의 화자 인식 성능은 평균적으로 80% 이상의 성능을 보였고, 인위적으로 음성에 음악 성분을 포함시킨 데이터에 대해서는 75% 정도의 성능을 보이면서 선택된 특징값의 안정성을 확인하였다.
위의 과정을 통해서 각각의 씬에서 주요 등장인물의 출연 여부를 판단하였으며, 전체적으로 출연율이 낮은 등장인물들은 기타 화자로 분류하여 군집화 하였다. 3개의 실험 데이터에 대해서 평균적으로 70%정도의 소환 비율과 정확 비율을 보였으며, 본 발명에서 제안한 후처리 방식을 통하여 소환 비율은 83.9%, 정확 비율은 86.3%까지 향상시켰다.
얼굴 영역 검출 기법에서는 효율적인 검출을 위해서 CbCr의 칼라 정보를 이용하여 피부색 검출로 입력 프레임 영상을 단순화시켰다. SGLD 배열로부터 얼굴 영역 고유의 질감 정보를 추출하였으며 추출된 질감 정보를 이용하여 최적의 이진 분류 나무를 생성하였다. SGLD 배열은 인접한 픽셀간의 발생 빈도를 측정하여 질감 정보를 표현하는 특징 값이다. 따라서 눈, 코, 입 등을 포함하고 있는 얼굴 영역은 고유한 SGLD 질감 정보를 갖고 있다. 얼굴 영역 검출에 적합한 최적의 특징 정보를 추출하기 위해서 SGLD를 분석하여 정규화 영상 크기, 특징 벡터의 차수를 결정하였다.
이진 분류 나무는 비계량적(non-metric) 분류 방법으로써 빠른 학습과 분류 성능을 갖고 있다. 얼굴 인식에 사용되는 AT&T의 얼굴 데이터베이스를 훈련 샘플로 최적의 이진 분류 나무를 생성하였다. 생성된 이진 분류 나무를 복잡한 배경과 다양한 크기의 인물이 나오는 3종류의 비디오에 적용하여 얼굴 영역 검출 성능을 평가하였다. 제안하는 얼굴 영역 검출 기법은 92%의 소환 비율(recall ratio)과 85%의 정확 비율(precision ratio)로 우수한 성능의 결과를 보였다.
얼굴 인식 기법에서는 앞에서 검출된 얼굴 영역 이미지로부터 PCA 기법을 적용하여 고유 얼굴(Eigenface)를 구성하고 분류기에 사용될 주요 특징값을 구한 후 Minimax Probability Machine(MPM)을 사용하여 얼굴 인식을 수행하였다. 제안하는 얼굴 인식 기법은 AT&T 얼굴 데이터베이스의 경우 평균 95.30%, 실험 비디오에서 추출된 데이터베이스의 경우 90.84%의 높은 성능을 보였다.
오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약을 위하여 화자 중심의 비디오 요약 결과에 얼굴 인식 결과를 적용하여 비디오 요약 성능을 향상시켰다. 화자인식 결과에 ROC를 이용하여 구한 가중치가 곱해진 얼굴인식 결과를 ROC를 이용하여 구한 문턱값과 비교하는 방식을 통해 등장인물 기반 비디오 요약을 수행하였다. 화자인식만을 이용하였을 경우의 소환 비율이 83.9%, 정확 비율은 86.3%이였고, 얼굴인식 결과를 적용하면 소환 비율이 90.3%, 정확비율이 88.6%로 향상시켰다.
본 발명의 향상을 위하여 동영상 내의 자막, 움직임, 색상, 배경음악의 장르 등의 추출 기능을 추가한다면 등장인물 기반 요약뿐만 아니라, 사용자의 복합적인 질의어를 만족하도록 요약해 주는 등의 더욱 고차원의 계층적 내용기반 비디오 요약 및 검색 기법을 제공할 수 있을 것이다.
이상에서 살펴본 바와 같이, 본 발명에 의한 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오 요약 장치 및 그 방법은 비디오 데이터 요약 방식에서 오디오 및 비디오 정보를 이용하여 등장인물별 비디오 요약을 제공할 수 있는 효과가 있게 된다.
이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.

Claims (20)

  1. 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 화자 인식부와;
    시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 얼굴 인식부; 및
    상기 화자 인식부에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 상기 얼굴 인식부에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 비디오 요약부;를 포함하여 구성되며,
    상기 화자 인식부는,
    음성 검출을 위한 특징값으로 잘게 나누어진 국부 대역에서의 신호의 세기를 SONE로 변환하여 표시하는 SONE 변환부, 상기 SNOE 변환부에서 변환된 SONE를 특징값으로 하여 K-NN 분류를 수행하는 K-NN 분류부, 입력된 시그널에서 음성신호를 추출하는 음성신호 추출부, 상기 음성신호 추출부와 상기 K-NN 분류부의 결과를 입력받아 MFCC를 추출하는 MFCC 추출부, 상기 MFCC 추출부의 결과를 입력받아 GMM 분류를 수행하는 GMM 분류부 및 상기 GMM 분류부의 결과를 입력받아 후처리를 수행하여 화자 인식 결과를 출력하는 후처리부를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  2. 삭제
  3. 청구항 1에 있어서, 상기 SONE 변환부는,
    음향 신호를 입력받아 FFT을 수행하는 FFT와;
    상기 FFT의 출력을 입력받아 외이 모델링을 사용하여 주파수 도메인에서의 신호에 가중치를 달리하는 외이 모델링부와;
    상기 외이 모델링부의 출력을 입력받아 여러 개의 국부 대역으로 나누는 바크 스케일링부와;
    상기 바크 스케이링부에서 나누어진 각각의 대역에 속하는 신호의 세기에 마스킹을 취하는 마스킹부; 및
    상기 마스킹부의 출력을 입력받아 각 대역의 신호를 SONE의 도메인으로 변환시켜 SONE 계산을 수행하는 SONE 계산부;
    를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  4. 청구항 1에 있어서, 상기 MFCC 추출부는,
    윈도우를 이용하여 입력된 음성 신호를 분할하는 제 1 곱셈부와;
    상기 제 1 곱셈부의 출력을 주파수 변환시키는 FFT와;
    상기 FFT의 출력에 대해 절대값을 취하는 절대값 변환부와;
    상기 절대값 변환부의 출력에 대해 주파수 응답을 곱하는 제 2 곱셈부와;
    상기 제 2 곱셈부의 출력에 대해 다양한 대역폭을 갖는 필터들의 균일한 스펙트럼을 위한 정규화 과정을 수행하여 멜에너지를 출력하는 멜에너지 출력부; 및
    상기 멜에너지 출력부에서 출력되는 멜에너지를 이산여현변환하여 멜 켑스트럼을 출력하는 DCT;
    를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  5. 청구항 1, 청구항 3 또는 청구항 4 중 어느 한 항에 있어서,
    상기 얼굴 인식부는,
    시각 정보를 입력받아 피부색을 검출하는 피부색 검출부와;
    상기 피부색 검출부에서 검출된 피부색에 대해 후보군을 선정하는 후보군 선정부와;
    상기 후보군 선정부에서 선정된 후보군을 이용하여 얼굴영역을 탐색하여 임의의 영상이 얼굴을 포함하고 있는지에 관한 여부를 결정하고 각 얼굴 영역에 대한 위치와 크기를 파악하는 얼굴영역 탐색부와;
    상기 얼굴영역 탐색부의 결과를 입력받아 SGLD 질감 특징을 추출하여 얼굴 영역 이미지를 검출하는 SGLD 매트릭스; 및
    상기 SGLD 매트릭스의 출력을 입력받아 얼굴 인식을 처리하는 얼굴인식 처리부;
    를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  6. 청구항 5에 있어서,
    상기 피부색 검출부는 베이스 분류기를 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  7. 청구항 5에 있어서,
    상기 후보군 선정부는 미디언 필터를 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  8. 청구항 5에 있어서,
    상기 얼굴영역 탐색부는 사각형의 탐색창을 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  9. 청구항 5에 있어서,
    상기 SGLD 매트릭스는 CART 분류기를 사용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  10. 청구항 5에 있어서,
    상기 얼굴인식 처리부는 PCA를 사용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  11. 청구항 5에 있어서,
    상기 얼굴인식 처리부는 고유얼굴을 추출하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  12. 청구항 5에 있어서,
    상기 얼굴인식 처리부는 MPM 분류기를 사용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 장치.
  13. 청각 정보를 이용한 화자인식으로 주화자를 검출하고, 특정 배우 단위의 요약을 제공하는 제 1 단계와;
    시각 정보를 이용한 얼굴영역 검출 및 얼굴 인식을 통하여 특정인물이 등장하는 키 프레임을 검출하는 제 2 단계; 및
    상기 제 1 단계에서의 청각 정보를 이용한 화자 중심의 비디오 요약 결과와 상기 제 2 단계에서의 시각 정보를 이용한 얼굴 인식 결과를 이용하여 등장인물 기반 비디오 요약을 수행하는 제 3 단계를 포함하여 구성되며,
    상기 제 1 단계는,
    SONE를 특징값으로 하여 K-NN 분류기를 사용하여 음성 부분을 추출하는 제 11 단계와;
    상기 제 11 단계 후 추출된 음성에서 MFCC를 특징값으로 추출하는 제 12 단계; 및
    상기 제 12 단계 후 GMM과 보팅 방식을 사용하여 화자 인식을 수행하는 제 13 단계;
    를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  14. 삭제
  15. 청구항 13에 있어서,
    상기 제 2 단계는,
    시각 정보를 입력받아 피부색을 검출하는 제 21 단계와;
    상기 제 21 단계에서 검출된 피부색에 대해 후보군을 선정하는 제 22 단계와;
    상기 제 22 단계에서 선정된 후보군을 이용하여 얼굴영역을 탐색하여 임의의 영상이 얼굴을 포함하고 있는지에 관한 여부를 결정하고 각 얼굴 영역에 대한 위치와 크기를 파악하는 제 23 단계와;
    상기 제 23 단계의 결과를 입력받아 SGLD 질감 특징을 추출하여 얼굴 영역 이미지를 검출하는 제 24 단계; 및
    상기 제 24 단계의 출력을 입력받아 얼굴 인식을 처리하는 제 25 단계;
    를 포함하여 구성된 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  16. 청구항 15에 있어서,
    상기 제 21 단계는 베이스 분류기를 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  17. 청구항 15에 있어서,
    상기 제 22 단계는 미디언 필터를 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  18. 청구항 15에 있어서,
    상기 제 23 단계는 사각형의 탐색창을 이용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  19. 청구항 15에 있어서,
    상기 제 24 단계는 CART 분류기를 사용하는 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
  20. 청구항 15에 있어서,
    상기 제 25 단계는, 검출된 영역에서 PCA 기법을 이용하여 고유얼굴을 구성하고, 중요특징값 추출 후 MPM 방식을 이용하여 분류하는 것을 특징으로 하는 등장인물 기반 비디오 요약 방법.
KR1020060069845A 2006-07-25 2006-07-25 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 KR100792016B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060069845A KR100792016B1 (ko) 2006-07-25 2006-07-25 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060069845A KR100792016B1 (ko) 2006-07-25 2006-07-25 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR100792016B1 true KR100792016B1 (ko) 2008-01-04

Family

ID=39216855

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060069845A KR100792016B1 (ko) 2006-07-25 2006-07-25 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100792016B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133782A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
WO2016137728A1 (en) * 2015-02-24 2016-09-01 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
US9684818B2 (en) 2014-08-14 2017-06-20 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
CN108391180A (zh) * 2018-02-09 2018-08-10 北京华录新媒信息技术有限公司 视频摘要生成装置及视频摘要生成方法
KR20180101959A (ko) 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190069920A (ko) * 2017-12-12 2019-06-20 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
KR102173858B1 (ko) * 2019-08-23 2020-11-05 한국항공대학교산학협력단 사용자 선호도 입력 기반 인물 중심 장면 생성 및 비디오 요약 장치 및 방법
US11837238B2 (en) 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
KR102616354B1 (ko) 2023-06-19 2023-12-20 영남대학교 산학협력단 인공 신경망 기반의 비디오 설명 생성 장치 및 방법
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004400A (ko) * 1999-06-28 2001-01-15 정선종 오디오/영상물의 음향적 장면분할방법
KR20030026529A (ko) * 2001-09-26 2003-04-03 엘지전자 주식회사 키프레임 기반 비디오 요약 시스템
KR20050051857A (ko) * 2003-11-28 2005-06-02 삼성전자주식회사 오디오 정보를 이용한 영상 검색 장치 및 방법
KR20060012777A (ko) * 2004-08-04 2006-02-09 삼성전자주식회사 피부색 및 패턴 매칭을 이용한 얼굴 검출 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004400A (ko) * 1999-06-28 2001-01-15 정선종 오디오/영상물의 음향적 장면분할방법
KR20030026529A (ko) * 2001-09-26 2003-04-03 엘지전자 주식회사 키프레임 기반 비디오 요약 시스템
KR20050051857A (ko) * 2003-11-28 2005-06-02 삼성전자주식회사 오디오 정보를 이용한 영상 검색 장치 및 방법
KR20060012777A (ko) * 2004-08-04 2006-02-09 삼성전자주식회사 피부색 및 패턴 매칭을 이용한 얼굴 검출 방법

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101844516B1 (ko) * 2014-03-03 2018-04-02 삼성전자주식회사 컨텐츠 분석 방법 및 디바이스
US10014008B2 (en) 2014-03-03 2018-07-03 Samsung Electronics Co., Ltd. Contents analysis method and device
WO2015133782A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
US9684818B2 (en) 2014-08-14 2017-06-20 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
US10129608B2 (en) 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
WO2016137728A1 (en) * 2015-02-24 2016-09-01 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
KR20180101959A (ko) 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190069920A (ko) * 2017-12-12 2019-06-20 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US10915574B2 (en) 2017-12-12 2021-02-09 Electronics And Telecommunications Research Institute Apparatus and method for recognizing person
KR102433393B1 (ko) * 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
CN108391180A (zh) * 2018-02-09 2018-08-10 北京华录新媒信息技术有限公司 视频摘要生成装置及视频摘要生成方法
CN108391180B (zh) * 2018-02-09 2020-06-26 北京华录新媒信息技术有限公司 视频摘要生成装置及视频摘要生成方法
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor
KR102173858B1 (ko) * 2019-08-23 2020-11-05 한국항공대학교산학협력단 사용자 선호도 입력 기반 인물 중심 장면 생성 및 비디오 요약 장치 및 방법
US11837238B2 (en) 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
KR102616354B1 (ko) 2023-06-19 2023-12-20 영남대학교 산학협력단 인공 신경망 기반의 비디오 설명 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
KR100792016B1 (ko) 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
CN111428088B (zh) 视频分类方法、装置及服务器
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
CN109117777A (zh) 生成信息的方法和装置
US20040260550A1 (en) Audio processing system and method for classifying speakers in audio data
EP1073272A1 (en) Signal processing method and video/audio processing device
Ekenel et al. Content-based video genre classification using multiple cues
CN110175249A (zh) 一种相似图片的检索方法及系统
Rao A novel approach to unsupervised pattern discovery in speech using Convolutional Neural Network
Dhanalakshmi et al. Pattern classification models for classifying and indexing audio signals
Kim et al. Audio-based objectionable content detection using discriminative transforms of time-frequency dynamics
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
Amin et al. Application of Laplacian mixture model to image and video retrieval
Abidin et al. Local binary pattern with random forest for acoustic scene classification
Cai et al. Co-clustering for auditory scene categorization
Haque et al. An enhanced fuzzy c-means algorithm for audio segmentation and classification
Liu et al. Major cast detection in video using both speaker and face information
Rani et al. Automatic video classification: a review
Shah et al. Speech recognition using spectrogram-based visual features
EP3816996A1 (en) Information processing device, control method, and program
KR100863122B1 (ko) 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
Abreha An environmental audio-based context recognition system using smartphones
Chen et al. Long-term scalogram integrated with an iterative data augmentation scheme for acoustic scene classification
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20101230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee