KR20010039771A

KR20010039771A - 시청각적 발성자 인식 및 발성 검증 방법 및 장치

Info

Publication number: KR20010039771A
Application number: KR1020000043831A
Authority: KR
Inventors: 바수상카; 베이지호마윤에스.엠.; 매스스테판허먼; 메슨베노이트엠마누엘기스레인; 네티캐러패띠벤카타; 시니어앤드류윌리암
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1999-08-06
Filing date: 2000-07-28
Publication date: 2001-05-15
Also published as: JP2001092974A; US6219640B1

Abstract

본 발명은 시청각적인 발성자(speaker) 인식 장치 및 방법에 관한 것으로, 상기 장치 및 방법은 임의 내용의 영상 소스와 연관된 영상 신호를 처리하고, 상기 영상 신호와 연관된 음성 신호를 처리한다. 그리고, 상기 처리된 음성 신호 및 영상 신호에 근거하여 인식 판단 및/또는 검증 판단을 실행한다. 실시예에서의 다양한 판단은 스코어 결합 접근, 특징 결합 접근, 리-스코어링 접근을 포함하여 적용되지만, 꼭 이에 한정되지는 않는다. 본 발명의 다른 관점에 있어서, 음성 발성을 검증하는 방법은 영상 소스와 연관된 영상신호를 처리하고, 상기 영상 신호와 연관된 오디오신호를 처리하도록 구성하는 것이다. 그리고, 상기 처리된 음성신호를 상기 처리된 영상신호와 비교하여 두 신호간의 상호 연관성을 결정한다. 이것은 관리되지 않은 발성 검증으로 불리운다. 관리된 발성검증의 실시예에 있어서, 상기 처리된 영상 신호는 상기 영상 신호와 연관된 음성신호를 나타내는 스크립트와 비교되어, 두 신호관의 상호연관성을 판단한다.

Description

시청각적 발성자 인식 및 발성 검증 방법 및 장치{METHODS AND APPARATUS FOR AUDIO-VISUAL SPEAKER RECOGNITION AND UTTERANCE VERIFICATION}

본 발명은 본 출원인에 의하여 출원된 미국특허출원 "Methods and Apparatus for Audio-Visual Speech Detection and Recognition(시각-청각 음성 검출 및 인식 장치 및 방법)"과 연관된다.

본 발명은 일반적으로 발성자를 인식하는 기술에 관한 것으로, 더 구체적으로는 임의 내용의 영상과 연관된 발성자를 인식하고 발성 검증을 개선하도록 영상와 음성 정보를 이용하는 시청각적 발성자 인식 및 발성검증 장치 및 방법에 관한 것이다.

사람은 청각적인 신호, 시각적인 형상신호, 그리고 행동 특징(예를 들어, 특징적인 몸짓, 입모양)을 포함하는 다양한 사람의 특징에 기초하여 발성자를 인식한다. 과거에, 사람을 인식하는 장치를 만드는데 있어서 음성신호(즉, 음성에 기초한 발성자 인식), 시각적인 신호(즉, 얼굴 인식, 홍채 인식) 또는 다른 생물측정(biometric) 신호중 하나에만 연관된 단일 기술에 집중하여 왔다. 더 최근에는, 사람의 인식를 위하여 다중 형태를 결합하는 연구가 시도되고 있다. 이는 J.Bigun, B.Duc, F.Smeraldi, S.Fischer, 그리고, A.Makarov, "Multi-modal person authentication", H.Wechsler, J.Phillips, V.Bruce, F.Fogelman Soulie, T.Huang, Face Recognition:From theory to application, Berlin Springer-Verlag, 1999 에서 알수 있다.

발성자 인식는 보안(security)을 포함하는 다양한 응용분야, 최근에는 디지탈화된 멀티미디어 내용(content)(예를 들어 MPEG-7 표준에 있어서)의 서치 및 정보검색을 위한 인덱스로서 사용되는 중요한 기술이다. 따라서, 청각적으로 불량한 상태(즉, 배경잡음이 있는 상태) 및 채널 부정합(mismatch)(즉, 전화)의 경우와 같은 상태에서 음성-기반 발성자 인식의 정확도를 더 개선할 필요가 있으나, 이는 어려운 문제이다.

본 발명은 상술한 종래의 문제점을 해결하기 위하여 안출된 것으로서, 그 목적은 임의 내용의 영상과 연관된 발성자를 인식하고 발성 검증을 개선하여 청각적으로 상태가 불량하고, 채널 부정합등 발성자 인식에 나쁜영향을 주는 조건에서의 발성자 인식성능을 개선한 시청각적 발성자 인식 및 발성검증 장치 및 방법을 제공하는 것이다.

도 1은 본 발명의 실시예에 따른 스코어 또는 판단을 결합하는 시청각적 발성자 인식 및 발성 검증 시스템을 도시한 블럭도이다.

도 2는 본 발명의 실시예에 따른 발성 검증 방법을 도시한 플로우챠트이다.

도 3은 본 발명의 실시예에 따른 특징을 결합하는 시청각적 발성자 인식 및 발성 검증 시스템의 블럭도이다.

도 4는 본 발명의 실시예에 따른 리-스코어링(re-scoring)을 설명하는 시청각적 발성자 인식 및 발성 검증 시스템의 블럭도이다.

도 5는 본 발명의 또 다른 리-스코어링을 설명하는 시청각적 발성자 인식 및 발성 검증 시스템의 블럭도이다.

도 6은 본 발명에 따른 시청각적 발성자 인식 및 발성 검증 시스템의 하드웨어적인 구현의 예를 보이는 블럭도이다.

도 7은 실험에 의한 결과를 보인 표이다.

*도면의 주요 부분에 대한 부호의 설명*

2 : 임의 내용 영상 4 : 카메라

6 : 마이크로폰 8 : 디멀티플렉서

10 : 영상 디콤프레서 12 : 음성 디콤프레서

14 : 음성특징추출기 16 : 음성 발성자 인식 모듈

18 : 신뢰추정모듈 20 : 능동 발성자 얼굴 분할 모듈

22 : 시각적 발성 특징 추출기 24 : 얼굴 인식 모듈

26 : 신뢰추정모듈 28 : 발성 검증 모듈

30 : 공동 인식및검증 모듈 32 : 판단 모듈

본 발명은 임의의 영상 내용과 연관된 시각정보 및 음성 정보를 이용하여 발성자 인식의 정확도를 향상시킨 다양한 방법 및 장치를 제공한다. 발성자 인식은 사용자 등록, 사용자 인식(즉, 등록된 사용자들 사이에서 특정 사람이 누구인지 확인하는 것), 사용자 검증(즉, 사용자에 의하여 제공된 동일성 요청을 허락하거나 거부하는 것)을 포함하는 것으로 된다. 또한, 본 발명은 시각 정보와 음성 정보를 이용하여 발성 검증을 실행하는 장치 및 방법을 제공하는 것이다.

본 발명의 첫번째 관점에 따른 발성자 인식 방법은 임의 내용의 영상 소스와 연관된 영상신호를 처리하고, 상기 영상신호와 연관된 음성신호를 처리한다. 그리고 나서, 상기 처리된 음성신호 및 영상신호에 근거하여 인식 및/또는 검증 판단을 실시한다. 상기 판단에 대한 다양한 실시예들은 스코어 결합 접근(score combination approach), 특징 결합 접근(feature combination approach), 그리고, 리스코어링 접근(re-scoring approach)을 포함하도록 적용될 수 있으며, 꼭 한정되는 것은 아니다.

다음에 상세하게 설명될 바와 같이, 발성자 인식을 위하여 음성 기반 처리에 시각 처리를 결합시키면, 예를 들어 방송뉴스 영역과 같이 음향적으로 불량한 상태에서, 발성자 인식의 정확도를 현저하게 향상시킨다. 두 채널에 있어서 신호 악화가 서로 상관되지 않기 때문에, 독립된 두개의 정보 소스를 사용하는 것은 발성자 인식의 정확성을 현저하게 증가시킨다. 더구나, 상기에서 시각정보를 이용하는 것은 음성 정보만을 사용할때보다 더 빨리 발성자를 인식하게 한다. 본 발명에 따르면, LDC(Linguistic Data Consortium)에서 제공되는 TV 방송뉴스(즉, CNN과 CSPAN)의 영상데이타에 있어서, 시각정보에 기초한 사람 인식과 음성정보에 기초한 사람 인식을 결합시키는 다양한 방법들의 결과가 제시된다. 즉, 본 발명에서는 영상기반 발성자 인식과 음성기반 발성자 인식을 결합시키므로서, 부정합 상태에서의 성능을 향상시키는 다양한 기술을 제공한다. 본 발명의 바람직한 실시예에서는, 최선의 결합을 이루기 위하여 음성 및 영상에 기초되는 독립된 판단의 상관 가중치(relative weight)를 최적값으로 결정하는 기술을 제공한다. 방송뉴스의 영상데이타에 의한 실험은 음향적으로 불량한 환경하에서 이러한 결합에 의하여 현저한 개선효과를 얻을 수 있음을 보인다.

본 발명의 두 번째 관점에 의하면, 언어 발성을 검증하는 방법은 영상 소스와 연관된 영상 신호의 처리와 상기 영상 신호와 연관된 음성 신호의 처리를 포함한다. 그리고 나서, 처리된 음성신호와 처리된 영상신호를 비교하여 두 신호간의 상호 관련성(a level of correlation)를 판단한다. 이것은 관리되지 않은 음성 검증이라고 불리운다. 관리되는 음성 검증의 실시예로서, 처리된 영상 신호를 상기 영상신호와 연관된 음성신호를 표현하는 스크립트와 비교하여 두 신호간의 상호 관련성(a level of correlation)을 판단한다.

물론, 상기 실시예 또는 처리들중 어떤 것도 하나 이상의 다른 실시예 또는 프로세스와 결합되어 발성 인식 및 발성 검출을 더 개선시킬 수 있다.

또한, 상기 영상신호와 음성신호는 예를 들어, MPEG-2 표준과 같은 압축된 형태일 수 있다. 또한 상기 신호는 카메라/마이크로폰으로부터 실시간으로 중계되는 것, 또는 저장된(기록된) 것일 수 있다. 더구나, 상기 영상신호는 가시적인 및/또는 비가시적인(예를 들어, 적외선 또는 무선 주파수) 파장의 이미지를 포함할 수 있다. 따라서, 본 발명에 의한 방법은 낮은 조도, 조도가 변하는 상태, 불빛이 없는 상태에서 실행될 수 있다. 여기에서 설명된 본 발명의 내용으로부터 이 분야의 전문가들은 다양한 응용예를 생각해낼 수 있다.

본 발명의 예시적인 실시예의 상세한 설명으로부터 본발명의 상술한 목적 및 그외의 다른 목적, 특징, 장점들은 첨부한 도면을 참조하여 읽는다면, 명백하게 나타날 것이다.

먼저, 본 발명의 일실시예에 의한 발성자 인식 구현의 배경이 다음에 설명된다. 상기 실시예는 인식 및/또는 검증 방법을 포함한다. 그러나, 본 발명은 특정한 응용예 또는 실시예에 제한되지는 않는다. 오히려, 본 발명은 발성자 인식의 정확도를 향상시키고 발성 검증을 제공하기 위하여 상기 인식 과정 동안에 시각정보에 음성정보를 결합함에 의하여 일반적으로 응용될 수 있다.

우선, 도 1은 본 발명의 실시예에 따른 시청각적 발성자 인식 및 발성 검증 시스템의 블록도를 도시한다. 이 실시예는 설명될 바와 같이, 판단 결합 접근(decision fusion approach)를 이용하여 시청각적 발성자 인식에 대하여 설명한다.

본 발명의 시스템은 다양한 소스로부터 입력신호를 수신한다. 즉, 본 발명에 따른 처리를 위하여 상기 입력신호는 실시간(즉, 생방송) 소스 또는 보관된(즉, 저장된) 소스로부터 제공될 수 있다. 임의 내용 영상(2)은 생방송 소스 또는 보관된 소스중 하나로부터 수신될 수 있는 입력신호이다. 바람직하게, 상기 시스템은 임의 내용 영상(2)으로서, MPEG-2(Moving Picture Expert Group-2)와 같은 영상표준에 따라서 압축된 영상일 수 있다. 이런 경우를 수용하기 위하여, 상기 시스템은 상기 압축된 영상신호로부터 압축된 음성 신호를 분리하는 영상 디멀티플렉서(8)를 포함한다. 그리고나서 상기 영상 신호는 영상 디콤프레서(10)에 의하여 복원되고, 또한 음성신호는 음성 디콤프레서(12)에 의해서 복원된다. 상기 복원 알고리즘은 표준 MPEG-2 기술로서, 자세한 설명을 생략한다. 어떤 경우에서는, 다른 형태의 압축된 영상이 본 발명에 따라서 처리될 수 있다.

본 발명이 제공하는 장점 중의 하나는 임의 내용 영상을 처리할 수 있다는 것이다. 즉, 발성 인식의 조건에 있어서, 시각 신호(cue)를 이용하도록 시도된 이전의 시스템은 조절된 상태, 즉 임의적이지 않은 내용의 영상을 사용하였다. 즉, 영상 내용은 오직 얼굴만을 포함하고, 얼굴로부터 시각 신호가 얻어저서 주로 노이즈가 없는 환경에서 짧은 명령 또는 단일 신호어를 인식하였다. 그러나, 다음에 상세하게 설명한 바와 같이, 본 발명에 따른 시스템은 오직 얼굴뿐만 아니라 임의의 배경 물체를 포함하는 임의 내용의 영상을 잡음이 있는 환경에서 처리할 수 있다. 임의 내용 영상의 예로 방송뉴스를 들 수 있다. 그런 경우에 있어서, 다음에 설명될 바와 같이, 얼굴, 더 구체적으로 입 및/또는 다른 얼굴 특징을 추적하여, 더 정확한 발성자의 인식 및/또는 검증에 있어서 적절하게 사용될 관련 시각정보를 결정할 수 있다.

선택적으로, 본 발명의 시스템은 영상 카메라(4)와 마이크로폰(6)으로부터 직접 임의 내용을 실시간으로 수신할 수 있다. 도 1에 도시된 바와 같이 상기 카메라(4)로부터 수신된 영상신호와 상기 마이크로폰(6)으로부터 수신된 음성신호는 압축되지 않았지만, 상기 영상신호와 음성신호는 압축될 수 있고, 그 경우 적용된 압축구조에 따라서 복원될 필요가 있다.

상기 카메라(4)에 의하여 캡쳐된 영상신호는 반드시 어떤 특정 타입일 필요는 없다. 즉, 본 발명에 따른 얼굴 검출 및 인식 기술은 가시적 및/또는 비가시적 전자기 스펙트럼 이미지와 같은 어떤 파장의 이미지를 처리할 수 있다. 예를 들면, 상기 이미지는 적외선(IR) 이미지(즉, 근거리, 중간, 원거리 IR 영상)와, 무선주파수(RF) 이미지들이 포함된다. 따라서, 상기 시스템은 낮은 조도, 조도가 변하는 상태, 또는 빛이 없는 환경에서 발성자 인식 및 발성 검증 기술을 수행할 수 있다. 예를 들어, 상기 시스템은 자동차 또는 다른 형태의 차량에 탑재되어, IR 이미지를 캡쳐하여, 발성자 인식을 개선시킨다. 영상정보(즉, 시각적 또는/그리고 비시각적인 전자기 스펙트럼 이미지를 포함하는 영상정보)는 본 발명에 따른 발성자 인식 처리에서 사용되기 때문에, 상기 시스템은 잡음상태에 기인한 인식에러에 덜 민감한데, 상기 잡음상태는 오직 음성 정보만을 이용하는 종래의 발성자 인식 시스템에서 상당한 방해로 작용한다. 또한, 프랑스에서 공개된 J.Prokoski and Robert R.Riedel, "Infrared Identification of Faces and Body Parts" BIOMETRICS, Personal Identification in Networked Society, Kluwer Academic Publishers, 1999 에서, IR 카메라가 개인별로 유일하게 특징지워지는 추가적인 확고한 생물학적 특징을 제시한다.

로마숫자 Ⅰ로 정의된 점선화살표는 음성 신호가 시스템내에서 갖는 처리경로를 나타내고, 로마숫자 Ⅱ로 정의된 점선화살표는 영상 신호가 시스템내에서 갖는 처리경로를 나타낸다. 우선, 상기 음성 신호 경로 Ⅰ에 대해 논의하고, 그 다음 영상 신호 경로 Ⅱ가 논의되고, 이어서 두가지 타입의 정보가 발성자 인식 정확도를 개선하기 위해 어떻게 결합되는 지에 대하여 설명된다.

상기 시스템은 음성 특징 추출기(14)를 포함한다. 상기 음성 특징 추출기(14)는 음성 또는 발성 신호를 수신하고, 그 기술분야에서 잘 알려진 바와 같이, 규칙적인 간격으로 상기 신호로부터 스펙트럼 특징을 추출한다. 상기 스펙트럼 특징은 음성 특징 벡터의 형태로서, 음성 발성자 인식 모듈(16)로 전달된다. 언급된 바와 같이, 상기 영상 소스에 연관된 음성 신호는 음성 디콤프레서(12)로부터 수신되거나, 마이크로폰(6)으로부터 직접 수신될 수 있다. 음성 벡터가 추출되기 전에, 상기 발성 신호는 16 키로헤르쯔(kHz)의 비율로 샘플링된다. 프레임은 25 밀리세컨드(msec) 간격을 갖는 음성의 세그먼트로 구성된다. 그 배열에 있어서, 상기 추출과정은 다음에 설명될 프로세스를 통해 24 차원(dimensional) 청각 세프스트럴(cepstral) 벡터를 만든다. 프레임은 연속된 음성 벡터를 얻기 위하여 매 10초 주기로 만들어진다.

먼저, 음성 특징 추출 프로세스에 따라서, 프레임내의 발성 데이타 샘플의 불연속 푸리에 변환의 크기(magnitude)는 대수적으로 왜곡된 주파수 척도에 있어서 고려된다. 다음에, 이들 진폭 값들은 대수적인 치수로 변환된다. 후자의 두 단계는 사람의 청각 민감도에 의하여 주파수 및 진폭에 의한다. 그 후에, 불연속 코사인 변환의 형태로 전환된다. 상기 동적요소를 캡쳐하는 한 방법은 델타(제1차-차등)와 델타-델타(제2차 차등)정보를 이용하는 것이다. 동적정보를 캡쳐하는 선택적인 방법은 선행 및 후행의 벡터들의 집합(즉, 4)을 고려중인 벡터로 부가한 후 그 벡터를 낮은 차원 공간으로 투영하는 것이고, 이 낮은 차원 공간은 최대한의 차별을 갖도록 선택된다. 후자의 절차는 선형 식별 분석(Linear Discriminant Analysis, LDA)이라고 하는 것으로, 본 기술분야에서 잘 알려져 있다. 특징에 있어서, 의 다른 변화, 즉 LPC 세프스트럴(cepstra), PLP 등이 이용될 수 있다는 것이 이해될 수 있지만, 본 발명은 어떤 특정 타입에 제한되지는 않는다.

도 1에 알파벳 A로 정의된 음성 특징 벡터가 추출된 후, 이 음성 특징 벡터는 발성자 인식 모듈(16)로 제공된다. 상기 모듈(16)은 상기 추출된 음성 특징 벡터를 사용하여 발성자 인식 및/또는 발성자 검증을 수행한다. 상기 발성자 인식 및 검증 처리는 종래의 어떠한 청각정보 발성자 인식 시스템을 통해서도 이루어질 수 있다. 예를 들어, 발성자 인식 모듈(16)은 97년 1월 28일자로 출원되고, "Text Independent Speaker Recognition for Transparent Command Ambiguity Resolution and Continuous Access Control"라는 명칭을 갖는 특허출원에 공지된 인식 기술로 이행될 수 있다. 상기 기술은 본 발명의 참조문헌으로 통합될 수 있다.

모듈(16)에 있어서 사용되는 실례(實例)가 되는 발성자 인식 처리는 다음에 설명한다. 상기 실례가 되는 시스템은 H.Beigi, S.H.Maes, U.V.Chaudari, J.S.Sorenson, "IBM model-based and frame-by-frame speaker recognition", Speaker Recognition and its Commercial and Forensic Applications, Avignon, France 1998에 공개되었다. 상기 예시된 발성자 인식 시스템은 모델-기반 접근과 프레임-기반 접근이라는 두가지 기술을 사용한다. 다음에 기술된 실험에서, 우리는 음성에 기초된 발성자 인식을 위하여 프레임-기반 접근기술을 사용한다. 상기 프레임-기반 접근 기술은 다음의 방식으로 설명될 수 있다.

M_i는 i번째 등록된 발성자에 대응하는 모델로 설정한다. M_i는 평균 벡터, 공분산행렬(covariance matrix)로 이루어진 발성자 i번째 모델의 각 n_i성분에 대한 혼합무게로 이루어진 파라메터 집합에 의하여, 혼합 가우스 모델(mixture Gaussian model)로 표현된다. 이 모델들은 d-차원 세프스트럴(cepstral) 특징 벡터,를 갖는 발성의 K 프레임의 배열로 구성되는 훈련데이타를 이용하여 생성된다. 상기 발성자 인식의 목적은 N 프레임의 배열,로 표현되는 테스트 데이타를 가장 잘 표현하는 모델 M_i를 찾는 것이다. 그리고, 판단을 하는데 있어서, 다음의 프레임-기반 가중 가능 거리 측정(frame-based weighted likelihood distance measure), d_i,n을 사용한다.

그리고나서, 테스트 데이타로부터 상기 모델 M_i의 총 거리 D_i가 모든 테스트 프레임에 있어서, 거리의 합으로 구해진다.

그래서, 상기와 같은 접근으로 가장 근접하게 매칭하는 모델을 찾을 수 있고, 모델이 나타내는 사람이 발성한 사람이라고 결정한다.

발성자 인식은 유사한 방법으로 수행될 수 있다, 그러나, 입력 음성 데이타를 비교하여, 데이타 매치가 저장된 모델과 충분히 가까운지를 결정한다. 만약 상기 비교결과 충분히 근접하여 매치된다고 판단되면, 그 음성을 발성한 사람을 검증한다. 상기 매치는 상대 모델과의 비교에 의하여 수락되거나 거절된다. 이들 모델들은 청구 발성자와 유사하게 되거나 독립된 발성자가 되도록(즉, 하나의 발성자 독립 모델 또는 집합) 선택될 수 있다. 상기 청구자가 충분히 여유있게 이긴다면(가능성의 레벨 또는 모델의 거리로 연산된), 상기 청구를 수락한다. 그 반대일 경우에는 상기 청구가 거절된다. 등록중, 상기 발성입력은 각 발성자를 특징지울 수 있는 혼합 가우스 모델(mixture gauian model) M_i를 구축하기 위하여 각 발성자에 대하여 수집된다.

이제, 도 1의 영상신호경로Ⅱ를 참조하여, 본 발명에 따라서 시각 정보를 처리하는 방법을 설명한다. 본 발명의 시청각적 발성자 인식 및 발성 검증 시스템은 능동 발성자 얼굴 분할 모듈(20)과 얼굴 인식 모듈(24)을 포함한다. 상기 능동 발성자 얼굴 분할 모듈(20)은 하나 또는 그이상의 소스로부터, 즉 상기 언급한 바와 같이 영상 디콤프레서(10), 카메라(4)로부터 영상 입력을 수신할 수 있다. 발성자 얼굴 검출은 또한 상기 압축된 데이타 도메인에 있어서 및/또는 단지 영상 정보 보다는 음성 및 영상정보로부터 직접 수행될 수 있다는 것이 이해될 것이다. 어떤 경우에 있어서, 분할 모듈(20)은 일반적으로 상기 임의 내용 영상안에서 발성자의 얼굴 및 얼굴 특징의 위치를 정하고 추적한다. 이에 대해서는 다음에 상세하게 설명될 것이다. 상기 분할 모듈(20)로부터 제공된 데이타로부터, 상기 인식모듈(24)이 인식 및/또는 검증 동작을 수행하여, 영상내에서 발성자인 것으로 추정되는 사람의 얼굴을 인식하고 검증한다. 검증은 또한 스코어 한계 또는 상대모델을 추가함에 의하여 이행될 수 있다. 그래서, 발성자 인식의 시각적 모드는 영상 배열에서 얼굴을 찾고 탐색하는 얼굴 인식 시스템으로서 구현되고, 후보 얼굴 템플릿트의 데이타베이스와 비교하여 인식된다. 후에 설명되는 바와 같이, 발성 검증은 사용된 발성을 실제 했던 사람을 검증하여 그를 인식하는 기술을 제공한다.

얼굴 검출 및 인식은 다양한 방법으로 수행될 수 있다. 예를 들어, 적외선 카메라(4)를 이용한 실시예에 있어서, 얼굴 검출 및 인식은 프랑스에서 공개된 J.Prokoski and Robert R.Riedel, "Infrared Identification of Faces and Body Parts", BIOMETRICS, Personal Identification in Networked Society, Kluwer Academic Publishers, 1999 에서 공지된 바와 같이 수행될 수 있다. 본 발명의 실시예에 있어서는, Andrew Senior, "Face and feature finding for face recognition system," 2^ndInt, Conf. On Audio-Video based Biometric Person Authentication, Washington DC, March 1999에서 공지된 기술이 사용된다. 다음에 각각 분할 모듈(20)과 인식 모듈(24)에 의하여 수행되는 얼굴 검출 및 인식을 예를 들어 설명한다.

얼굴 검출

얼굴은 영상 프레임에 있어서, 다양한 스케일, 위치, 방향으로 발생할 수 있다. 이 시스템에 있어서, 얼굴은 거의 수직이고, 그 높이가 66 화소보다 작은 얼굴은 없다고 간주한다. 그러나, 모든 남아있는 위치 및 스케일에서 얼굴을 테스트하기 위하여, 상기 시스템은 이미지 피라미드(image pyramid)에 있어서 고정 크기 템플리트를 찾는다. 상기 이미지 피라미드는 원래 이미지를 반복적으로 감소-샘플링함에 의하여 구현되어, 원래 이미지보다 낮은 분해능을 갖도록 한다. 이런 각 서브-이미지내에서 얼굴 템플릿트와 같은 크기(전형적으로 11×11 화소)의 정사각형 영역을 후보 얼굴 위치로 간주한다. 테스트는 정사각형 영역에 얼굴이 포함되는지의 여부를 체크하는 것이다.

우선, 상기 영역은 피부톤 화소가 높은 비율로 포함되어야 한다. 그리고나서, 상기 후보영역의 강도는 훈련된 얼굴 모델과 비교된다. 미리 정의된 색조-색도-명암의 입방형 공간에 들어가는 화소는 피부톤인 것으로 간주하고, 상기 피부톤 화소의 비율은 다음에 고려될 후보영역의 한계를 초과하여야 한다.

상기 얼굴 모델은 잘라지고, 정규화된 회색계열의 얼굴이미지의 훈련집합에 기초한다. 이런 얼굴의 통계치가 수집되고, 다양한 분류자가 이런 통계치에 기초하여 훈련된다. 선형 프로그램에 의하여 훈련된 피셔 선형 판별법(FLD : Fisher liner discriminant)은 얼굴과 배경이미지간의 구별에 기초가 되고, M.Turk and A.Pentland, "Eigenfaces for Recognition," Journal of Cognitive Neuro Science, vol.3,no.1,pp.71~86,1991에 공지된 바와 같은 "얼굴영역으로부터의 거리(Distance from face space : DFFS)"는 첫번째 방법에 의하여 높은 점수가 주어진 얼굴의 질을 점수매기는데 사용된다. 이런 얼굴 검출자로부터의 높은 결합 점수는 후보영역이 정말로 얼굴임을 나타낸다. 높은 점수의 얼굴 후보와 연관된 스케일, 위치 및 회전의 작은 섭동을 갖는 후보 얼굴 영역은 또한 테스트되어, 상기 섭동자사이에서 최고 점수 후보가 선택되고, 이들 세 파라메트의 정제된 추정이 주어진다.

후속되는 프레임에 있어서, 속도추정을 이용함에 의하여 얼굴이 추적되어, 새로운 얼굴위치가 예측되고, 모델들을 이용하여 유사한 스케일 및 회전을 로테이션을 갖는 예측된 위치에 근접한 후보영역내에서 얼굴을 탐색한다. 낮은 점수는 탐색의 실패를 의미하고, 상기 알고리즘은 철저한 탐색을 위해 반복 실행된다.

얼굴 인식

얼굴을 찾았다면, K 얼굴 특징은 얼굴 검출에 사용된 동일한 기술(FLD와 DFFS)을 사용하여 정해진다. 눈, 코, 입과 같은 큰 스케일의 특징들을 먼저 찾고, 그 특징들과 관계있는 부특징들을 찾는 계층적인 접근을 사용하여 특징들을 찾는다. 상기 부특징들은 헤어라인, 턱, 귀, 그리고 입과 코, 눈의 돌출부, 눈썹을 포함하는 29개가 사용된다. 앞서의 통계치가 상기 얼굴 및 특징 위치와 관계되는 각 특징 및 부특징에 대한 각각의 서치 영역을 제한하기 위하여 사용된다. 각가의 추정된 부특징 위치에서, L.Wiskott and C.von der Malsburg, " Recognizing Faces by Dynamic Link Matching," Proceeding of the International Conference on Artificial Neural Networks, PP347-352, 1995에 기술된 바와 같은 가버 제트 표현(Gabor Jet representation)이 만들어진다. 가버 제트(Gober jet)는 2 차원 가버 필터(Gabor filter) - 가우스에 의하여 변조된 사인파-의 집합이다. 각 필터는 스케일(상기 사인파장과 고정된 비율을 갖는 가우스 표준 편차)과 (사인파의)방향을 구비한다. 각 특징 위치에서 우리는 5개의 스케일과 8개의 방향과 주어진 40개의 복합계수(complex coefficient) (a(j), j = 1,...,40)을 사용한다.

훈련된 얼굴과 테스트 후보에 대한 상기 특징 벡터들 사이의 거리를 계산하기 위하여 단일 미터법이 사용된다. 특징 k를 위한 상기 i번째 훈련된 후보와 테스트 후보간의 거리는 아래와 같이 정의된다.

이러한 유사성의 단일 평균,은 데이터베이스에 있어서 테스트 얼굴의 얼굴 템플릿트와의 유사성에 대한 전체 표준(measure)을 제공한다. 따라서, 비슷한 정도의 표준에 따라서, 고려중인 영상 시퀀스에 있어서 사람이 인식 및/또는 검증된다.

이어서, 상기 얼굴 인식 모듈(24)과 음성 발성자 인식 모듈(16)의 결과가 각각 신뢰추정을 실행하는 신뢰 추정(confidence estimation) 블록(26),(18)으로 제공된다. 신뢰 추정은 인식된 입력에 대해서 결정되는 다른 신뢰 척도 또는 가능성을 일컫는다. 일실시예에 있어서, 상기 신뢰 추정 절차는 각각 음성 신호와 영상신호와 연관된 잡음레벨의 측정을 포함한다. 이 레벨은 시스템에 대해서 내부적 또는 외부적으로 측정될 수 있다. 신호와 연관된 높은 잡음레벨은 그 신호와 연관된 인식 결과에 대한 신뢰성이 낮다는 것을 의미한다. 그래서, 이 신뢰 척도는 다음에 기술된 시각 및 청각적 결과를 측정하는 동안 참작되어 진다.

각각 상기 모듈(16),(24)로부터 청각-기반 발성자 인식 및 얼굴 인식 점수가 주어지면, 다음과 같이 공동 인식/검증 모듈(30)에 의해서 시청각적 발성자 인식/검증이 수행된다. 상기 상위 N 스코어는 양측의 음성과 영상-기반 인식 기술에 기초하여 만들어진다. 가중화된 합계에 의하여 두 리스트는 결합되고, 최고 점수를 갖는 후보가 선택된다. 가중치는 오직 스케일링 인자로 정의하기 위하여 필요하기 때문에, 단일 파라메터 α의 함수로서 결합된 점수,를 다음과 같이 정의할 수 있다.

혼합 각도α는 음성 인식과 얼굴 인식의 상대적인 신뢰도에 따라서 선택되어야 한다. 이런 목적을 이루기 위한 한 가지 방법은 어떤 훈련된 데이터에 있어서 시각-청각적인 정확도를 최대화하도록 α를 최적화시키는 것이다. n번째 연속 클립상에서 계산된 i번째 등록된 발성자(i=1,...,P)를 위한 음성 ID(인식)과 영상 ID 스코어를 Di(n)과 Si(n)으로 표시한다. 또한, 변수 Ti(n)을 n번째 클립이 I번째 발성자의 것일 때 제로로, 만약 그렇지 않으면 1로 정의한다. V.N.Vapnik, The Nature of Statistical Learning Theory, Springer, 1995,에 공지된 바와 같이 최소화된 코스트(cost) 함수는 경험적인 에러이고, 다음의 수학식 1과 같이 쓰여질 수 있다.

여기에서,,

또한, 오버-피팅(over-fitting)을 방지하기 위하여, H.Ney, On the Probabilistic Interpretation of Neural Network Classification and Discriminative Training Criteria, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.17,no.2,pp.107-119, 1995에 공지된 바와 같이, 완화된 에러율을 요청할 수 있으며, 이는 아래의 수학식 2와 같이 정의된다.

η이 클 때, i=i일때를 제외하고 모든 내적 항목들의 합은 '0'에 접근하고, C'(α)는 가공하지 않은 에러 카운터 C(α)에 근접한다. 반대의 경우에는, 모든 부정확한 가정들(Ti(n)=1인 것)들은 그들 스코어와 최대 스코어 사이의 거리의 감소함수인 분리물(contribution)을 갖는다. 만약 최선의 가정이 부정확하다면, 가장 큰 분리물을 갖는다. 그러므로, 코스트(cost) 함수를 최소화함에 의하여, 훈련된 데이터에 있어서의 인식 정확도뿐만 아니라, 최대 스커어가 갖는 여유치가 최대화된다. 또한 상기 함수는 본질적으로 차이가 있는 잇점을 나타내고, 한 파라메터 이상일 때 상기 최적화 처리가 촉진된다.

본 발명은 전술한 기술로부터 유도되는 또 다른 판단 또는 스코어 결합 기술을 제공하지만, 어떤 훈련도 요구하지 않는다. 가장 높은 점수와 두 번째로 높은 점수사이의 차이를 최대화하는 것은 주어진 범위에서 α의 값을 테스트 시간에 선택하는데 있다. 그리고 상기 대응하는 최대 가정 I(n)이 선택되며, α(n) 및 I(n)은 각각 다음의 수학식3 및 수학식 4와 같이 정의된다.

그리고,

α1과 α2의 값은 인터벌(interval)로 한정되어야 한다. 이 원리는 다음과 같다. Di,Si의 평면에 있어서, 상기 옳은 판단에 대응하는 포인트는 다른 것들로부터 떨어져서 존재할 것으로 예상된다. 상기 고정된 선형 가중치는 다른것과 연관되는 이 포인트가 발견될 수 있는 방향이 항상 동일하다 - 이것이 진실일 필요는 없다 - 고 간주한다. 앞의과 I(n)과 연관되는 상술한 수학식 3 및 수학식 4는 α1과 α2사이의 어떤 방향에 있어서도 다른 것으로부터 가장 멀리 떨어져 놓여있는 상기 포인트를 찾는다.

또 다른 해석은 상기 최선으로 결합된 스코어와 두 번째 와의 거리는 판단의 신뢰도를 표시하는 표시기라는 것이다. 적응적으로 제안된 방법은 신뢰척도를 최대화하는 가중치를 선택한다.

그래서, 상기 인식 및 검증 모듈(30)은 발성자에 대하여 판단한다. 상기 설명된 한 가지 기술에 기초한 검증 개요에 있어서, 청각적인 경로와 시각적인 경로를 양측을 통해서 검증이 이루어졌다면 그 발성자를 인정한다는 판단이 이루어진다. 그러나, 만일 상기 경로중 오직 한 경로를 통해서만 검증된 발성자라면 거절될 수 있다. 동일성 확인 개요에 있어서, 예를 들어, 얼굴 동일성 확인처리로부터의 상위 세 스코어는 음성적인 발성자 동일성 확인 처리로부터의 상위 세 스코어와 결합된다. 그리고 나서, 가장 높은 결합 스코어가 발성자로서 인식된다.

바람직한 실시예에 있어서, 상기 시스템 판단이 발성자에 대하여 마지막 정리를 행하기 전에, 상기 시스템은 발성 검증 동작을 수행한다. 상기 발성 검증은 상기 음성 특징 추출기(14)와 시각 발성 특징 추출기(22)로부터의 입력에 기초하여 발성 검증 모듈(28)에 의해 수행된다. 발성 검증에 대하여 설명하기에 앞서, 시각적 발성 특징 벡터를 추출하는 예증적인 기술이 다음에 설명된다. 특히, 상기 시각 발성 특징 추출기(22)는 능동 발성자 얼굴 분할 모듈(20)에 의해서 영상 프레임에 서 검출된 얼굴로부터 도 1에 알파벳 V로 표시된 시각적 발성 특징 벡터(즉, 입 또는 입술과 연관된 파라메터)를 추출한다.

추출되는 시각 발성 특징의 예는, 입(mouth) 영역의 그레이 스케일 파라메터; 입술영역의 면적, 높이, 폭과 같은 파라메터에 기초한 기하학/모델; 커브 피팅(curve fitting), 내부/외부 윤곽의 spline 파라메터에 의하여 떠오른 입술윤곽; 3차원 트래킹에 의하여 획득된 모션파라메터등이다. 여전히 모듈(22)를 통해 추출되는 또 다른 특징 집합은 상기 인자를 이용한다. 이런 기술은 능동형태모델링(Active Shape modeling)으로 잘 알려져 있고, Iain Matthews, "Features for audio visual speech recognition," Ph.D dissertation, School of Information Systems, University of East Angalia, January 1998에 공지되어 있다.

그래서, 상기 시각적 발성 특징 추출기(22)가 하나 또는 그 이상의 알려진 시각 특징 추출 기술로 구현되고, 한 실시예에 있어서, 상기 추출기는 상기 이미지의 입영역과 연관된 그레이 스케일 파라메터를 추출한다. 입술 코너의 위치가 주어지면, 스케일과 로테이션의 정규화 후에, 상기 원래로 본원된 영상 프레임으로부터 그 사각의 중앙에 입술영역을 포함하는 직사각영역을 추출한다. 알려진 바와 같이, PCA(Principal Component Analysis)는 이 그레이-스케일 값의 벡터로부터 더 작은 차원의 벡터를 추출할 수 있다.

모듈(22)에서 실행될 수 있는 시각적 특징 벡터를 추출하는 또 다른 방법은 기하학적인 특징을 추출하는 것이다. 이것은 입술 윤곽의 기하학과 그것의 시간 다이내믹스로부터 표음/바이스믹(visemic) 정보를 추출하는 과정을 포함한다. 대표적인 파라메터로 입 코너(corner), 입을 열었을 때의 높이 또는 면적, 외부 입술뿐만아니라 내부의 곡률을 들 수 있다. 조음기관, 즉, 치아, 혀 등의 위치는 또한 카메라에 의하여 식별가능한 범위로 특징파라메터가 될 수 있다.

그레이 스케일 값으로부터 이런 파라메터를 추출하는 방법은 파라메터 값과 연관된 입술윤곽과 그레이 스케일 이미지간의 부정합을 설명하는 함수(즉, 코스트 함수)의 최소화를 포함한다. 색상 정보는 이런 파라메터를 추출하는데 있어서도 이용될 수 있다.

캡쳐된(또는 디멀티플렉스되고 복원된) 영상 스트림으로부터 경계 검출을 수행하고, 그 최후결과는 파라메터화된 윤곽, 즉, 원, 포물선, 타원 또는 더 일반적인 spline 윤곽이고, 그 각각은 파라메터의 한계 집합에 의하여 설명될 수 있다.

여전히 추출될 수 있는 다른 특징은 애니메이션을 목적으로 하는 컴퓨터 그래픽에서 사용된 타입의 2차 또는 3차원 와이어-프레임 모델-기반 기술을 포함한다. 와이어-프레임은 다수의 삼각형의 패치(patch)로 구성될 수 있다. 이들 패치들은 함께 입/입술/턱의 구조적인 표현을 하고, 각각은 발성-읽기에 있어서 유용한 특징을 포함한다. 이 파라메터들은 또한 이미지의 그레이 스케일 값과 결합되어 이용되어, 양측 구조의 상대적인 장점을 얻을 수 있다.

추출기(22)로부터 시각적 발성 특징 벡터(V)와, 추출기(14)로부터 음성 특징 벡터(A)가 주어지면, 상기 AV 발성 검증기(28)가 검증을 실행한다. 검증은 예를 들어, 바이스므(visemes)의 임의 시퀀스상에서 음성을 정렬시키는 결과적인 가능성을 비교하는 것을 포함한다. 알려진 바와 같이, 바이스므(visemes) 또는 시각적 음소는 청각적 음소와 같은 종류의 분류되고 미리 저장된 발성을 수반하는 모범적인 입 모양이다. 상기 발성 검증의 목적은 음성 경로 Ⅰ에서 발성자를 검증하기 위해 사용된 발성과 영상 경로 Ⅱ에서 발성자를 검증하기 위해 사용된 시각적인 신호를 상호연관시키거나 정렬시키는 판단을 하는 것이다. 이에 의하여, 시스템이 상기 발성자를 인식하기 위하여 사용된 발성 데이터가 실제 발성자가 발성한 것이라는 확신을 가지게 한다. 이런 판단은 많은 장점이 있다. 예를 들어, 발성검증으로부터, 시스템을 속이기 위해, 사용자가 미리 기록된 테이프의 재생에 따라 립싱크하는 것인지 아닌지를 판단할 수 있다. 또한, 발성 검증으로부터, 음성 복호화 경로에 있어서의 에러를 검출할 수 있다. 상기 에러 수치에 따라서, 신뢰 척도가 만들어져 시스템에서 사용될 수 있다.

도 2에서 본 발명의 예증적인 실시예에 따른 발성 검증 방법의 플로우챠트를 도시한다. 발성 검증은 (1) 관리모드, 즉 텍스트(스크립트)가 알려진것이고 상기 시스템에서 이용가능한 경우와, (2) 비관리 모드, 즉 텍스트(스크립트)가 알려지지 않았고 시스템에서 이용가능하지 않은 경우로 수행된다.

그래서, 단계(202A)(비관리 모드)에서, 상기 검증될 입밖에 내어진 발성은 전통적인 발성 인식 기술에 의하여 복호화되어, 상기 복호화된 스크립트와 연관된 시간 알고리즘이 얻어진다. 이것은 음성적 특징 추출기(14)로부터의 특징데이타를 사용하여 이루어진다. 동시에, 단계(204)에서, 상기 시각적 특징 추출기(22)로부터의 시각적인 발성 특징 벡터를 사용하여 시각적 음소 또는 바이스므(visemes) 시퀀스를 만든다.

이어서, 단계(206)에서, 상기 스크립트는 상기 바이스므(visemes)에 의해 정렬된다. 빠른 (또는 다른) 얼라이먼트는 전형적인 방법으로 수행되어, 두 정보 스트림을 동기화시킨다. 예를 들어, 일실시예에 있어서서, "Apparatus and Method for Generating Phonetic Transcription from Enrollment Utterances"라는 명칭으로 출원된 미국 특허 출원 번호 09/015,150에 공지된 빠른 얼라이먼트가 적용된다. 상기 기술은 여기에서 참조형식으로 공개된다. 관리자모드에 있어서, 단계(202B)는 단계(202A)로 대체하고, 기대된 또는 알려진 스크립트가 스크립의 복호화된 버전보다 오히려 단계(206)에서 상기 바이스므(visemes)에 의해 정렬된다는 것을 주목하라. 그리고, 단계(208)에 있어서, 상기 얼라이먼트상에서의 가능성은 연산되어, 상기 스크립트가 얼마나 잘 시각 데이터로 얼라이먼트되었는지를 판단한다. 그리고나서, 상기 가능 결과는 스코어 모듈(30)의 결과에 따라서 발성자의 마지막 처리, 즉 수락하거나 거절하는 처리를 결정하는 판단블록(32)으로 제공된다. 이 결과는 다양한 장치, 응용, 기능(facilities)등으로의 접근을 허가 또는 거부하는데 사용될 수 있다.

그래서, 비관리 발성 검증 모드에 있어서, 상기 시스템은 사용자가 재생장치를 이용하고 입을 움직이는 것이 아닌 실제로 말하고 있는 것인지를 체크할 수 있다. 또한, 우선적으로 에러는 음성 복호화에 있어서 검출된다. 관리모드에 있어서, 상기 시스템은 상기 인식된 문자가 충분히 정렬되어 있거나 추출된 입술 파라메터와 상호연관되어있다면 사용자가 발성했던 텍스트를 시험해 볼 수 있다.

상기 비관리 모드에 있어서 발성 검증은 "Methods And Apparatus for Audio-Visual Speech Detection and Recognition,"라는 명칭으로 본 발명의 출원인에 의하여 본 발명과 함께 출원된 미국특허출원에서 공지된 바와 같이 발성 검출을 수행하는데 이용될 수 있다. 실제로, 음성 및 시각적 동작이 검출되면, 이것은 서로에 대하여 검증될 수 있다. 음성적 발성 결과가 수락되었다면, 상기 시스템은 발성 검출된 것으로 간주한다. 그 반대라면, 외부적인 활동이 나타난 것으로 간주한다.

도 3은 시청각적 발성자 인식 및 발성 검증 시스템의 선택적인 실시예를 도시한 것이다. 도 1의 실시예는 판단 또는 스코어 결합 접근을 설명한 것인데 반하여, 도 3의 실시예는 특징 휴전 접근을 설명한다. 도 3의 시스템의 동작은 대체로 도 1에 대하여 상기 설명한 것들과 동일하지만, 도 3의 실시예는 결합된 AV 특징 벡터상에서 인식/검증 판단을 실시한다는 추가된 장점을 갖는다. 특징 결합 접근에 따르면, 단일 특징 벡터는 음성 특징 추출기(14)로부터의 음성 특징(즉, mel cepstra and derivatives)과 상기 얼굴 분할 모듈(20)로부터의 검출된 시각적 얼굴 특징(즉, 주 방향에 대한 얼굴 분해 또는 얼굴 형태 파라메터)을 결합하도록 구축된다.

그래서, 이 특징들은 단일 시음성 특징 벡터를 형성하도록 결합된다. 이 결합을 수행하는데는 많은 방법이 있다. 한 방법은 음성 특징 데이터와 시각 특징 데이터를 연관시키는 것이다. 그러나, 음성프레임이 시간적으로 거의 10msec 간격인데 반하여, MPEG-2 복원된 영상는 초당 30프레임을 만들기 때문에, 특징들간에 동기화시킬 필요가 있다. 음성 영역에 있어서 큰 프레임 비율의 필요조건이 인접한 영상 프레임으로부터의 보간법에 의하여 인공적인 프레임을 생성시키는 것으로 완수된다. 별개의 일반적인 보간 기술이 이를 위해 이용될 수 있다. 예를 들면, 직접 선행하고 후속하는 프레임으로부터의 선형 보간법이나, 음성 프레임이 발생할 때 즉시 과거와 미래에서 하나이상의 프레임을 고려하는 다항식 보간기술을 들 수 있다.

예를 들어, 도 1에서 모듈(30)에 대하여 설명한 바와 같이 판단동작은 결합된 시음성 특징 벡터상에서 완수된다. 도시된 바와 같이, 발성 검증은 최종 판단블럭(32)에서 또한 적용된다.

도 4 및 도 5는 시청각적 발성자 인식 시스템의 다른 실시예를 도시한 것이다. 이 실시예는 리-스코어링 접근을 설명한다. 도 4 및 도 5의 시스템의 동작은 대체로 도 1에 대하여 상술한 설명과 유사하지만, 상기 도 4 및 도 5의 실시예는 나머지를 리-스코ㅓ링하기 위하여 직렬 방식에서 영상 정보와 음성 정보를 사용한다는 추가적인 장점을 가진다. 도 4에서, 음성 발성자 인식기(16)의 결과는 얼굴인식기(24)로 제공되어, 얼굴 인식 동작에서 사용된다. 도 5에서, 얼굴 인식기(24)의 결과는 음성 발성자 인식기(16)로 제공되어, 상기 음성 발성자 인식 동작에서 사용된다. 어느 한쪽의 실시예에 있어서, 한가지 양식으로 이행된 검증/인식 처리는 다른 양식으로 이행된 검증/인식 처리를 변경하여 사용한다. 그리고, 단일 신뢰 추정과 판단을 실시한다. 예를 들어, 음성 스트림으로부터 말해지는 인식 처리의 한 결과는 영상 스트림에 있어서 고려된 후보를 좁아지게 한다. 또 다른 예에서, 상기 영상 스트림은 발성자와 닮은 사람들의 경쟁하는 모델을 만들고, 오직 이 사람들을 기초로 하여, 발성자를 청각적으로 인식하거나 검증한다. 여기에서 제시한 본 발명의 기술은, 본 기술분야에서 숙련된 보통사람에 의하여 다른 실시예 및 구현이 생각될 것이다.

도 1과 도 3-5에서 설명한 바와 같이, 본 발명의 시스템은 사용자 등록을 수행하는 것이다. 상기 시스템은 본 기술분야에 있어서 알려진 바와 같이 등록기술을 제공할 수 있다. 청각적 정보의 등록을 위하여, 입력발성은 발성자를 위해 혼합 가우스 모델 Mi를 구축하여 각 발성자를 특징화하도록 수집된다. 얼굴 정보의 등록을 위해서는, Andrew Senior, "Face and feature finding for face recognition system," 2nd Int. Conf. On Audio-Video based Biometric Person Authentication, Washington DC, March 1999 에서 공지된 기술을 이용할 수 있다. IF 이미지의 등록을 위해서는, Francine J.Prokoski and Robert R.Riedel, " Infrared Identification of Faces and Body Parts," BIOMETRICS, Personal Identification in Networked Society, Kluwer Academic Publishers, 1999에서 공지된 기술이 적용될 수 있다. 상기 각 양식별 다른 생물학적 결과가 결합된다(상기 여분 로테이션과 LDA가 상기 결합된 특징상에서 적용될 수 있는 특징 결합 접근을 위하여 가능한 결합된다).

도 6은 본 발명에 따른 시청각적 발성자 인식 및 발성 검증 시스템의 하드웨어적인 구현을 보이는 블록도이다. 이 특정 구현에 있어서, 도 1 및 도 3~5에 설명된 본 발명의 시스템과 연관된 다양한 동작을 수행하고 등록하는 프로세서(602)는 메모리(604)와 사용자 인터페이스(606)에 연결된다. 여기에 사용된 "프로세서"는 어떤 처리 장치를 포함하는 것으로, 예를 들어 CPU(중앙 처리 유니트)를 포함하는 것이다. 예를 들어, 상기 프로세서는 본 기술분야에서 알려진 바와 같이 디지털 신호 프로세서이다. 또한 상기 "프로세서"는 하나이상의 개별된 프로세서로 될 수 있다. 여기에서 사용된 상기 "메모리"는 프로세서 또는 CPU와 연관된 메모리를 포함할 수 있다. 예를 들면, RAM, ROM, 고정메모리장치(즉, 하드드라이브), 삭제가능메모리장치(즉, 디스켓), 플래쉬 메모리 등이다. 더하여, 여기에서 사용된 "사용자 인터페이스"는 예를 들어 데이터를 처리유니트로 입력하기 위한 하나 또는 그 이상의 입력장치, 즉, 키보드와, 처리유니트와 연관된 결과를 제공하기 위한 하나 이상의 출력 장치, 즉, CRT 디스플레이 및/또는 프린터를 포함하는 것이다. 상기 사용자 인터페이스(606)는 또한 사용자의 발성을 수신하기 위한 마이크로폰을 포함할 수 있다.

따라서, 여기서 설명된 바와 같은 본 발명의 방법을 수행하는 명령어 또는 코드를 포함하는 컴퓨터 소프트웨어는 하나 또는 그 이상으 l상기 연관된 메모리 장치(즉, ROM, 고정 또는 제거가능 메모리)에 저장되고, 사용하기 위해 준비될 때, 일부분 또는 전체가 로드되어(즉, RAM으로), CPU에 의하여 수행된다. 어떤 경우, 상기 도 1 및 도 3-5에서 설명된 구성요소들은 하드웨어, 소프트 웨어 또는 그것의 결합과 같은 다양한 형식, 즉 메모리와 연관된 하나이상의 디지털 신호 프로세서, 응용 상세 직접 회로(application specific integrated circuit), 함수 회로(functional circuitry), 상기 메모리와 연관된 하나이상의 접근 프로그램된 범용 디지털 컴퓨터등으로 구현된다. 본 발명의 기술은 여기에 제공된 것으로, 본 발명과 연관된 기술분야의 전문가에 의하여 본 발명의 구성요소의 다른 구현이 고려될 것이다.

실험 결과

모든 실험은 LDC(Linguistic data consortium)에 의하여 ARPA HUB4 방송뉴스 복사작업으로 수집된 CNN과 CSPAN 영상 데이터상에서 이루어졌다. 영상 테이프로부터 앵커 및 리포터의 정면 촬영 영상의 20~40초 클립을 MPEG 포맷으로 디지털화하였다. 상기 훈련 데이터는 76명의 발성자의 76 클립을 포함하는 반면에 테스트 데이터는 동일한 76명의 발성자로부터 154개의 추가된 클립을 포함한다.

음성-기반 발성자 인식에 있어서, 중요한 개선사항은 배경 잡음 또는 채널 부정합에 기인한 테스트와 훈련 상태 사이의 현저한 부정합이 있을 때 성능을 향상시키는 것이다. 이런 상태하에서 영상 정보를 결합하는 잇점을 설명하기 위하여, 훈련 상태와 테스트 상태 사이에 부정합을 인위적으로 발생시켰다. 잡음 부정합은 약 10dB의 신호대잡음비율로 음성신호에 발성 잡음을 추가하여 생성시킨다. 전화채널 부정합은 광대역 음성 신호를 전화채널 필터를 통과시키고, 그것을 8kHz로 감축-샘플링하여 생성시켰다. 상기 전화채널 필터는 300Hz에서 3300Hz사이의 대역통과필터이다.

상기 전화채널데이타상에서 테스트된 음성-기반 인식 알고리즘은 또한 전화채널데이타상에서 훈련되었다. 잡음이 있는 데이터 상에서, 깨끗한 데이타상에서 훈련된 음성-기반 인식 알고리즘이 사용되었다. 선형 결합 기술은 정합된 상태와 부정합상태 두 경우에서 모두 테스트 하였다.

도 7의 표1은 다른 테스트 조건과 결합 기술에서의 인식 정확도를 보인다. 첫 번째 두 열은 음성-단독 ID와 영상-단독 ID의 정확도를 나타낸다. 다음 4개의 열은 여러개의 선형 결합 실험의 결과를 보인다. 훈련 데이터는 결합 가중치를 최적화할 필요가 있기 때문에, 상기 154 클립은 반으로 나눠진 같은 발성자의 발생을 갖는 77의 두 집합으로 이루어진된다. 상기 결합 가중치는 집합 1상에서 훈련되어, 집합 2 상에서 테스트되었다. 총 테스트 수는 첫 번째 두 개의 열에 있어서와 같이 154이다. 하드(HARD) 최적화는 상기 수학식 1에 보인 C(α) 의 원래의 오류카운트를 일컫는 반면에 소프트(SOFT) 최적화는 상기 수학식 2에 보인 C'(α) 방정식의 완화된 코스트 함수로 불리운다. 잡음성 데이터와 전화 채널 데이터에 대하여, 집합2에서 테스트할때를 집합1의, 또는 집합1에서 테스트할때는 집합2의 데이타상에서 최적화된 결합 가중치를 일컫는 반면에, 5,6열은 잡음성 데이터 또는 전화 채널 데이터, 즉 부정합상태에서 최적화된 결합 가중치(즉, 정합된 결합상태)를 일컫는다. 마지막으로, 7,8열은 상기 "가장 멀리 있는 아웃라이어(farthest outlier)" 방법에 의한 결과를 보인다. 상기 선택(8열)은 영상와 음성 ID 점수의 상관도에 대한 종전의 지식에 의하여 동기를 얻는다: 상기 분류자는 높은 음성 점수에만 기초한 가정을 선택하도록 하지만, 높은 영상 점수만은 충분하지 않다.

선형 결합 시청각적 인식은 잡음성 음성 데이터상에서의 정확도를 현저하게 개선하는 반면 깨끗한 데이터상에서는 다소 불편하게 된다. 결과의 상세한 분석은 상기 훈련 데이터량이 후자의 경우에 있어서 휴전 가중치를 적절히 훈련하는데 불충분하다는 것을 보인다. 상기 그러나, 어떤 훈련도 요구하지 않는 "fathest outlier"기술은 그 문제를 해결할 수 있다. 또한 완화된 코스트 함수가 한 테스트 집합으로부터 다른 테스트 집합, 그리고 정합에서 부정합 상태로의 일반화를 돕는다는 것을 나타낸다.

비록 본 발명의 실시예가 여기에서 첨부된 도면을 참조하여 설명되었지만, 이것은 그 정확한 실시예로 제한되는 것이 아니며, 본 발명의 범위 및 사상을 벗어나지 않는 한 본 발명과 연관된 분야의 전문가에 의하여 다양한 변경과 수정이 이루어질 수 있다.

상술한 바와 같이, 본 발명에 따른 시청각적인 발성자 인식 및 발성 검증 방법 및 장치는, 음향적으로 나빠진 상태에서도 음성 인식의 정확도를 현저하게 향상시키고, 상기 두 독립된 소스, 즉 시각적, 청각적인 정보를 결합하여 사용함으로서, 발성자 인식에 있어서 정확도를 현저하게 증가시키며, 더구나, 종래 시각정보나 음성 정보만을 이용하는 것보다 더 빨리 발성자를 인식할 수 있게 하는 효과가 있다.

Claims

임의 내용(content)의 영상 소스와 연관된 영상 신호를 처리하는 단계,

상기 영상 신호와 연관된 음성 신호를 처리하는 단계, 및

상기 처리된 음성신호 및 영상신호에 기초한 인증판단 및 검증판단중 적어도 하나를 행하는 단계를 포함하는

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 영상 신호 처리 단계는 상기 임의 내용의 영상 소스와 연관된 영상신호가 하나의 얼굴(face)을 포함하는지 또는 그 이상의 얼굴(face)을 포함하는지를 검출하는 단계를 포함하는

시청각적인 발성자(speaker) 인식 방법.
제 2 항에 있어서,

상기 영상 신호 처리 단계는 상기 하나 또는 그 이상의 검출된 얼굴에 있어서 하나 또는 그 이상의 얼굴 특징(face feature)을 검출하는 단계를 더 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 3 항에 있어서,

상기 적어도 하나의 얼굴 및 얼굴특징 검출은 피셔의 선형 구별(Fisher linear discriminant : FLD) 분석법을 적용하는

시청각적인 발성자(speaker) 인식 방법.
제 3 항에 있어서,

상기 적어도 하나의 얼굴 및 얼굴특징 검출은 얼굴영역(face space)으로부터의 거리(DFFS) 측정법을 적용하는

시청각적인 발성자(speaker) 인식 방법.
제 3 항에 있어서,

상기 영상신호 처리단계는 상기 검출된 얼굴특징(facial feature)을 이용하여 검출된 면으로부터 하나 또는 그 이상의 얼굴을 인식하는 단계를 더 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 6 항에 있어서,

상기 영상신호 처리단계는 상기 얼굴 인식 동작의 결과에 의해서 신뢰도 추정 절차를 실행하는 단계를 더 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 6 항에 있어서,

상기 음성 신호 처리 단계는 상기 음성신호와 연관된 발성자(speaker)를 인식하는 단계를 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 8 항에 있어서,

상기 음성 신호 처리 단계는 상기 음성 발성자 인식동작의 결과에 의거하여 신뢰도 추정 절차를 실행하는 단계를 더 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 8 항에 있어서,

상기 얼굴 인식 및 음성 발성자 인식 동작 각각의 결과가 인증판단 및 검증판단 중 적어도 하나를 실행하는데 사용되는

시청각적인 발성자(speaker) 인식 방법.
제 10 항에 있어서,

상기 결과는 얼굴(face) 인식 및 음성 발성자 인식 동작 중에 발생된 각각 상위 N 스코어를 포함하는

시청각적인 발성자(speaker) 인식 방법
제 11 항에 있어서,

상기 각각 상위 N 스코어는 혼합변수(mixture parameter)를 이용하여 결합되는

시청각적인 발성자(speaker) 인식 방법.
제 12 항에 있어서,

상기 혼합변수(mixture parameter)는 상기 얼굴(face) 인식과 음성 발성자 인식 동작과 연관된 신뢰도(reliability) 측정에 따라서 선택되는

시청각적인 발성자(speaker) 인식 방법
제 13 항에 있어서,

상기 혼합변수(mixture parameter)는 오류율(error rate)을 나타내는 코스트함수(cost function)에 따라서 최적화되는

시청각적인 발성자(speaker) 인식 방법.
제 13 항에 있어서,

상기 혼합변수(mixture parameter)는 완화된 오류율을 나타내는 코스트함수(cost function)에 따라서 최적화되는

시청각적인 발성자(speaker) 인식 방법.
제 12 항에 있어서,

상기 혼합변수(mixture parameter)는 첫번째 그리고 두번째로 높은 스코어를 최대화한 범위내에서 선택되는

시청각적인 발성자(speaker) 인식 방법.
제 10 항에 있어서,

상기 결과는 결합되어 각각 상위 N 스코어의 한 집합이 얼굴(face) 인식과 음성 발성자 인식 동작을 위하여 생성되어, 판단을 하기 위해서

시청각적인 발성자(speaker) 인식 방법.
제 10 항에 있어서,

상기 한 인식동작의 결과들이 상기 다른 인식동작의 결과를 수정하는

시청각적인 발성자(speaker) 인식 방법.
제 18 항에 있어서,

상기 판단은 수정된 결과에 기초하는

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 영상 신호와 음성신호 중 적어도 하나는 압축된 신호인

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 압축된 신호는 상기 각 처리동작에 앞서 복원되는

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 임의 내용의 영상 소스는 MPEG-2 표준 신호를 제공하는

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 영상 신호는 눈에 보이는(visible) 전자 스펙트럼 이미지, 눈에 보이지 않는(non-visible) 전자기 스펙트럼 이미지, 다른 센싱 기술에 의한 이미지 중 적어도 하나 인

시청각적인 발성자(speaker) 인식 방법.
제 1 항에 있어서,

상기 방법은 시각 정보, 청각정보 중 적어도 하나에 따라서 사용자를 등록하는(enroll) 단계를 더 구비하는

시청각적인 발성자(speaker) 인식 방법.
제 24 항에 있어서,

상기 등록 동작의 결과는 다중양으로 표현되는 결합된 생명측정값인

시청각적인 발성자(speaker) 인식 방법.
영상 소스와 연관된 영상 신호를 처리하는 단계,

상기 영상 신호와 연관된 음성 신호를 처리하는 단계, 및

상기 신호간의 상관성 정도를 판단하기 위하여 처리된 영상신호와 처리된 음성신호를 비교하는 단계를 구비하는

시청각적인 발성 검증 방법.
제 26 항에 있어서,

상기 영상 신호 처리 단계는 영상 신호로부터 시각 특징 벡터(visual feature vector)를 추출하는 단계를 더 구비하는

시청각적인 발성 검증 방법.
제 27 항에 있어서,

상기 영상 신호 처리 단계는 상기 유도된 특징 벡터를 바이스므(visemes)와 결합하는 단계를 더 구비하는

시청각적인 발성 검증 방법.
제 28 항에 있어서,

상기 음성 신호 처리 단계는 음성 특징 벡터(acoustic feature vectore)를 추출하고, 상기 음성 신호를 대표하는 복호화된 스크립트(script)를 발생시키는 단계를 더 포함하는

시청각적인 발성 검증 방법.
제 29 항에 있어서,

상기 복호화된 스크립트(script)는 상기 바이스므(visemes)로 정렬되는

시청각적인 발성 검증 방법.
제 30 항에 있어서,

상기 얼라이먼트(alignment)의 가능성이 계산되어 상기 검증판단이 이루어지는

시청각적인 발성 검증 방법.
영상 소스와 연관된 영상 신호를 처리하는 단계와,

상기 영상 신호와, 상기 영상신호와 연관된 음성신호를 표현하는 스크립트를 비교하여 상기 신호간의 상관성의 정도를 판단하는 단계를 구비하는

시청각적인 발성 검증 방법.
(1) 임의 내용의 영상 소스와 연관된 영상 신호를 처리하고,

(2) 상기 영상 신호와 연관된 음성신호를 처리하고,

(3) 상기 처리된 음성 신호와 영상 신호에 기초하여 인증판단과 검증판단 중 적어도 하나를 행하도록 동작가능한 적어도 하나의 프로세서를 구비한

시청각적인 발성자(speaker) 인식 장치.
(1) 영상 소스와 연관된 영상 신호를 처리하고,

(2) 상기 영상 신호와 연관된 음성 신호를 처리하고,

(2) 상기 처리된 영상신호와, 상기 영상신호와 연관된 음성 신호와 비교하여 상기 신호간의 상관성의 정도를 판단하는

동작을 실행하는 적어도 하나의 프로세서를 구비하는

시청각적인 발성 검증 장치.
(1) 영상 소스와 연관된 영상 신호를 처리하고,

(2) 상기 처리된 영상 신호와, 상기 영상 신호와 연관된 음성신호를 나타내는 스크립트를 비교하여 상기 신호간의 상관성의 정도를 판단하도록 동작하는 적어도 하나의 프로세서를 구비하는

시청각적인 발성 검증 장치.
이미지 소스와 연관된 이미지 신호를 처리하는 단계,

상기 이미지 신호와 연관된 음성 신호를 처리하는 단계, 및

상기 처리된 음성 신호와 상기 처리된 이미지 신호에 근거하여 인증판단이나 검증판단중 적어도 하나를 행하는 단계를 구비하는

시청각적인 발성자(speaker) 인식 방법.
(1) 이미지 소스와 연관된 이미지 신호를 처리하고,

(2) 상기 이미지 신호와 연관된 음성 신호를 처리하고,

(3) 상기 처리된 음성 신호와 이미지 신호에 근거하여 인증판단이나 검증 판단중 적어도 하나를 실행하도록

동작하는 적어도 하나의 프로세서를 구비하는

시청각적인 발성자(speaker) 인식 장치.