KR100779242B1

KR100779242B1 - 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법

Info

Publication number: KR100779242B1
Application number: KR1020060092217A
Authority: KR
Inventors: 정희석
Original assignee: (주)한국파워보이스
Priority date: 2006-09-22
Filing date: 2006-09-22
Publication date: 2007-11-26

Abstract

본 발명은 음성 인식 시스템과 화자 인식 시스템을 통합하여 사용자 보안을 강화함과 동시에, 특징 파라미터 가중 기법을 이용하여 화자별 정보의 개인성을 최대화하거나, 멀티 코드북 탐색 기법을 이용하여 벡터 양자화 에러를 최소화하도록 한 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법에 관한 것으로, 화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합한 음성 인식/화자 인식 통합 시스템에서 MFCC(Mel-scaled Frequency Cepstral Coefficient)를 추출하여 화자 인식을 수행하는 방법에 있어서, 상기 화자 인증 시스템에서 개인 모델을 생성한 후에 사전 문턱치를 계산하기 위하여 비터비 연산 수행 시에 구해지는 역전파 경로를 이용하여 상태 세그먼테이션을 수행하는 과정과; 상기 상태 세그먼테이션을 통해 얻어진 상태별 MFCC에 대한 차수별 화자 내 분산 값과 월드 모델 간의 유클리드 거리를 계산하여 상태별 개인 가중치를 구하는 과정과; 상기 상태별 개인 가중치를 사용하여 멀티-벡터 양자화를 수행하여 관측 열을 발생시키며, 해당 관측 열을 통하여 화자 인식을 수행하는 과정을 포함하여 이루어진 것을 특징으로 함으로써, 편리하면서도 안전한 HCI를 제공해 줄 수 있으며, 화자의 개인성 정보를 최대화시켜 줄 수 있으며, 또한 기존의 벡터 양자화 과정에서 발생할 수밖에 없는 벡터 양자화 에러를 최소화시켜 주며, 기존의 벡터 양자화 과정에 비해 화자 간 변별력을 극대화시켜 화자 인증 시스템의 성능을 향상시켜 줄 수 있다.

Description

음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 {Speaker Recognition Methods of a Speech Recognition and Speaker Recognition Integrated System}

도 1은 일반적인 화자 인증 시스템(Speaker Verification System)을 설명하기 위한 구성 블록도.

도 2는 본 발명의 실시 예에 따른 음성 인식(Speech Recognition)/화자 인식(Speaker Recognition) 통합 시스템을 간략하게 나타낸 구성 블록도.

도 3은 본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템의 동작 예를 나타낸 도면.

도 4는 도 2에 있어 MFCC(Mel-scaled Frequency Cepstral Coefficient) 추출 과정을 나타낸 순서도.

도 5는 도 4에 있어 MFCC 추출 과정에서 사용되는 비선형(Non-linear) 삼각 필터 뱅크(Triangular Filter Bank)를 나타낸 도면.

도 6은 도 4에 있어 상태별 MFCC 가중 함수를 구하는 동작을 나타낸 순서도.

도 7은 도 6에 있어 비터비(Viterbi) 역전파 경로(Back-propagation Path)에 의한 상태 세그먼테이션(Segmentation)의 예를 나타낸 도면.

도 8은 도 6에 있어 이산 HMM(Hidden Markov Model)과 연속 HMM의 차이점을 설명하기 위한 도면.

도 9는 도 6에 있어 벡터 양자화 과정을 설명하기 위한 도면.

도 10은 도 6에 있어 테스트 데이터베이스의 구성을 예로 나타낸 도면.

도 11은 도 6에 있어 기존의 기법들과 본 발명의 제안한 기법들의 실험 결과를 DET(Detection Error Trade-off) 곡선으로 표현한 도면.

* 도면의 주요 부분에 대한 부호의 설명 *

21: 음성 인식 시스템 21-1: 음성 특징 분석부

21-2: 파라미터 인식부 21-3: 언어 처리부

22: 화자 인증(Speaker Verification) 시스템

23: 화자 식별(Speaker Identification) 시스템

본 발명은 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법에 관한 것으로, 특히 음성 인식 시스템과 화자 인식 시스템을 통합하여 사용자 보안을 강화함과 동시에, 특징 파라미터 가중 기법을 이용하여 화자별 정보의 개인성을 최대화하거나, 멀티 코드북 탐색 기법을 이용하여 벡터 양자화 에러를 최소화하도록 한 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법에 관한 것이다.

일반적으로, 화자 인식 기술은 음성 인식 기술과 함께 오랜 연구를 거쳐 최근에 이르러 실생활에 사용되는 단계에 이르렀다. 물론, 아직까지도 인간과 비슷한 수준의 화자 인식을 위해서는 해결해야 할 많은 난제들이 있지만, 인간이 언제, 어디서나 목소리를 통해 언어를 이해하고 사람을 인식하듯이 그 활용 예를 어렵지 않게 찾을 수 있다. 간단히 말해서, 화자 인식 기술은 알려지지 않은 사람의 음성을 통한 신원 확인이 중요한 언제, 어디서나 적용될 수 있으며, 모임, 컨퍼런스, 대화 내의 신원 확인은 가장 기초적 활용이다.

이에, 음성 인식과 결합된 고도의 화자 인식 시스템은, 대화의 내용과 발성자의 신원을 동시에 파악하고 저장할 수도 있으며, 특히 보안을 목적으로 하는 활용과 결합되어 자동차, 빌딩, 은행 계좌의 접근을 위한 활용도 쉽게 생각할 수 있으므로, 그 개발의 필요성이 많이 대두되고 있다.

그리고, 화자 인식 기술 중에서도 특히, 청구된 화자의 음성을 통해 본인임을 확인하는 화자 인증 기술은, 개인 전자 문서의 관리로부터 전화 또는 인터넷을 통한 은행 업무 및 전자 상거래에 이르기까지 광범위하게 응용될 수 있다.

특히, 음성을 이용한 화자 인증 기술이 선호되는 이유는, 카드, 도장, 서명 그리고 신분증 등의 물리적인 수단이 가진 도난이나 위조의 문제점이 전혀 없다는 것이며, 또한 다른 생체 측정 수단인 지문 또는 망막을 입력받기 위해서는 고가의 장비가 필요한 반면에, 음성은 상대적으로 저가인 마이크 또는 유무선 전화를 통해 원거리에서도 쉽게 처리될 수 있기 때문이다.

상술한 바와 같은 화자 인식 기술에 대한 연구는 이미 1960년대부터 음성 인식 기술과 함께 연구되어 왔으며, 1970년대 중반부터 텍사스 인스트루먼즈(Texas Instruments)의 소규모 화자 인식 시스템과 에이티앤티 벨 연구소(AT&T Bell Lab.)의 시스템들을 통해 실용화에 대한 연구 결과가 선보이기 시작했다.

최근에는 유무선 전화망을 이용한 화자 인증 기술 및 실용화 연구가 한창 진행되고 있다. 특히, 미국의 경우에, 다수 고객 서비스에 응용된 호출 카드 서비스 시스템(Calling Card Service System)(즉, 폰카드(Fon-card))이 미국의 스프린트(Sprint) 통신 회사에 의해 1995년부터 이미 선보이고 있다.

그리고, 화자 인식의 분류를 살펴보면 다음과 같은데, 화자 인식 기술은 대상 화자의 수에 따라 화자 인증(Speaker Verification)과, 화자 식별(Speaker Identification)로 나눌 수 있다. 여기서, 해당 화자 인증은 말하는 사람이 본인인지 아닌지를 인증하는 것이며, 해당 화자 식별은 말하는 사람이 등록된 여러 화자들 중의 누구인지를 알아내는 것을 말한다.

그러면, 일반적인 화자 인증 시스템의 구성을 살펴보면, 도 1에 도시된 바와 같이, 크게 전처리 부분(11)과, 학습 및 인식 부분(12)으로 구성된다.

상기 전처리 부분(11)은 음성구간 추출 및 분절부(11-1)와, 음성 및 화자 특징 파라미터 추출부(11-2)를 구비하여, 마이크 등을 이용한 입력 단을 통해 들어오는 각 화자의 음성정보를 이용하여 시스템에서의 화자에 대한 변별도를 높이기 위한 특징 파라미터(Feature Parameter)를 추출(Extraction)하여 처리하는 역할을 수 행한다. 여기서, 해당 특징 파라미터로는 LPC(Linear Predictive Coefficient) 켑스트럼(Cepstrum), 델타-켑스트럼(Delta-cepstrum), 멜-켑스트럼(Mel-Cepstrum), 피치(Pitch), 포먼츠(Formants) 등으로 나타날 수 있다.

상기 학습 및 인식 부분(12)은 음성 및 화자 모델 생성부(12-1)와, 결정 규칙부(12-2)와, 데이터베이스(12-3)를 구비하여, 상기 전처리 부분(11)에서 추출된 음성의 화자별 특징 파라미터를 시스템에서 인식하여 확인할 수 있도록 학습하며, 이를 확인하는 일련의 동작을 수행하는데, 벡터 양자화(Vector Quantization), 동적 정합법(Dynamic Time Warping; DTW), HMM(Hidden Markov Model), 신경회로망(Neural Network) 등과 같은 알고리즘들을 수행한다.

상술한 바와 같은 구성을 가지는 일반적 화자 인증 시스템은, 상기 학습 및 인식 부분(12)을 통해서 등록 시에 입력 음성으로부터 화자의 특징을 추출해 표준 패턴 또는 화자 모델을 생성시키며, 확인 시에 입력 음성으로부터 화자의 특징을 추출해 신분 확인을 요구하는 화자 모델과의 유사도 측정을 통해서 상기 결정 규칙부(12-2)에 기 설정되어 저장된 결정 규칙에 따라 신분을 인증 또는 거부하게 된다.

한편, 음성을 이용하여 보다 편리하게 컴퓨터를 제어할 수 있는 음성 인식 기술은, 그 적용 분야에 따라 사용자 보안을 요구하는 곳에 사용될 수 있다. 실제 점차 지능화되어가는 가정 로봇의 경우나, 상용화되어지는 홈 네트워크 분야에서 사용자의 보안은 절실히 요구되고 있다.

이러한 보안 및 사용자의 인식을 위해서, 기존 기술에서는 시각 디바이 스(Device)를 이용한 얼굴 인식 시스템을 음성 인식 시스템과 접목하는 연구가 국내외에서 진행 중이다.

그러나, 기존 기술들을 이용하여 음성 인식 시스템과 영상 인식 시스템을 통합하는 시스템의 경우에, 한정된 메모리와 연산 처리 속도의 H/W가 처리하기에는 불가능한 실정이다.

전술한 바와 같은 필요성 내지는 문제점을 해결하기 위한 것으로, 본 발명은 음성 인식 시스템과 화자 인식 시스템을 통합하여 사용자 보안을 강화함과 동시에, 특징 파라미터 가중 기법을 이용하여 화자별 정보의 개인성을 최대화하거나, 멀티 코드북 탐색 기법을 이용하여 벡터 양자화 에러를 최소화하도록 한 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법을 제공하는데, 그 목적이 있다.

또한, 본 발명은 생체 보안 기술로써의 화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합하여 설계함으로써, 편리하면서도 안전한 HCI(Human Computer Interface)을 제공해 주도록 하는데, 그 목적이 있다.

또한, 본 발명은 음성 인식/화자 인식 통합 시스템에 있어서 화자 인증 시스템 내의 음성 및 화자 특징 파라미터 추출부에서 추출한 화자 인증 특징 파라미터를 수식적으로 추적하기 위한 피셔(Fisher)의 에프-비(F-ratio)를 높여 화자의 개인성 정보를 최대화시켜 주도록 하는데, 그 목적이 있다.

또한, 본 발명은 음성 인식/화자 인식 통합 시스템에 있어서 화자 인증 시스 템의 전처리 부분에서 하나의 코드북을 HMM 상태 다수 개의 멀티 코드북으로 사용하는 멀티 코드북 탐색 기법을 적용하여 벡터 양자화 과정을 수행하도록 함으로써, 기존의 벡터 양자화 과정에서 발생할 수밖에 없는 벡터 양자화 에러를 최소화시켜 주며, 기존의 벡터 양자화 과정에 비해 소량의 계산량 증가로 화자 간 변별력을 극대화시켜 화자 인증 시스템의 성능 향상에 크게 기여하도록 하는데, 그 목적이 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법은, 화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합한 음성 인식/화자 인식 통합 시스템에서 MFCC(Mel-scaled Frequency Cepstral Coefficient)를 추출하여 화자 인식을 수행하는 방법에 있어서, 상기 화자 인증 시스템에서 개인 모델을 생성한 후에 사전 문턱치를 계산하기 위하여 비터비 연산 수행 시에 구해지는 역전파 경로를 이용하여 상태 세그먼테이션을 수행하는 과정과; 상기 상태 세그먼테이션을 통해 얻어진 상태별 MFCC에 대한 차수별 화자 내 분산 값과 월드 모델 간의 유클리드 거리를 계산하여 상태별 개인 가중치를 구하는 과정과; 상기 상태별 개인 가중치를 사용하여 멀티-벡터 양자화를 수행하여 관측 열을 발생시키며, 해당 관측 열을 통하여 화자 인식을 수행하는 과정을 포함하여 이루어진 것을 특징으로 한다.

바람직하게는, 상기 상태별 개인 가중치는, HMM(Hidden Markov Model)의 물 리적 특성을 이용하여 개인 화자별 동적 특징을 표현하며, 화자 내 변이의 최소화와 화자 간 변이의 최대화를 가질 수 있도록 MFCC 차수별로 가중한 것을 특징으로 한다.

또한 바람직하게는, 상기 상태별 개인 가중치는, j 상태의 i 번째 차수인 경우에, 월드 모델 j 상태의 i 번째 차수의 분산 값에 개인모델 j 상태의 i 번째 차수의 분산 값을 나눈 값인 것을 특징으로 한다.

다르게는, 상기 화자 인식 수행 과정은, 상기 화자 인증 시스템에서 상기 상태별 개인 가중치를 사용하여 하나의 코드북을 HMM 상태 다수 개의 멀티 코드북으로 적용시켜, 상기 유클리드 거리 계산 시에 입력 특징 파라미터에 상기 상태별 개인 가중치를 곱하여, 다수 개의 관측 열 집합으로부터 최소 관측 열을 발생시켜 주는 것을 특징으로 한다.

바람직하게는, 상기 화자 인식 수행 과정은, 상태 수만큼 늘어난 멀티-벡터 양자화의 연산량을 줄이기 위한 프루닝 기법을 사용하는 것을 특징으로 한다.

본 발명은 음성 인식 시스템과 더불어, 말한 사람(즉, 화자)을 인식하는 화자 인식 시스템을 통합 설계함으로써, 보안성이 요구되는 적용 분야와 화자에 따라 다른 대응을 수행하도록 하는 보다 지능적인 음성 인식 시스템을 구현하도록 한다. 또한, 본 발명은 화자의 개인성을 최대화하는 특징 파라미터 가중 기법과, 벡터 양자화 에러를 최소화하기 위한 멀티 코드북 탐색 기법을 구현하도록 한다. 즉, 본 발명은 음성 인식 시스템에서 화자 인증 시스템을 이용한 사용자 보안성을 강화하 도록 하며, 새로운 가중 기법(즉, 특징 파라미터 가중 기법)을 이용하여 화자의 개인성을 강조해 주며, 멀티 코드북 탐색 기법을 이용하여 벡터 양자화 에러를 줄이도록 해 준다. 이하, 본 발명의 실시 예를 첨부한 도면을 참조하여 상세하게 설명하면 다음과 같다.

본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템은 도 2에 도시된 바와 같이, 음성 인식 시스템(21)과, 화자 인증 시스템(22)과, 화자 식별 시스템(23)을 포함하여 이루어진다.

상기 음성 인식 시스템(21)은 음성 특징 분석부(21-1)와, 파라미터 인식부(21-2)와, 언어 처리부(21-3)를 구비하여, 마이크 등을 이용한 입력 단을 통해 들어오는 각 화자의 음성정보를 인식하는 역할을 수행한다.

상기 화자 인증 시스템(22)은 상기 음성 인식 시스템(21)에서 음성 인식한 후에 나온 역전파 경로(Back-propagation Path)에 따라 단어별 자동 레이블링을 수행하여 핵심어를 찾고 미리 등록된 개인 화자 모델과 타화자로 구성된 월드 모델간의 우도비를 통하여 사용자를 인증 혹은 거부하는 역할을 수행하는데, 음성 인식 동작/거부, 보안성을 요구하는 적용 분야, 원격지 집안 가전/가스 제어, 출입 제어 등에 활용될 수 있다.

상기 화자 식별 시스템(23)은 상기 음성 인식 시스템(21)에서 음성 인식한 후에 나온 역전파 경로에 따라 단어별 자동 레이블링을 수행하여 핵심어를 찾고 미리 등록된 개인 화자 모델과 타화자로 구성된 월드 모델간의 우도비를 통하여 화자 의 신원을 식별하는 역할을 수행하는데, 화자에 따른 대처, 개인일정 관리, 인식 대상 어휘 자동 분류, 대화형 로봇 등에 활용될 수 있다.

그리고, 본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템은, 음성 인식 시스템(21)을 통해 연속적으로 음성 인식을 수행하며, 해당 음성 인식한 후에 나온 역전파 경로에 따라 단어별 자동 레이블링을 수행하며, 해당 단어별 자동 레이블링이 이루어지면 핵심어를 찾고 미리 등록된 개인 화자 모델과 타화자로 구성된 월드 모델간의 우도비를 통하여 사용자를 인증 혹은 거부하거나 화자의 신원을 식별하게 된다.

도 3을 참고하여 예를 들어 다시 설명하면, 먼저 화자의 음성(예로, "나래야 현관문 열어")이 마이크 등을 이용한 입력 단을 통해 연속적으로 들어오는 경우에, 음성 인식 시스템(21)에서는 화자의 음성을 연속적으로 인식하게 되며, 해당 인식된 인식 결과 중에서 핵심어 "나래야"가 인식되면 핵심어에 대한 화자 인식 시스템(즉, 화자 인증 시스템(22)과 화자 식별 시스템(23))을 작동시켜 주게 된다.

이에, 상기 화자 인증 시스템(22)과 화자 식별 시스템(23)에서는 상기 핵심어에 대한 화자의 인식 및 식별을 수행하게 된다. 이때, 화자의 인식이 이루어진 후에 상기 음성 인식 시스템(21)이 상황에 지능적으로 작동하게 되는데, 예를 들어 사용자를 인증한 경우에는 홈 네트워크 시스템을 작동하도록 하며, 반면에 사용자를 거부한 경우에는 상기 음성 인식 시스템(21)은 대기 상태로 전환하도록 한다.

이와 같이, 본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템은, 현관문 제어나 개인 일정과 같은 보안성을 요구하는 적용분야에 매우 유용하게 사 용될 수 있다.

그리고, 상기 음성 인식 시스템(21)에서는 화자의 음성 내에 포함되어 있는 언어 정보를 추출해 내야 하는 반면에, 상기 화자 인식 시스템(즉, 화자 인증 시스템(22)과 화자 식별 시스템(23))에서의 전처리 부분에서 추출되는 특징 파라미터는 화자의 음성 내에 포함되어 있는 언어 정보보다는 화자의 개인성을 추출해 내야 한다.

따라서, 상기 음성 인식 시스템(21)에서는 언어 정보를 보편적으로 추출하기 위하여 MFCC(Mel-scaled Frequency Cepstral Coefficient)를 사용하는데, 해당 MFCC는 화자의 개인성을 오히려 다소 감소시킴으로써 상기 음성 인식 시스템(21)의 성능 향상을 보인 것이므로, 상기 화자 인식 시스템(즉, 화자 인증 시스템(22)과 화자 식별 시스템(23))에서는 해당 화자의 개인성을 강조할 수 있도록 해당 MFCC의 변형된 형태를 가지게 한다.

다시 말해서, 본 발명은 상기 화자 인식 시스템에서 화자의 개인성을 강조하기 위한 새로운 MFCC 가중 기법을 제공해 주도록 한다.

본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템에서의 새로운 MFCC 가중 기법을 설명하기 전에, 음성 특징 추출을 위한 신호 분석에 대해 살펴보면 다음과 같다.

음성의 특징을 표현하는 파라미터로는, 에너지, 영교차율(ZCR), 피치(Pitch), 포먼트(Formant) 등 여러 가지가 있다. 또한, 음성 인식을 위한 음성 특징 추출 방법으로는, 사람의 성도를 모델링한 선형 예측(LPC) 방법과, 사람의 청 각 기관을 모델링한 필터 뱅크(Filter Bank) 방법이 널리 사용되고 있다.

상기 LPC 방법은 시간 영역에서의 분석 방법을 사용하므로, 계산량이 적고, 조용한 환경에서는 매우 우수한 인식 성능을 나타내지만, 잡음 환경에서의 인식 성능이 현저히 저하되는 문제점이 있다. 따라서, 잡음 환경에서의 음성 인식을 위한 분석 방법으로 주로 사람의 청각 기관을 필터 뱅크로 모델화하는 방법이 이용되며, 멜-척도 필터 뱅크에 근거한 MFCC(즉, 멜 켑스트럼 계수)가 음성 특징 추출 방법으로 많이 사용되고 있다.

음향 심리학 연구에서 물리적 주파수와 인간이 인지하는 주관적인 주파수의 피치 사이의 관계는 선형이 아님이 밝혀져 있다. 따라서, 순음의 주관적인 피치를 정의하는데, 인간이 주관적으로 느끼는 주파수 스케일을 '멜(Mel)'이라고 하고 실제 'Hz'로 표현되는 물리적인 주파수(f)와 구별되어진다.

기준점으로 1(KHz) 순음의 피치를 1000(Mel)이라 정의하며, 다른 주관적인 피치 값은 기준점에 해당하는 순음의 반 혹은 두 배로 인지되는 순음에 대한 실제 주파수를 측정하여 얻는다.

상기 음성 인식의 특징 벡터 추출 방식에서는, 사람이 주관적으로 인지하는 주파수 특성을 반영하여 주파수를 멜-척도(Mel-scale)로 워핑(Warping)해서 필터 뱅크를 비선형적으로 분포시키는 방식을 사용하는데, 이러한 필터 뱅크를 사용해서 구한 음성 벡터를 'MFCC'라 한다.

상기 MFCC의 특징을 추출하는 과정을 도 4의 순서도를 참고하여 살펴보면 다음과 같다.

먼저, 프리-엠퍼시스(Pre-emphasis) 과정을 거치는데(단계 S41), 이것은 음성 신호가 옥타브 당 6(dB)정도로 감소하기 때문에, 고주파 성분의 에너지 감소를 보상해 주기 위해서 사용한다. 보통 1차 FIR 필터를 이용하여 아래의 수학식 1과 같은 음성 신호가 구성되어진다. 여기서, 'n'은 타임 인덱스(Time Index)이고, 'α'는 프리-엠퍼시스 계수로서 보통 0.95와 1 사이의 값을 주로 사용한다.

상기 프리-엠퍼시스 과정을 거친 음성 신호에 대해 해밍 윈도우(Hamming Window)를 씌운 후에(단계 S42), FFT 분석을 통하여 파워 스펙트럼(Power Spectrum)을 구한다(단계 S43). 이 결과(즉, 해당 구한 파워 스펙트럼)를 멜-척도 필터 뱅크에 통과시킨 후에(단계 S44) 로그(Log)를 취하고(단계 S45), 이를 다시 DCT(Discrete Cosine Transform)를 취하여(단계 S46) 아래의 수학식 2와 같이 MFCC를 얻게 된다.

여기서, 'x[i]'는 멜-척도 필터 뱅크의 출력이고, 'N'은 필터 뱅크의 대역 통과 필터 개수이며, 'm'은 켑스트럼의 차수이다.

도 5는 상기 MFCC 추출 과정에서 사용되는 비선형(Non-linear) 삼각 필터 뱅 크(Triangular Tilter Bank)를 나타낸 도면인데, 멜-척도(Mel-scale)를 이용하여 구성된 삼각 필터 뱅크를 나타내고 있다.

그리고, 켑스트럼 가중 함수에 대해 살펴보면 다음과 같다.

켑스트럼 가중치의 기본적 개념은, 저차의 켑스트럼과 고차의 켑스트럼이 비교적 잡음에 민감하다는 것에서 비롯되는데, 이에 따라 해당 켑스트럼 가중치는 켑스트럼과 같은 특징벡터(c_lp(n))에 켑스트럼 윈도우(w(n))을 곱하는 형태의 리프터링(Liftering) 동작을 통해 적용된다(단계 S47).

이때, 상기 켑스트럼 윈도우(w(n))는 아래의 수학식 3, 4, 5 등과 같이 다양한 형태의 가중치로 적용된다. 여기서, 수학식 5와 같은 형태의 BPL(Band-pass Liftering)으로 알려진 켑스트럼 가중치 함수가 잡음이나 채널변이에 매우 강인한 특성을 보인다.

즉, 켑스트럼은 전송 채널의 변화, 화자의 특성 등으로 인한 영향에 민감하고, 고차의 켑스트럼은 잡음에 민감한 특성을 가지기 때문에, 이러한 음성학적 내용과 관계없는 요소에 의한 켑스트럼의 변화를 줄이기 위해서, 아래의 수학식 6과 같이 켑스트럼에 가중(Weighting)을 가하는데, 이것을 '리프터링'이라고 한다. 여기서, 'Q'는 리프터 가중치(Lifter Weight)를 나타내고, 'm'은 켑스트럼의 차수이다.

본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템에서의 새로운 MFCC 가중 기법을 설명하면 다음과 같다.

본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템에 있어서, 화자 인증 시스템(22) 내의 음성 및 화자 특징 파라미터 추출부에서 추출한 화자 인증 특징 파라미터의 목적은, 화자 내 변이를 최소화하고 화자 간 변별력을 최대화하여 음성 내에 포함되어 있는 화자 정보를 최대화함에 있다.

이때, 해당 화자 인증 특징 파라미터는 수학적으로 명확한 표현이 가능하지 않기 때문에, 이러한 문제를 수식적으로 추적하기 위한 것으로 아래의 수학식 7과 같은 피셔(Fisher)의 에프-비(F-ratio)를 사용한다. 여기서, 해당 피셔는 '화자 내의 분산 값이 작을수록 그리고, 화자 간의 분산 값이 클수록 우수한 화자 인증 특징 파라미터'라는 분산 값에 의한 특징 분석(ANOVA; Analysis of variance)을 사용한다.

여기서, 해당 'VIM'은 화자 간 분산 값(Variance of Inter-speaker Means)을 말하며, 해당 'AIV'는 평균 화자 내 분산 값(Average Intra-speaker Variance)을 말한다.

다시 말해서, 본 발명의 실시 예에 따른 음성 인식/화자 인식 통합 시스템은, 상기 화자 인증 시스템(22) 내의 음성 및 화자 특징 파라미터 추출부에서 추출한 화자 인증 특징 파라미터를 수식적으로 추적하기 위한 피셔의 에프-비를 높여 에러의 확률을 최소화시킴과 동시에 화자의 개인성 정보를 최대화시켜 주도록 하는데, 이때 해당 피셔의 에프-비를 높이기 위한 상태별 개인 가중 함수(즉, 상태별 MFCC 가중 함수)를 구하여 상술한 바와 같은 MFCC 가중에 적용시켜 화자의 개인성 정보를 최대화시켜 주도록 한다.

그러면, 상술한 상태별 개인 가중 함수를 구하기 위한 동작을 도 6의 순서도 를 참고하여 살펴보면 다음과 같다.

먼저, 상기 화자 인증 시스템(22) 내의 음성 및 화자 모델 생성부에서 개인 모델을 생성한 후에 사전 문턱치를 계산하기 위하여 비터비(Viterbi) 연산 수행 시에 구해지는 역전파 경로(Back Propagation Path)를 이용하여 상태 세그먼테이션(Segmentation)을 수행하게 된다(단계 S61).

도 7은 도 6에 있어 비터비 역전파 경로에 의한 상태 세그먼테이션의 예를 나타낸 도면이다.

이에, 상기 제61단계(S61)에서 상태 세그먼테이션을 통해 얻어진 상태별 MFCC에 대한 차수별 화자 내 분산 값(Intra-speaker Variance)과 월드 모델 간의 유클리드(Euclid) 거리를 계산한 후에 아래의 수학식 8과 같이 상태별 개인 가중치(w_j(i))를 구한다(단계 S62). 즉, j 상태의 i 번째 차수의 개인 가중치(w_j(i))는 월드 모델 j 상태의 i 번째 차수의 분산 값에 개인모델 j 상태의 i 번째 차수의 분산 값을 나눈 값과 같다.

이에 따라, 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))를 사용하여 멀티-벡터 양자화(Multi-Vector Quantization) 동작을 수행하도록 한다(단계 S63).

그러면, 기존의 델타-켑스트럼이 단순히 켑스트럼의 시간 변화량만을 측정하여 화자의 동적 특성을 표현함으로써 오히려 사칭에 약한 반면에, 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))는 HMM(Hidden Markov Model)의 물리적 특성을 이용하여 개인 화자별 동적 특징을 표현했을 뿐 아니라, 화자 내 변이(즉, 화자 내 분산)의 최소화와 화자 간 변이(즉, 화자 간 분산)의 최대화를 가질 수 있도록 MFCC 차수별로 가중함으로써, 음성 정보보다는 화자의 특징을 크게 향상시키는 특징 파라미터를 추출할 수 있도록 해 준다.

즉, 아래의 수학식 9와 같이, 인증 과정에서 제안한 가중치 함수를 통한 변형된 MFCC 특징 파라미터는, 언어 정보보다는 개인 정보를 가중시켜 상기 화자 인증 시스템(22)의 성능을 크게 향상시킴을 잘 알 수 있다. 여기서, 'x^*'는 개인 정보를 가중시킨 변형된 MFCC 특징 파라미터이다.

아래의 표 1은 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))에 대한 성능 분석표를 나타내고 있는데, 가중치를 주지 않은 경우와, 음성 인식에서 흔히 적용되는 시너소이덜(Sinusoidal) 켑스트럼 가중치를 적용한 경우를, 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))를 적용한 경우와 비교 분석하여 나타내고 있다.

화자	가중치 적용 없음		켑스트럼 가중치 적용		본 발명 가중치 적용
화자	FR	FA	FR	FA	FR	FA
제1사용자	1/40	0/300	1/40	0/300	1/40	0/300
제2사용자	40/100	3/300	10/100	3/300	12/100	4/300
제3사용자	1/40	0/300	0/40	0/300	0/40	0/300
제4사용자	3/60	12/300	14/60	0/300	0/60	1/300
제5사용자	0/50	1/300	0/50	0/300	0/50	0/300
제6사용자	9/60	0/300	8/60	9/300	6/60	1/300
제7사용자	6/70	0/300	5/70	0/300	2/70	0/300
제8사용자	19/100	0/300	23/100	0/300	17/100	0/300
제9사용자	11/60	14/300	42/60	0/300	10/60	8/300
제10사용자	2/80	1/300	2/80	0/300	1/80	0/300
계	92/660	31/3000	105/660	12/3000	49/660	14/3000
%	13.939	1.033	15.909	0.4	7.424	0.466
인식률(%)	86.061	98.967	84.091	99.6	92.576	99.534

표 1에 나타나 있는 바와 같이, 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))는 비교 분석한 실험 결과로, 음성 내에 존재하는 화자의 개인성을 자동으로 강조함으로써, 상기 화자 인증 시스템(22)의 성능을 크게 향상시킴을 잘 알 수 있다.

그리고, 상기 제63단계(S63)에서 멀티-벡터 양자화 동작을 통해서 관측 열(Observation Sequence)을 발생시키며(단계 S64), 발생된 관측 열을 통하여 모델링 혹은 화자 인증 동작을 수행하게 된다(단계 S65).

예를 들어, 이산(Discrete) HMM(즉, DHMM)은 끝점 추출에 의해서 상술한 바와 같이 음성 구간의 특징 파라미터가 추출되면, 해당 추출된 특징 파라미터에 대해 벡터 양자화 과정을 통해 관측 열을 발생시키고, 해당 발생된 관측 열을 통하여 모델링 혹은 화자 인증 과정을 수행하게 된다.

이때, 연속적인 특징 파라미터를 양자화하는 과정에서 벡터 양자화 에러가 발생하게 되는데, 이를 해결하기 위하여 연속 분포를 갖는 HMM이 나오게 되었다. 즉, 특징 파라미터의 양자화 과정을 통하지 않고 직접 가우시안 분포의 확률 값을 통하여 관측 확률을 추정함으로써, 보다 정확한 모델링이 가능하다.

하지만, 학습 데이터가 절대적으로 부족한 화자 인증 시스템(22)에서는 오히려 가정된 가우시안 확률 분포를 충족시키지 못하여 더 큰 에러를 가져 오게 된다. 따라서, 학습 데이터가 풍부한 음성 인식 시스템(21)의 경우에는 연속 HMM(즉, CHMM(Continuous Hidden Markov Model))을 기반으로 시스템을 구성하고, 화자 인증 시스템(22)의 경우에는 DHMM을 기반으로 시스템을 구성하도록 한다. 도 8은 DHMM과 CHMM의 차이점을 잘 나타내 주고 있다.

그리고, 본 발명에서는 DHMM의 벡터 양자화 에러를 최소화하고 화자 간 변별력 향상을 위한 멀티 코드북 탐색 기법을 구현하도록 하는데, 상기 화자 인증 시스템(22)의 전처리 부분에서 제안한 개인 가중치(w_j(i))(즉, 상기 제62단계(S62)에서 구한 상태별 개인 가중치)를 사용함으로써, 사실상 하나의 코드북을 HMM 상태 N 개의 멀티 코드북으로 사용할 수 있다.

도 9에 도시된 바와 같이, 벡터 양자화 과정에서 유클리드(Euclid) 거리 계산 시에 입력 특징 파라미터(x(t)={x₁,x₂,...x_T})에 가중 함수(w_j(i))를 곱해 줌으로써, 총 N 개의 관측 열 집합으로부터 최소 관측 열(Minimum Sequence)(o(t)={o₁,o₂,...o_T})을 발생시켜 준다.

이것은 상태별 멀티 코드북을 갖는 효과가 있음으로써, 벡터 양자화 에러를 최소화시킬 뿐 아니라, 화자 간 변별력을 최대화시켜 화자 인증 시스템(22)의 성능 향상에 크게 기여한다.

그런데, 상태 수, N 개만큼 늘어난 벡터 양자화의 연산량을 줄이기 위해서는, 아래의 수학식 10과 같은 프루닝(Pruning) 기법을 응용하여 연산량을 감소시켜 주도록 한다.

본 발명의 멀티 코드북 탐색 기법은, 기존의 벡터 양자화 과정에 비해 약 2배의 계산량 증가로 화자 간 변별력을 극대화시키고 벡터 양자화의 단점도 극복할 수 있음을 잘 알 수 있다.

상술한 바와 같이, 기존의 델타 켑스트럼이 단순히 켑스트럼의 시간 변화량만을 측정하여 화자의 동적 특성을 표현해 오히려 사칭에 약한 반면에, 상기 제62단계(S62)에서 구한 상태별 개인 가중치(w_j(i))는 HMM의 물리적 특성을 이용하여 개 인 화자별 동적 특징을 표현했을 뿐 아니라, 화자 내 변이 최소화와 화자 간 변이 최대화를 가질 수 있게끔 MFCC 차수별로 가중함으로써, 음성 정보보다는 화자의 특징을 크게 향상시키는 특징 파라미터를 추출할 수 있다. 인증 과정에서 제안한 가중치 함수를 통한 변형된 MFCC 특징 파라미터는, 언어 정보보다는 개인 정보를 가중시켜 상기 화자 인증 시스템(22)의 성능을 크게 향상시킴을 알 수 있다.

예를 들어, 월드 모델을 구성하기 위한 데이터베이스를 "나래야", "휴보", "홈매니저", "이마주"의 총 4단어로써 연령별(10대에서 40대까지) 남녀 각 100명씩 10번씩 발성한 단어(즉, 4 단어 * 4 연령 * 2 남녀 * 100 명 * 10 번 = 32,000개)로 미리 구성하도록 하며, 개선된 LBG(Linde, Buzo, Gray) 알고리즘에 의해 최적의 성능을 나타내는 196 사이즈의 월드 코드북을 생성하도록 하며, EM(Expectation-Maximization) 알고리즘에 의해 5상태의 LTR(Left to Right) HMM 모델을 생성하도록 한다.

또한, 본 발명의 제안한 알고리즘을 증명하기 위한 테스트 데이터베이스의 구성을 도 10과 같이 구현하도록 하는데, 도 10은 실험 환경 및 데이터베이스 구성을 항목별로 정리하고 있다. 사용된 단어는 7가지 다른 품질의 마이크로폰을 통해 남자 50명, 여자 30명의 화자로부터 6개월에 걸쳐 매달 30번씩 수집하도록 하며, 모든 음성은 8(KHz)의 주파수로 샘플링되고 프레임 분석 구간은 20(msec)이며 1/4 중첩하도록 한다. 프리-엠퍼시스된 음성은 20차의 MFCC로 변환되며, 기존의 벡터 양자화/HMM 시스템과 본 발명의 벡터 양자화/HMM 시스템에 대해 동일한 데이터베이스로 수행하도록 한다.

상술한 바와 같은 조건으로 실험한 결과는, 도 11에 도시된 바와 같이, 각 모듈별로 기존의 기법들과 본 발명의 제안한 기법들을 DET(Detection Error Trade-off) 곡선으로 표현하도록 하는데, 해당 DET 곡선은 1997년 프지보키(Przybocki)와 마틴(Martin) 등에 의해 제안되었고 시스템에 의해 나타날 수 있는 모든 가능한 성능 값을 표현해 주는 곡선이다. 또한, 기존의 사전 문턱치에 의해 승인/거절 결과를 나타낸 후에 FRR(False Rejection Rate)과 FAR(False Acceptance Rate)을 계산하는 방법보다 시스템의 성능을 비교하는데 매우 우수한 방법이다.

그리고, 최소화되어질수록 좋은 성능을 나타내는 DCF(Detection Cost Function) 는, 본인 인증 오류율(P_miss)과 타인 사칭 오류율(P_fa)의 가중합의 형태로 아래의 수학식 11에 잘 나타나 있다.

여기서, 'C_miss'는 본인 인증 오류 비용이며, 'C_fa'는 타인 사칭 오류 비용이다. 'P_true'는 화자 모델의 사전 확률이고, 'P_false(즉, P_false=1-P_true)'는 월드 모델의 사전 확률이다. 최적의 DCF 값은 각 곡선에 "○"으로 표시되어 있다. 본 발명에서는, 프지보키와 마틴의 실험에서와 같이, 'P_false=0.99', 'P_true=0.01', 'C_miss=10', 'C_fa=1'로 정하도록 한다.

도 11에서 보듯이, 본 발명의 제안한 상태별 MFCC 가중 함수와 멀티 코드북 탐색 기법은, DCF를 '3.5'에서 '2.9'로 낮춤으로써, 기존의 음성 인식 시스템에서 사용하는 낮은 차수와 높은 차수에 작은 가중치를 주고 음성 정보가 다량으로 포함되어 있는 중간 차수에 높은 가중치를 주는 가중 함수에 비해 화자의 정적 특성 및 동적 특성을 동시에 강조함으로써, 화자 간 변별력 향상에 크게 기여함을 확인할 수 있다. 또한, 멀티 코드북 탐색 기법은 기존의 벡터 양자화/DHMM 시스템에서 발생할 수밖에 없는 벡터 양자화 에러를 최소화시켜 시스템의 성능을 향상시킬 수 있다.

이상과 같이, 본 발명에 의해 음성 인식 시스템과 화자 인식 시스템을 통합하여 사용자 보안을 강화함과 동시에, 특징 파라미터 가중 기법을 이용하여 화자별 정보의 개인성을 최대화하거나, 멀티 코드북 탐색 기법을 이용하여 벡터 양자화 에러를 최소화하도록 한다.

다시 말해서, 본 발명에 의해 생체 보안 기술로써의 화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합하여 설계함으로써, 편리하면서도 안전한 HCI을 제공해 줄 수 있으며, 음성 인식/화자 인식 통합 시스템에 있어서 화자 인증 시스템 내의 음성 및 화자 특징 파라미터 추출부에서 추출한 화자 인증 특징 파라미터를 수식적으로 추적하기 위한 피셔의 에프-비를 높여 화자의 개인성 정보를 최대화시켜 줄 수 있다. 또한, 본 발명에 의해 음성 인식/화자 인식 통합 시스 템에 있어서 화자 인증 시스템의 전처리 부분에서 하나의 코드북을 HMM 상태 다수 개의 멀티 코드북으로 사용하는 멀티 코드북 탐색 기법을 적용하여 벡터 양자화 과정을 수행하도록 함으로써, 기존의 벡터 양자화 과정에서 발생할 수밖에 없는 벡터 양자화 에러를 최소화시켜 주며, 기존의 벡터 양자화 과정에 비해 화자 간 변별력을 극대화시켜 화자 인증 시스템의 성능을 향상시켜 줄 수 있다.

Claims

화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합한 음성 인식/화자 인식 통합 시스템에서 MFCC(Mel-scaled Frequency Cepstral Coefficient)를 추출하여 화자 인식을 수행하는 방법에 있어서,

상기 화자 인증 시스템에서 개인 모델을 생성한 후에 사전 문턱치를 계산하기 위하여 비터비 연산 수행 시에 구해지는 역전파 경로를 이용하여 상태 세그먼테이션을 수행하는 과정과;

상기 상태 세그먼테이션을 통해 얻어진 상태별 MFCC에 대한 차수별 화자 내 분산 값과 월드 모델 간의 유클리드 거리를 계산하여 상태별 개인 가중치를 구하는 과정과;

상기 상태별 개인 가중치를 사용하여 멀티-벡터 양자화를 수행하여 관측 열을 발생시키며, 해당 관측 열을 통하여 화자 인식을 수행하는 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
제1항에 있어서,

상기 상태별 개인 가중치는, HMM(Hidden Markov Model)의 물리적 특성을 이용하여 개인 화자별 동적 특징을 표현하며, 화자 내 변이의 최소화와 화자 간 변이 의 최대화를 가질 수 있도록 MFCC 차수별로 가중한 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
제1항에 있어서,

상기 상태별 개인 가중치는, j 상태의 i 번째 차수인 경우에, 월드 모델 j 상태의 i 번째 차수의 분산 값에 개인모델 j 상태의 i 번째 차수의 분산 값을 나눈 값인 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
제1항에 있어서,

상기 화자 인식 수행 과정은, 상기 화자 인증 시스템에서 상기 상태별 개인 가중치를 사용하여 하나의 코드북을 HMM 상태 다수 개의 멀티 코드북으로 적용시켜, 상기 유클리드 거리 계산 시에 입력 특징 파라미터에 상기 상태별 개인 가중치를 곱하여, 다수 개의 관측 열 집합으로부터 최소 관측 열을 발생시켜 주는 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.