KR100312919B1

KR100312919B1 - 화자인식을위한방법및장치

Info

Publication number: KR100312919B1
Application number: KR1019950704080A
Authority: KR
Inventors: 마크폴로스키; 요셉고든탕
Original assignee: 내쉬 로저 윌리엄; 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date: 1993-03-25
Filing date: 1994-03-25
Publication date: 2001-12-28
Also published as: CA2158847A1; EP0691024B1; CA2158847C; FI954527A0; KR960701428A; SG50502A1; JPH08508107A; DE69420400D1; SG50487A1; US5583961A; FI954527A; EP0691024A1; AU6432994A; AU685788B2; DE69420400T2

Abstract

본 발명은 화자 인식을 위한 장치에 관한 것으로서, 음성 신호에 응답하여 주파수 대역에 단기간의 스펙트럴 진폭을 지시하는 계수를 각각 포함하는 일련의 계수 세트를 포함하는 기능 데이타를 발생하는 수단, 상기 기능 데이타를 지정된 화자 기준 데이타와 비교하는 수단, 상기 비교에 따라 대응하는 화자의 인식을 지시하는 수단, 상기 계수중 하나 이상의 장기간 평균 스팩트럴 크기를 도출하는 수단 및 상기 장기간 평균에 의해 하나 이상의 계수를 정규화하는 수단을 포함하고, 상기 주파수 대역이 주파수축을 따라 불균등하게 분포되어 있는 것을 특징으로 한다.

Description

[발명의 명칭]

화자 인식을 위한 방법 및 장치

[발명의 상세한 설명]

본 발명은 음성 처리, 특히 화자(Speaker) 인식을 위한 처리에 관한 것이다. 인식 처리는 화자 식별을 검출, 검증하는 화자 인식과 특정 워드(또는 구, 음소 또는 구술 내용)를 검출하는 음성 인식을 포함한다. 음성 인식은 다수의 화자로부터의 음성 데이터가 인식 처리에 사용되는 화자-독립 인식과 한 화자로부터의 음성 데이터가 인식 처리에 사용되는 화자-종속 인식을 포함한다. 일반적으로, 음성 인식에서의 처리는 여러 화자로부터 도출된 구술 내용에 끼치는 영향을 줄이는데 목적을 두고 있고, 반면에 화자 인식에서는 그 반대이다.

인식 처리에서는 음성 테이터가 디지털 형태로 입력 음성 데이터로부터 전위 특징 세트 또는 벡터라 일컫는 보다 압축적이고, 보다 유효한 데이터 세트를 도출하는 전위 처리기(front-end processor)로 입력되는 것이 일반적이다. 예를 들면, 음성은 마이크로폰을 경유하여 입력이되고, 샘플링되고 디지털화되어, 통상 10∼20ms의 길이를 가진 프레임으로 분할되고(예를들면 8kHz에서 샘플링됨), 각 프레임에서 일련의 K개 계수(통상 5~25개)가 계산된다. N개 프레임 예를 들면 워드당 25∼100개가 있기 때문에 특징 벡터에는 N×K개(1,000개 단위) 계수가 있다. 화자 인식에서, 인식되는 화자는 일반적으로 인식 장치나 화자(예를 들면, 은행 업무 시스템에서의 PIN(Personal identification number)과 같은)에게 알려진 미리 정해진 단어를 구술할 것이라고 가정한다. 단어의 저장된 표현(템플릿(Template)이라 일컬음)은 확인된 화자로부터 미리 도출된 단어의 기준 특징 매트릭스를 포함한다. 인식되는 화자로부터 도출되는 입력 기능 행렬은 템플릿과 비교되고, 들 사이의 유사성 정도는 수용 결정을 위해 임계값과 비교된다.

화자가 단어를 구술하는 속도를 변화시키는 것이 문제가 되고, 그래서 주어진 워드에 대응하는 입력 음성 행렬은 그 단어의 템플릿보다 길거나(즉, 더 많은 프레임으로 구성되거나) 짧을 수 있다. 그러므로, 인식 장치에서는 비교가 행해지기 전에 두 매트릭스를 시간적으로 정렬하는 것이 필요하고, 시간정렬과 비교의 잘 알려진 방법 중 하나는 ASSP(Application Specific Standard Product)에 관한 IEEE 회보, 1979년 8월 24권 4호에 Rabiner외 다수가 쓴 "Speaker Independent Recognition of words using Clustering Techniques" 에 기술되어 있는 DTW(Dynamic Time Warp)법 이다.

여러 가지 특징들이 인식 처리를 위해 사용되었거나 제안되었다. 일반적으로 음성 인식을 위해 사용되는 특징들은 화자를 감지하지 않고 단어를 구별하기 위한 것인 반면에 화자 인식을 위해 사용되는 특징들은 지정 단어들에 대해 화자를 구별하기 위한 것이므로, 한 형태의 인식에 적합한 특징은 다른 것에는 적합하지 않을 수 있다. 화자 인식을 위한 몇몇 특징들은 Atal이 쓴 IEEE 64권(l976년 4월) 460∼475페이지, "Automatic Recognition of Speakers from their voices " 에 기술되어 있다.

알려진 특징 계수 중 하나는 켑스트럼(cepstrum)이다. 켑스트라(Cepstra)는 스펙트럴 분해(예를 들면, 푸리에 변환과 같은 스펙트렬 변환)를 실행하고, 변환 계수의 대수(1ogarithm)를 취하며, 역 스팩트럴 분해를 실행하므로써 형성된다.

화자 인식에서는 LPC(Linear Prediction Coefficient) 켑스트럼과 FFT(Fast Fourier Transform) 켑스트럼 기능이 알려져 있고, 전자가 보다 광범위하게 이용된다.

음성 인식에서는 MFCC(Mel-Frequency Cepstrum Coefficient) 기능이 알려져 있다. MFCC를 계산하고, DTW를 사용하여 MFCC 특징 벡터와 워드 템플릿 사이의 거리 정도를 계산하기 위한 알고리즘은 본 명세서에 참조문헌으로 포함되는, 1982년 IEEE의 음향, 음성 및 신호 처리에 관한 국제회의(International Conference on Acoustics, Speech and Signal Processing)에서 Chollet과 Gagnoulet가 발표한 "On the evaluation of Speech Recognisers and Data Bases using a Reference System" (2026∼2029 페이지)에 기술되어 있다.

일반적으로 MFCC 특징 벡터는 신호 스팩트럼을 도출하기 위해 음성 신호의 각 프레임에 스팩트럴 변환 (예를 들면, FFT)을 실행하고, 주파수 축을 따라 '멜 주파수(mel-frequency)' 스케일이라 일컫는 불균등하게 분포되어 있는 일련의 광대역으로 상기 스펙트럼 성분들을 집적하고, 각 대역의 크기에 대수(logarithm)를 취하며, 상기 프레임에 대한 MFCC 계수 세트를 생성하기 위해 추가로 변환(예를 들면, 이산 코사인 변환(DCT))을 실행하므로써 도출된다. 일반적으로 유용한 정보는 하위 차수의 계수에 한정된다는 것이 확인된다. 예를 들면, 멜 주파수 스케일은 0~1kHz 사이에서는 선형 주파수 스케일에서 균일하게 분포하는 주파수 대역이며, 1kHz 이상에서는 대수 주파수 스케일(logarithmic frequency scale)에서 균일하게 분포되는 주파수 대역일 수 있다.

MFCC는, 화자 사이에서 변화하기 때문에 음성 인식에서는 유용하지만 화자인식에서는 바람직하지 못한 피치(pitch) 정보를 제거한다. 따라서 MFCC는 화자 인식에서는 선호되지 아니하였다.

Review of Electrical Communications Laboratories(Vol 30, No 3, 1982)의 467∼482 페이지에 기재된 "Speaker Recognition by Statistical Features and Dynamic Features" 에서 S Furui는 4가지의 화자 인식 방법을 기술하고 비교한다. 그 중 두 가지 방법에서, 스팩트럴 포락선(envelope)은 로그(log) 영역 비에 의해 표현되고, 다른 두 가지 방법에서는 LPC 켑스트럼 계수에 의해 표현된다. LPC 켑스트럼 계수를 사용한 경우, 전체가 구술(utterance)되는 동안에 대해 계수가 평균 값으로 취해지고, 상기 발화는 몇 개의 워드(예를 들면, 7까지)일 수 있으며, 상기 평균값은 전송 시스템에 의한 주파수 응답 왜곡을 보상하기 위해 모든 프레임의 켑스트럼 계수로부터 감산된다. 정규화된 켑스트럼 계수에 대한 시간 함수는 90ms 기간동안 매 10ms 마다 직교다항표현식(orthogonal polynomial representation)에 의해 전개된다. 다항 처리는 각 세그먼트의 켑스트럼 계수의 평균값, 기울기 및 곡률에 대응하는 다항 표현식을 발생한다. 켑스트럼 계수의 최초 시간 함수는 제1차 및 제2차 다항 계수와 함께 제0차 다항 계수의 위치에 사용되고, 그래서 각 구술 내용은 30차원 벡터의 시간 함수에 의해 표현된다. 30개의 요소 중에서, 18개의 요소들의 세트가 (연장된 훈련/등록 단계 동안 결정되는) 고객과 도용자의 표본적인 구술 내용의 전체 거리 분포를 전개하기 위해 선택된다. 대체 처리 구성에서, LPC 분석 후, 특히 푸리에 코사인 전개 계수의 생성을 포함하는 통계적 특징을 추출하는 과정이 이어진다. 이러한 대체 처리에서 최종 특징 세트는 60개의 선택된 요소들로 구성된다. LPC 켑스트럼 계수와 기본 주파수의 시간 함수로부터 추출된 푸리에 계수를 포함하는 통계적 특징을 사용한 후자의 처리 구성("방법 2" )은 사용되는 특정한 훈련 및 도용 데이터에 대해 99.9%의 인식 정확도를 제공하는 것으로 알려져 있다. Furui는 상기 결과가 "로그 영역 비보다 LPC 켑스트럼 계수가 훨씬 더 효율적이라는 것을 나타낸다." 는 결론을 내렸다. Furui는 다른 어떤 켑스트라도 사용하는 것이나, 입력음성을 다수의 지정된 주파수 대역으로 여과하는 것에 대한 어떠한 시사도 제공하지 않는다. 게다가, Furui는 매우 큰 특징 세트(예를 들면 60개 요소에 달하는) - 특히, 만약 관련되는 인식기 모집단이 매우 크면 피하는 것이 매우 바람직한 것-의 사용에 대한 가치를 암시적으로 시사한다.

1989년 5월 23일의 ICASSP 89, 1권 524∼527페이지 "Speaker Verification over Long Distance Telephone Lines" 에서 J M Naik 외 다수는 템플릿 기반 DTW 또는 HMM(Hidden Markov Modelling)을 사용하여 화자 검증 기술을 비교한다. 다시, LPC 분석이, 특징들이 추출된 선처리된 정보를 제공하기 위해 실행되었다. 최초 32개의 파라미터가 LPC 데이터의 각 프레임으로부터 계산된다.

* 음성 레벨 평가(dB) ;

* RMS 프레임 에너지(dB) ;

* 스펙트럴 변화율에 대한 스칼라 측정 ;

* 14개의 필터-뱅크 크기(dB)

- me1-spaced simulated 필터 뱅크

- 프레임 에너지에 의한 정규화

* 40ms에 걸친 프레임 에너지의 시간차 ;

* 40ms에 걸친 14개의 필터 뱅크 크기의 시간차.

기준과 테스트 템플릿을 비교하기 위해 사용되는 음성 특징은 템플릿으로 사용하기 위한 18개의 특징의 세트를 발생하기 위해 상기 32개 파라미터의 선형 변환에 의해 얻어진다. mel-spaced 필터 뱅크의 사용에 대한 어떠한 설명이나 이유도 없고, LPC 가 아닌 다른 어떤 형태의 켑스트라를 사용하는 것에 대한 제시도 엾다.

본 발명의 목적은 개선된 전위 특징(front end feature)을 사용하여 화자 인식을 위한 방법과 장치를 제공하는 것이다.

따라서 본 발명은, 불균등한 주파수 범위에 분포되어 있으며 적어도 하나는 일정시간 간격 동안에 대한 평균 레벨에 의해 정규화되어 있는 복수의 스펙트럴 진폭 계수를 포함하는 인식 특징을 도출하기 위해 음성신호가 처리되는 화자 인식을 위한 방법과 장치를 제공한다.

정규화는 음성 신호가 통과하는 전송 채널과 같은 것에 의한 음성 신호의 장기간 필터링의 영향을 줄이는 기능을 한다.

예를 들면, 상기 계수는 멜 주파수 스케일로 분포될 수 있다. 이 경우, 상기 계수는 MFCC 계수이다. 정규화는 각 계수에 대한 장기간의 산술평균값을 형성하고, 각 계수값으로부터 이 평균값을 감산함으로써 쉽게 실행된다. 상기 계수들은 대수 값이기 때문제, 감산은 각 멜 주파수 대역에서 소스 신호의 기하 평균에 의해 나누는 것에 해당한다.

이러한 방식으로 정규화될 때, 멜 주파수 켑스트럴 계수는 상대적으로 작은 수의 계수만을 사용하여 화자 인식을 위한 신뢰할 수 있는 특징 세트를 제공하고, 게다가 화자와 인식 장치 사이의 전송 채널의 특성에 대한 의존성이 크게 감소하기 때문에, 특히 통신 애플리케이션에 사용하기 적합하다.

본 발명의 다른 국면과 실시예는 여기에서 기술되는 것과 같고, 많은 이점이 이하에서 명백해질 것이다.

이하 첨부한 도면 및 상세한 설명을 참조하여, 실시예를 통해 본 발명을 기술할 것이다.

제 1 도는 통신 환경에서 본 발명에 따른 인식 처리기의 이용에 대한 개략도;

제 2 도는 본 발명의 실시례에 따른 인식'처리기의 기능 요소를 개략적으로 보여주는 블록도;

제 3 도는 제 2도의 일부분인 MFCC 발생기의 동작을 개략적으로 보여주는 흐름도;

제 4 도는 제 3도의 과정의 일부분을 주파수 영역에서 나타내는 설명도;

제 5 도는 제 2도의 일부분인 엔드 포인트 검출기의 동작을 보다 상세히 보여주는 흐름도;

제 6 도는 제 5도의 과정을 나타내는 시간에 대한 진폭의 설명도;

제 7 도는 바람직한 실시례에서 제 2도의 일부분인 정규화 처리기의 동작을 개략적으로 나타내는 흐름도;

제 8a 도는 화자 검증 실시례에서 제 2도의 일부분인 비교 처리기의 동작을 나타내는 흐름도;

제 8b 도는 화자 식별 실시례에서 제 2도의 일부분인 비교 처리기의 동작을 나타내는 흐름도;

제 9 도는 제 7도에 대한 대체 실시례에서 제 2도의 일부분인 정규화 처리기의 동작을 보여주는 흐름도;

제 10a 도는 두개의 서로 다른 전송 채널 각각의 시간에 대한 MFCC 계수값을 플로팅(plotting)한 설명도; 및

제 10b 도는 제 7도의 바람직한 실시례에 따라 정규화된 계수를 플로팅한 대응도이다.

[바람직한 실시례]

제 1도를 참조하면, 화자 인식을 포함하는 통신 시스템은 일반적으로 전화 수화기의 일부분인 마이크로폰(1); 통신 네트워크(2)(통상, 공용 교환 통신 네트워크(PSTN)); 네트워크(2)로부터 음성 신호를 수신하기 위해 연결된 인식 처리기(3); 및 상기 인식 처리기(3)에 연결되어 있고, 상기 인식 처리기로부터 인식 또는 특정 화자의 인식 또는 비인식을 나타내는 음성 인식 신호를 수신하고 신호에 응답하여 동작을 취하기 위해 배치된 이용 장치(4)를 포함한다. 예를 들면, 상기 이용 장치(4)는 은행 거래를 효율적으로 하기 위한 원거리에 위치한 은행용 단말기일 수 있다.

여러 가지 경우에서, 상기 이용 장치(4)는 네트워크(2)를 경유하여 통상 전화 가입자 수화기의 일부분인 확성기(5)로 전송되는 화자에 대한 음성 응답을 발생할 것이다.

동작을 함에 있어서, 화자는 마이크로폰(1)에 구술하고, 아날로그 음성 신호는 마이크로폰(1)으로부터 네트워크(2)를 통해 인식 처리기(3)로 전송되어 음성 신호는 분석되고, 특정 화자에 대한 식별 또는 비식별의 신호가 발생되어 이용 장치(4)로 전송되며, 이 때 이용 장치(4)는 화자 인식에 대한 적절한 동작을 취한다.

통상, 인식 처리기는 음성 신호를 검증하기 위한 데이터가 아닌 화자 식별에 관한 데이터를 획득할 필요가 있다. 그리고 이러한 데이터 획득은 인식 처리기(3)가 이용장치(4)에 연결되지 않고, 당해 화자에 대한 인식 데이터를 형성하기 위해 마이크로폰(1)으로부터 음성 신호를 수신하는·동작의 제 2모드(mode)에서 인식 처리기에 의해 실행될 수 있다. 그러나 화자 인식 데이터의 획득을 위한 다른 방법도 또한 가능하다. 예를 들면, 화자 인식 데이터가 화자가 가진 카드에 기록되어 있고, 상기 카드는 카드 판독기에 삽입할 수 있는 것이며, 상기 카드 판독기는 음성신호의 전송 전에 데이터를 판독하고 상기 데이터를 PSTN을 통해 인식 처리기로 전송한다.

통상, 인식 처리기(3)는 마이크로폰(1)으로부터 네트워크(2)로의 신호에 의해 선택된 경로를 인식하지 못한다. 예를 들면, 마이크로폰(1)은 모바일(mobile) 아날로그 또는 디지털 무선 링크를 통해 네트워크(2)에 연결될 수 있고, 제 3국가로부터 발생할 수 있으며, 또한 수신자 수화기의 여러 가지 형태와 품질 중 하나로부터 발생할 수 있다. 마찬가지로, 무선 링크, 아날로그/디지탈 경로 등을 포함하는 네트워크(2)내의 여러 종류의 전송 경로 중 하나가 선택될 수도 있다. 따라서, 인식처리기(3)에 도달하는 음성 신호 Y는 마이크로폰(1)의 전달 특성, 네트워크(2)로의 링크, 네트워크(2)내에서의 채널, 그리고 인식 처리기(3)로의 링크(이상은 단일 전달 특성 H로서 하나로 합해지고 지정됨)와 콘발브(convolve)되어 마이그로폰(1)에 수신된 음성 신호 S와 대응된다.

[인식 처리기(3)]

제 2도는 바람직한 실시례에 따른 인식기의 기능 요소들을 보여준다. 하이 엠퍼시스 필터(high emphasis filter)(210)는 8비트수의 시퀀스로 8kHz의 샘플링 레이트(sampling rate)로 디지털화된 음성 파형을 수신하고 보다 높은 주파수의 진폭을 증가시키기 위해 하이 엠퍼시스 필터링 과정(예를 들면, 1∼0.95.z^-1필터를 실행함으로써)을 실행한다. 음성 프레임 발생기(220)는 여과된 신호를 수신하고 연속하는 샘플들의 프레임의 시퀀스를 형성한다. 예를 들면, 상기 프레임은 각각 256개의 근접한 샘플을 포함할 수 있고, 각 프레임은 선행 프레임 및 후행 프레임과 50% 오버랩되어 32ms의 길이를 가진 프레임을 16ms당 1개의 비율로 지정할 수 있다. 예를 들면, 16ms의 지연차를 가진 한 쌍의 프레임 버퍼(221, 222)는 병렬로 채워져서 교대로 판독될 수 있다.

각 프레임의 시작과 끝에서 불연속성으로 인한 의사(spruious) 주파수 생성을 제거하기 위해, 각 프레임은 (잘 알려진 바와 같이) 각 윈도우의 에지로 향하는 샘플의 스케일을 줄이는 해밍 윈도우 처리기(Hamming window processor)(223)를 통과하는 것이 바람직하다.

256개의 윈도우를 통과한 샘플의 각 프레임은 MFCC계수 세트(예를 들면, 8개의 계수)를 추출하기 위해 MFCC 발생기(230)에 의해 처리된다. 동시에, 각각의 윈도우된 프레임은 음성 내용의 시작과 끝을 검출하는 엔드 포인트 검출기(240)에 제공되고, 계수 저장 메모리(251)와 정규화 처리기(252)를 포함하는 정규화기(250)에 음성/비음성 제어 신호를 제공한다. 엔드 포인터(240)로부터 '음성 스타트' 신호를 수신한 후, '음성 엔드' 신호가 엔드 포인터(240)로부터 수신될 때까지 정규화기(250)는 계수 저장 메모리(251)에 각각의 연속적인 프레임에 대한 8개의 계수 중 몇 개 또는 모두를 저장한다. 이때 정규화 처리기(252)는 각 음성 프레임에 대해 계수 저장 메모리(251)에 저장된 계수로부터 각각의 8개 계수에 대한 산술 평균계수값을 계산한다. 8×N개 계수(여기서 N은 구술된 내용의 스타트 포인트와 엔드 포인트 사이의 프레임 수이다)를 포함하는 정규화 행렬을 제공하기 위해 각 프레임에 대해 각각 저장된 계수값으로부터 각 계수에 대한 산술 평균 계수값을 감산한다.

이 정규화 계수 행렬은 비교 처리기(260)에 제공되고, 비교 처리기는 화자 템플릿(270)으로부터 당해 화자와 관련된 행렬을 판독하고, 이 두 행렬을 서로 비교하며, 상기 정규화 음성 벡터와 화자 템플릿 저장 영역(270)으로부터의 화자 템플릿사이의 유사성에 따라 인식/비인식 출력 신호를 발생시킨다.

하이 엠퍼시스 필터(210), 윈도우 처리기(223), MFCC 발생기(230), 엔드 포인터(240), 정규화 처리기(252) 및 비교 처리기(260)는 하나 또는, 그 이상의 디지털 신호 처리기(DSP) 장치 및/또는 적절히 프로그램된 마이크로프로세서와 거기에 연결된 판독/기록 메모리 장치내에 제공되는 프레임 버퍼(221, 222), 계수 저장 영역(251) 및 화자 템플릿에 의해 제공될 수 있다.

[MFCC 발생]

제 3도에서, MFCC 발생기(230)에 의해 실행되는 과정은, 단계 401에서, 256개의 변환 계수를 제공하기 위해 각 프레임에 대해 푸리에 변환을 실행하는 단계; 단계 402에서, 128개의 계수 파워 스펙트럼을 제공하기 위해 각 주파수에서 실수 성분 및 허수 성분의 제곱을 합산함으로써 푸리에 계수로부터 음성 신호의 파워 스팩트럼을 형성하는 단계; 단계 403에서, 19개의 대역 파워 계수를 제공하기 위해, 제 4도를 참조하여 보다 자세히 후술되는 바와 같이, 19개의 주파수 대역에 파워 스펙트럼을 집적하는 단계; 단계 404에서, 상기 19개 계수 각각에 대해 대수(예를 들면 log₁₀)를 취하는 단계; 단계 405에서, 상기 19개의 로그값에 대해 이산 코사인 변환을 실행하는 단계; 및 단계 406에서, 차수가 가장 낮은 8개 계수를 선택하는 단계를 포함한다.

이산 코사인 변환은 잘 알려져 있고, 예를 들어 전술한 chollet와 Gagnoulet의 논문에 기술되어 있다. 간단하게, M_m의 N번째 코사인 성분을 다음 식으로 주어진다.

여기서 N은 이산 주파수 대역 수(이 경우, 20번째 위치를 얻기 위해 적용된 주파수 영역 회전으로, N=20)이고, A(n)은 m번째 주파수 대역의 진폭이다. DCT는 A(n)계수들을 서로에 대해 거의 무관하게 한다.

제 4 도에서, 제 4a는 단계 402에서 발생된 파워 스펙트럼의 일부분을 개념적으로 나타낸다. 제 4b도는 주파수 축을 따라 멜 주파수 삼각 직접 윈도우의 대응하는 부분을 보여준다. 상기 삼각 윈도우는 주파수축을 따라 선형으로 분포되어, 0~1 KHz 사이의 주파수 범위에서 인접하는 윈도우와 50% 오버랩하는 10개의 윈도우와 1 KHz 이상에서 대수(log) 주파수 스케일로 삼각이고 50% 오버랩하는 10개의 윈도우를 포함한다.

제 4 c는 다중화, 포인트 방향, 삼각 윈도우중 하나에서 대응하는 항에 의한 파워 스펙트럼의 각 분포된 각 샘플에 대한 효과를 개략적으로 보여준다. 명확히 나타내기 위해, 짝수 번째 윈도우만 도시하였다.

다음, 제 4c는 윈도우된 값들은 제 4 d도에 도시된 바와 같이 그 윈도우에 대응하는 단일 합산 계수를 제공하기 위한 각 윈도우 마다 집적된다.

따라서 발생된 19개의 계수(제로 주파수 계수 M₀는 무시된다)는 1KHz 이하에서 균등하고 균일하게 분포한 대역폭을 가진 필터들과 1 KHz 이상에서 로그 주파수 스케일로 균일하게 분포되어 있는 대역폭을 가지는 필터들로 이루어진 대역통과필터의 세트의 각각의 출력에서 발생되는 파워에 해당한다.

[엔드 포인팅]

제 5 도와 제 6 도에서. 제 2 도의 엔드 포인터(240)의 동작은 이하에서 보다 상세히 기술될 것이다.

엔드 포인터(240)는 최초 프레임에 파워 또는 에너지의 양 P를 제공하기 위해 각 프레임내의 신호값을 제곱하고 합산한다.

P의 값은 비교적 낮은 레벨에 설정되어 때로는 잡음 신호를 통과시키는 제 1 임계값 P_L에 대하여 테스트된다. 프레임이 하위 임계값 P_L이상의 파워 레벨을 가질 때까지 어떠한 동작도 취해지지 않는다. 하위 임계값 P_L이상의 프레임에 대해 그 프레임에 할당된 번호를 나타내는 플래그가 저장된다(제 5 도의 변수 "START"로 도시됨).

프레임에서 파워 P의 값이 음성의 존재에 대응하고 잡음 레벨 이상의 레벨인 상위 임계값 P_H이상일 때, 음성이 존재하는 것으로 추정된다. 음성의 시작점으로 취해지는 포인트는 신호가 하위 임계값 P_L이상이었던 "START" 프레임보다 미리 정해진 수 "LEAD" 만큼 앞의 프레임이다. 이러한 방식에 의해, 신호 레벨이 상위 임계값 이상일 때 비로소 음성이 존재하는 것으로 확인되더라도, 음성 내용의 시작을 놓치지 않는다. 따라서 시작점으로서 계산되는 프레임의 번호가 정규화기(250)를 제어하기 위해 엔드 포인터(240)에 의해 출력된다.

만약 음성 신호의 레벨이 지정 시간 T_max보다 오랫동안 두 임계값 사이의 값을 유지하고 있다면, "START" 값은 클리어된다.

프레임 에너지가 상위 임계값 P_H로부터 하위 임계값 P_L이하로 떨어지면, 엔드 포인터(240)는 "overhang" 시간인 T_oh동안 지정수의 프레임에 대해 대기한다. 만약 레벨이 다시 하위 임계값 P_L이상이 되면, 상기 오버행(overhang) 시간 내에 음성은 여전히 존재하는 것으로 추정된다. 신호의 파워 레벨이 T_0h프레임들 보다 오랫동안 하위 임계값 P_L이하로 떨어지면 음성 구술은 끝난 것으로 추정되고, 엔드 포인터는 현재 프레임 수에서 프레임 T_0h의 수 (즉, 신호가 마지막으로 임계값 P_L이었던 포인트)를 빼고, "LAG"라 부르는 지정 프레임 수를 더한 것에 대응하는 엔드 포인트 프레임 번호를 출력한다.

[정규화]

제 7 도에서, 정규화기 (250)에 의해 실행되는 정규화 과정은 이후 보다 상세히 기술될 것이다.

프레임 당 8개의 MFCC 계수의 프레임은 계수 버퍼(251)에 연속적으로 저장된다. 엔드 포인터(240)가 구슬 내용의 끝을 검출한 후, 정규화기(250)에 시작과 끝 프레임 번호를 신호로 보낸다. 8개의 계수 각각에 대해 정규화 처리기(252)는 상기 시작 프레임과 끝 프레임 사이의 모든 프레임에 대해 메모리로부터 그 계수의 값을 불러내서, 상기 계수 값들을 더하고 상기 시작 프레임과 끝 프레임 사이의 프레임 수 N으로 나누어서 산술 평균을 구한다. 이것은 8개의 평균값(i는 1 내지 8)의 세트를 제공한다.

다음으로, 각 프레임의 각 계수에 대해, 정규화 처리기(252)는 각 계수값 M_i.k로부터 대응하는 평균값을 빼서 정규화 계수값G_i.k(여기서, K는 프레임 번호)를 계산한다.

다음으로, 정규화 벡터 G_i.k를 구성하는 8×N 계수 세트가 정규화 처리기(252)에 의해 출력된다.

[비교처리]

비교처리기(260)에 대한 상세한 발명은 이 처리기의 동작이 전형적인 것이기 때문에 불필요하다. 제 8a 도는 화자 검증에서 비교 처리기의 동작을 개략적으로 나타낸다. 본질적으로 비교처리기는 정규화된 MFCC를 포함하는 특징 벡터 G를 판독하고, 대응하는 계수 기준 벡터를 포함하는 화자 템플릿 T를 판독하고, 두 벡터 사이의 차를 나타내는 스칼라 거리량 D를 생성하기 위해 두 벡터를 시간적으로 정렬하기 위해 예를 들어 종래의 DTW 알고리즘을 사용하여 (예를 들어, 전술한 chollet과 Gagnoulet 논문의 알고리즘을 사용하여) 두 벡테 사이의 비교를 수행하고 상기 거리량 D를 임계값에 대해 테스트한다. 만약 거리 D가 상기 임계값 보다 낮다면, 화자는 저장된 템플릿에 대응하는 것으로서 받아들여지고, 그렇지 않으면 화자는 거절된다. 제 8b도는 화자 식별에서 비교 처리기(260)의 대응하는 동작을 보여준다. 이 경우, 복수의 서로 다른 벡터 T_i는 템플릿 저장 영역(270)으로부터 연속적으로 판독되고, 음성 벡터 G는 대응하는 거리 메트릭(metric) D_i를 생성하기 위해 각각의 벡터 T_i와 비교된다. 화자는 음성 벡터가 상기 템플릿과 가장 작게 다를 때(즉, 가장 작은 메트릭 D_i를 발생할 때), 상기 템플릿에 대응하는 것으로서 식별된다.

[변형된 실시예]

제 7 도와 관련하여 앞서 논의된 제 1 실시예에서, 시작점과 끝점 사이의 프레임의 수 N, 계수값의 합 M_TOT, 각 계수의 평균값, 그리고 각 계수의 정규화 값을 계산 할 수 있기 전에 정규화기(250)는 구술 내용의 시작점과 끝점을 알아야 할 필요가 있다. 따라서 정규화기(250)는 엔트 포인터(240)에 의한 엔트 포인트 검출을 기다려야 하고, 후속의 인식 처리는 구술 내용의 끝까지 지연된다. 고속 하드웨어와 많은 응용에서 이러한 지연은 어려움을 발생시키지 않을 수도 있다. 그러나 다른 응용에서는 구술 내용이 끝나기 전에 정규화를 시작하는 것이 바람직할 수도 있다.

따라서 제 1 선택적 실시예에서는 전체 음성 구술에 대한 각 계수들의 산술평균값만큼을 감산해 줌으로써 계수들을 정규화하지 않고, 주기적으로(예컨대, 프레임단위로) 업데이트되는 유동평균(running average)을 감산해 주는 것에 의해 계수들 정규화한다.

따라서 제 9 도를 참조하면 상기 실시예에서는 엔드 포인터(240)가 구술 내용의 시작을 신호로 보낸 후, 각 계수에 대해, 정규화 처리기(252)는 그 계수에 대한 현재 평균값을 판독하고, 정규화된 계수 G_i를 형성하기 위해 MFCC 계수의 값 M_i로터 상기 평균값을 감산하고, 프레임 카운터 N을 1 증가시키고, 현 전체값 M_TOT에 계수값을 합산하며, 그리고 프레임 카운터 N으로 그 합을 나누어, 그 값은 계수 평균값의 새로운 값으로서 저장된다. 그러므로 각 프레임에 대해 정규화된 계수 값 G_i는 즉시 제공될 수 있다.

이러한 형태의 유동 평균은 최초의 "평균" 값이 샘플에 대한 수로서 형성되지 않기 때문에 바람직한 실시례보다 약간 성능이 떨어질 것으로 예측된다. 그럼에도 불구하고, 비정규화된 계수와 비교하면 상기 실시예에서는 어느 정도의 성능 향상이 기대된다. 당연히, 유동 평균을 계산하는 다른 방법(예를 들면, 이전 샘플들의 이동 윈도우를 사용하거나 또는 매 프레임마다 갱신하는 것 보다 갱신의 빈도를 줄이는 방법)이 가능하다. 이러한 형태의 실시례에서, 계수 저장 영역 (251)은 필요치 않을 수도 있다.

이전 실시례에서, 연속된 단일 구술 내용 (다시 말하면, 단일 워드)에 대한 엔드 포인팅과 정규화에 대해 설명하였다. 만약 몇 개의 분리된 워드에 대해 화자 식별이 실행되면, 이전 실시례에 기술된 과정은 분리된 각각의 연속적인 워드에 대해 반복될 수 있다. 그러나 화자를 식별하는데 유용한 몇몇 정보는 다른 워드와 관련하여 각 워드의 계수값의 관련 레벨에서 찾아볼 수 있다.

따라서 다른 실시례에서는 정규화기(250)에 의해 형성된 장기적인 평균값은 구술 내용의 모든 워드에 걸쳐서 형성된다. 본 실시례에 따른 제 1 예에서, 이것은 워드 사이의 비음성 프레임을 무시하고 각 워드 다음에 바로 워드가 연속되어 마치 단일 구술 내용인 것처럼 각 워드의 시작점과 끝점 사이의 모든 프레임에 대해 평균을 구하는 것에 의해 달성된다.

제 2 예에서도, 이전 실시례에서처럼 각 워드에 대해 각각 평균을 도출하고, 각각의 평균이 도출된 워드의 각 프레임수를 가중하여 상기 평균들을 합하여, 모든 워드로부터 가중 평균을 구한다. 그리고 모든 워드에서 도출된 가중 평균으로 모든 워드의 각 계수를 나누어 줌으로써 같은 결과를 얻을 수 있다.

앞의 두 예에서, 각 워드에 대응하는 평균에 주어진 가중값은 워드의 길이에 따라 변하고, 상기 워드의 길이는 화자가 워드를 구술하는 속도에 따라 변한다(화자가 워드를 구술하는 방식의 스팩트럴 특성과는 독립적으로 변화할 수 있다).

따라서 선택적 실시례에서는, 장기적인 평균은 이전처럼 분리된 각 워드에 대해 평균을 구하고, 개개의 평균으로부터 가중 평균을 구하지만, 이전 예에서처럼 워드의 실제 기간보다는 오히려 그 워드를 나타내는 탬플릿 저장 영역에 저장된 템플릿의 길이에 대응하는 미리 정해진 가중값을 이용함으로써 구해진다. 이러한 방식으로, 워드가 구술되는 속도에 대한 의존성은 감소한다. 어떤 경우에 엔드 포인터(240)를 제외하고, 통화의 전 기간에 걸쳐 장기적인 평균을 구하는 것이 가능하기도 하지만, 비음성 기간 동안 수신된 신호 레벨이 너무 낮아 전송채널의 스펙트럼의 신뢰할 수 있는 표시를 제공할 수 없고, 게다가 존재하는 잡음의 스팩트럼에서 그 채널의 스팩트럼을 분리하기 어렵기 때문에 일반적으로 바람직하지 못하다.

전술한 실시례에서, 통신 교환에 결합되기에 적합한 인식 처리장치가 기술되어 있다. 그러나 다른 실시례에서 본 발명은 전화 네트워크에 연결된 종래의 가입자 국에 연결된 간단한 장치로 구현될 수도 있다. 이 경우, 아날로그/디지탈 변환 수단이 입력 아날로그 전화 신호를 디지털화하기 위해 제공된다.

비록 프로그램 가능한 디지털 신호 처리(DSP) 장치의 사용하는 것을 기준으로 하였지만, 충분한 속도로 동작하는 종래의 범용 마이크로프로세서가 대신 이용될 수 있다는 것이 인식될 것이다. 마찬가지로, 종래의 고밀도 집적(LSI) 논리회로가 이용될 수도 있다.

본 발명은 MFCC를 참조하여 기술되어 있지만, 멜 주파수 스케일에 근접한 또는 그 스케일과는 다른 불균등한 주파수 스케일 상의 필터 뱅크가 이용될 수 있다. 삼각 윈도우가 주파수 영역에서의 집적을 위해 전술되어 있지만, 다른 윈도우 형태가 같이 이용될 수 있다는 것을 알 수 있다. MFCC값을 계산하기 위한 디지털 처리기가 전술되어 있지만, 원리적으로 제 5b도에 도시된 대역에 대응하는 다수의 아날로그 또는 디지털 대역 통과 필터를 대신 제공하고, 각 필터 대역에서 파워를 샘플링하는 것이 가능하다.

본 발명이 MFCC에 대한 응용에 놀라운 이점이 있다는 것이 보여졌지만, 다른 전위 특징(켑스트럴 특징)에 대한 응용은 제외되어 있다.

DTW 과정을 사용하는 비교 과정이 논의되어 있지만, 본 발명은 다른 형태의 비교 처리를 이용하는 인식에도 적용할 수 있다. 예를 들면, 1988년 4월 브리티쉬 텔레콤 기술지 6권 2호 페이지 105∼115에 S.J.Cox가 쓴 ''Hidden Markov Model for Automatic Speech Recognition: Theory and Application'' 에 기술되어 있는 바와 같은 HMM(Hidden Markov Modelling) 또는 신경망(neutral network)(브리티쉬 텔레콤 기술지의 같은 호에 기술되어 있는 종래의 MLP(multilayer perceptron) 또는 "자체 편성(self-organising)" 형태)를 이용하는 비교처리가 사용될 수 있다.

본 발명의 응용이 화자 인식에 대하여 여기에서 기술되지만, 본 발명의 국면이 또한 다른 인식 작업(예를 들면, 음성인식)에도 적용될 수 있다는 것은 명백하다.

[템플릿 발생]

일반적으로, 본 발명은 각 화자를 식별하기 위해 저장된 기준 모델(DTW인식을 위한 "템플릿" )을 이용한다. 기준 모델을 도출하는 방법은 잘 알려져 있고, 따라서 본 발명에서 다음의 내용을 나타내는 것으로도 충분할 것이다. 각 템플릿은 화자의 같은 워드를 복수회 구술하여 입력하고, 그 구술 내용을 디지털화하고, 각 구술 내용에 대해 전술한 바와 같은 방식으로 정규화된 계수 세트 G를 도출하고, 예컨대 DTW 처리를 사용하여 시간상으로 그 구술 내용을 정렬하고, 구술 내용의 시간적으로 정렬된 계수 벡터의 평균을 내는 과정을 거쳐 기준 모델 T를 제공하는 평균 계수 벡터를 도출한다. 다시 말해서, 후속 인식에서 주어진 특징 세트를 사용하기 위한 기준 모델을 형성하는 과정은 일반적으로 특징 세트 자체를 도출하는 과정과 같고, 많은 수의 세트들이 기준 모델을 제공하기 위해 평균이 내어진다.

[발명의 효과]

제 10a 도(좌측 칼럼)는 구술되는 동안의 8개 MFCC 계수 각각에 대한 그래프를 보여준다. 각각의 경우에, 두 궤적이 도시되어 있고, 이것은 두개의 서로 다른 전송 채널을 경유하여 전송되어 기록된 구술 내용에 해당한다. 특히, 제 2 및 제 7 계수에서, 채널은 두 사이의 대응하는 주파수 대역에서 전송 특성의 일치하는 두 궤도 사이에 일정한 오프셋을 발생시킨다.

DTW 처리에서, 다른 과정에서와 같이 비교되는 두 개의 패턴의 부분들이 시간적으로 정렬된다 DTW 과정은 다른 파형과의 매칭(matching)을 찾기 위해 시간축을 따라 파형의 부분들을 이동시킨다. 두개의 파형이 수직으로 변위되어 있으면, 시간축을 따라 이동시기는 과정(다시 말하면, 수평 이동)은 불일치(mismatch)를 발생시키고, 인식하지 못할 가능성이 높아지거나 정확한 인식을 할 가능성이 감소한다.

제 10b 도(우측 칼럼)에서, 본 발명에 따른 정규화된 MFCC의 대응하는 점들이 도시되어 있다. 특히 제 2, 제 6 및 제 7 계수에서, 각각의 경우에 평균값을 제거하면 두개의 궤적이 보다 근접하여 정렬되는 것을 알 수 있다. 따라서 음성 벡터가 다른 통신 채널을 통해 도출된 탬플릿과 비교될 때, DTW 비교 처리는 전송 채널의 효과에 기인하여 화자를 잘못 인식할 가능성이 보다 적다.

전술한 바와 같이, 화자로부터 인식 처리기로의 경로(일반적으로 선형)는 연속적인 경로 단계의 연속 전달 함수의 곱(product)을 포함하는 하나로 합해진 전달 특성 H에 의해 표시될 수 있다. 따라서 주파수 영역에서, 인식 처리기에 의해 수신된 음성 신호의 각 스팩트럴 성분은 화자의 음성에 대한 스팩트럴 성분과 전송 채널 또는 경로의 전달 함수에 대응하는 스팩트럴 성분의 곱(product)을 포함한다. 따라서 만약 채널의 전달 특성 H가 알려진다면 음성 신호에 대한 채널의 효과는 전달 특성 H의 대응하는 항으로 수신된 신호 스펙트럼의 각 항을 나누어 줌으로써 게거될 수 있다.

그러나 통신 시스템에서 여러 가지 종류의 대체 신호 경로 때문에 채널 전달 함수 H를 직접 모델링하는 것은 불가능하다. 그러나 채널 전달 특성은 보통 스팩트럼적으로 안정되어 있다는 것(다시 말해, 시간에 따라 많이 변화하지 않는다)이 관측될 것이다. 따라서 만약 단일 스팩트럴 성분에 대한 시간 계열이 검사된다면, 상기 전달 함수는 상기 계열에서 각각의 값에 대한 일정한 배수 인자로서 동작한다. 그러므로 시간 계열에서 각 성분에 대한 기하 평균은 상기 일정한 인자와 원래 시간 계열의 기하 평균의 곱(product)이다. 따라서 수신된 음성 신호 스펙트럼에서 각 항을 장기적인 평균으로 나누어 주면, 상기 채널의 효과는 제거된다.

각 스팩트럴 항에 대해 대수를 취하는 경우에는, 장기간의 기하 평균을 형성하고 그 기하 평균으로 나누는 대신에, 로그 스펙트럴 항의 장기적인 산술 평균을 형성하고 각 스팩트럴 항으로부터 상기 산술 평균을 빼주는 것이 가능하다.

MFCC를 생성하는 단계를 윈도우하고 집적하는 단계에 있어서, 이러한 관계에 대한 몇몇 변환이 있을 수 있고, 그래서 앞서 언급한 분석만이 MFCC의 정규화에 완전히 적용되는 것은 아니며, 본 발명의 효과에 대한 예시로 생각할 수 있다.

정규화 과정은 채널의 효과뿐만 아니라 몇몇 음성 및 화자 정보를 제거한다. 그러므로 이것이 두 화자를 식별하기 위해 사용될 수 있는 데이터를 제거함으로써 인식의 정확성을 줄일 것으로 생각될 수 있다. 사실 광범위한 실험을 거친 후, 이것은 그렇지 않다는 것을 알 수 있었다.

Claims

각각의 시작점 및 이에 대응하는 끝점이 입력음성신호내의 단일 구술내용(utterance)에 관계되는, 복수의 음성시작점 및 이에 대응하는 끝점을 탐색하는 단계;

상기 입력음성신호의 연속되는 시간 기간 동안, 각각이 미리 정해진 복수의 주파수 대역들에서의 음성 신호의 진폭에 관련된 복수의 계수를 포함하는 인식 특징 데이터를 생성하는 단계;

상기 특징 데이터를 미리 정해진 화자 기준 데이터와 비교하는 단계; 및

상기 비교에 기초하여 화자의 인식을 나타내는 단계를 포함하는 화자인식방법에 있어서,

상기 계수를 생성하는 단계는,

복수의 단일 구술 내용 각각에 대해 탐색된 시작점 및 끝점들 사이의 시간 기간동안에 대하여 평균계수를 유도하는 단계; 및

정규화된 계수를 생성하기 위해 상기 계수들 증 적어도 하나를 상기 평균계수에 기초하여 처리하는 단계를 포함하는 화자인식방법.
제 1항에 있어서,

상기 평균 계수는

탐색된 시작점과 탐색된 끝점 사이에서 상기 입력음성신호의 각 부분에 대한 평균 계수를 유도하는 단계;

상기 각각의 부분이 지속되는 기간으로 상기 각 부분에 대한 평균계수를 가중하는 단계; 및

상기 단계에서 가중된 평균 계수들을 합하는 단계에 의해 유도되는 것을 특징으로 하는 화자인식방법.
제 1항에 있어서,

상기 평균 계수는

탐색된 시작점과 탐색된 끝점 사이에서 상기 입력음성신호의 각 부분에 대한 평균 계수를 유도하는 단계;

상기 각 부분에 대응하는 각 구술내용의 예상되는 지속 기간(expected duration)에 대응하는 미리 정해진 가중치로 상기 각 부분에 대한 평균계수를 가중하는 단계; 및

상기 단계에서 가중된 평균 계수들을 합하는 단계에 의해 유도되는 것을 특징으로 하는 화자인식방법.
각각의 시작점 및 이에 대응하는 끝점이 입력음성신호내의 단일 구술내용(utterance)에 관계되는, 복수의 음성시작점 및 이에 대응하는 끝점을 탐색하는 수단(240); 상기 입력음성신호의 연속되는 시간 기간 동안, 각각이 미리 정해진 복수의 주파수 대역들에서의 음성 신호의 진폭에 관련된 복수의 계수를 포함하는 인식 특징 데이터를 생성하는 수단(2l0, 220, 230);

복수의 단일 구술 내용 각각에 대해 탐색된 시작점 및 끝점들 사이의 시간 기간 동안에 대하여 평균계수를 유도하고, 적어도 하나의 계수를 상기 평균계수에 기초하여 정규화하는 평균 및 정규화 수단(250); 및

상기 평균 및 정규화 수단(250)에 연결되어 있으며, 상기 특징 데이터를 미리 정해진 화자 기준 데이터와 비교하고, 상기 비교에 기초하여 화자의 인식을 나타내기 위한 수단(26)을 포함하는 화자인식장치.