KR100321835B1

KR100321835B1 - 음성인식시스템에서의화자인식방법및장치

Info

Publication number: KR100321835B1
Application number: KR1019980015722A
Authority: KR
Inventors: 스테판 허만 마에스
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1997-05-06
Filing date: 1998-04-30
Publication date: 2002-04-17
Also published as: HK1015924A1; TW374895B; KR19980086697A; JP2982870B2; JPH10319988A; CN1120470C; US6182037B1; CN1202687A

Abstract

본 발명은 화자 인식용 고속 상세 매칭 기법들을 결합한 하이브리드 시스템에 관한 것으로서, 이 시스템에서는 등록 중인 화자와 이전에 등록된 화자 사이에 잠재적인 혼동이 검출되는 경우 화자를 그룹에 연관시킨다. 따라서, 고속 매칭 기법이 잠재적으로 포화되기 시작하는 경우에만 상세 매칭 기법을 호출(invoke)하는데, 그룹과의 비교를 제한하고 각 화자를 보다 충분히 특징화(characterize)하는 것보다는 원칙적으로 그룹 구성원을 구별하는 기능을 수행하는 화자 의존적 모델(speaker-dependent models)을 개발함으로써 상세 매칭을 용이하게 한다. 따라서, 저장 및 계산 조건들은 제한되며, 고속 매칭 시스템을 저하시키거나 포화시키고 상세한 매칭 시스템의 성능을 저하시킬 많은 화자에 대하여 빠르고 정확한 화자 인식을 확장할 수 있다.

Description

음성 인식 시스템에서의 화자 인식 방법 및 장치{SPEAKER RECOGNITION OVER LARGE POPULATION WITH FAST AND DETAILED MATCHES}

본 발명은 전반적으로 음성 인식 시스템(speech recognition systems)에서 화자의 식별(identification) 및 인증(verification)에 관한 것으로서, 특히 다수의 등록 화자에 대한 고속 텍스트 비의존적(text-independent) 화자 식별 및 인증에 관한 것이다.

많은 전자 장치들은 예컨대, 온/오프 스위치의 활성화에 의해 지시된 대로 원하는 기능이 수행되도록 할 때와 같은 흔한 간단한 경우에 있어서 원하는 기능을 결정 또는 수행하는데 필요한 특정 정보를 그 장치에 전달하기 위하여 사용자에게 입력을 요구한다. 근래에는, 다수의 상이한 입력들이 가능한 경우, 둘 또는 그 이상의 스위치들의 어레이로 이루어진 키보드가 선택 입력 장치로 사용되어 왔다.

하지만, 어떠한 타입의 키보드라도 내재한 단점을 가지고 있다. 가장 분명한 사실은, 키보드는 복수의 구동가능(actuable) 영역들을 포함하는데, 이 각각의 영역은 일반적으로 움직이는 부품들을 포함하고, 이러한 부품들은 마모(wear)와 손상(damage)이 쉽고, 스타일러스(stylus) 또는 다른 별개의 기계적 수단이 채택되지 않는 한 본체의 일부분에 의해 구동되도록 크기가 조정되어야만 한다. 따라서, 보안 시스템 및 전자 계산기를 위한 입력 패널 따위의 많은 장치 타입에 있어서, 장치의 크기는 종종 하우징(housing)의 전자적 내용물보다 오히려 키패드의 용적에 의해 결정된다. 또한, 작동을 느리게 하고 잘못된 구동을 일으킬 가능성을 증가시키는 다수의 키스트로크(keystrokes)들을 (예컨대, 동작을 명시하고, 보안 코드, 개인 식별 번호(personal identification number : PIN)등을 입력하는데) 필요로할 수 있다. 따라서, 키보드 또는 기타 손으로 조작하는 다른 입력 구조를 사용하는 데에는 사용자에게 매우 부자연스럽거나 불편한 동작이 필요하게 된다.

보다 자연스럽게 사용할 수 있고 편리하고 빠른 인터페이스를 제공하면서, 그 처리 능력을 증가시키려고 하는 과정에서, 음성 또는 소리의 검출 및 인식 시스템에 대한 다수의 방안들이 제안되어 왔고 어느 정도 성공적으로 구현되었다. 또한, 이러한 시스템들은 이론적으로는 사용자의 발음(utterance)을 등록된 화자의 발음에 대해 매칭시켜 사용자에 비교적 투명하고 편리한 방식으로 사용자 신원에 따라 장치 또는 시스템의 자원들에 대한 액세스를 허용 또는 거부하거나 등록된 화자를 식별하거나 개별화된(customized) 커맨드 라이브러리들을 호출할 수 있다.

그러나, 대규모 자원들을 포함하는 대규모 시스템들은 매우 많은 잠재적인 사용자들을 가질 수 있으며, 따라서 등록된 화자의 수가 많아지면 화자를 인식하는데 상당한 양의 저장 및 프로세싱 오버헤드를 필요로 할 수 있다. 화자의 수가 증가하면, 상이한 화자들을 신속하게 구별하도록 설계된 간단하고 빠른 시스템들에 있어서 화자 인식 시스템의 성능 포화가 발생할 것이다. 대부분의 화자 의존적(speaker-dependent)(예컨대, 상이한 화자에 적응된 은닉 마코프 모델(hidden Markov models)(HMM)과 같은 디코딩된 스크립트 모델 - 이러한 모델은 올바른 화자 디코딩 및 식별에 있어 최고 유사도(likelihood)를 나타내며 텍스트 의존적(text-dependent)일 수도 있고 텍스트 비의존적일 수도 있음 - 상에서 발음의 디코딩 및 정렬을 수행하는) 시스템의 성능은 화자의 수가 많은 경우에도 저하되지만, 이러한 포화 및 성능 저하 경향은 빠르고 간단한 시스템 - 이 시스템은 적은 양의 정보에 의존하여 화자를 구별하므로, 보다 많은 화자에 대한 데이터가 보다 적은 데이터 인스턴스 간의 차이를 초래하는 경우 모호한 결과를 가져올 수 있음 - 에서 화자의 수가 적은 경우에도 발생할 수 있다.

일례로, 화자 내지 화자 클래스(class) 식별에 대한 고속 매칭 기술로서 프레임 별 특징 클러스터링 및 분류(frame-by-frame feature clustering and classification)와 같은 텍스트 비의존적 시스템을 고려할 수 있다. 하지만, 허용가능한 반응 시간 내에 실질적인 양의 프로세싱 오버헤드를 갖고 처리될 수 있는 화자 클래스의 수 및 각 클래스 내의 화자의 수는 제한되어 있다. 다시 말해, 프레임 별 분류기는 각각의 등록 화자에 대하여는 비교적 적은 양의 데이터를 요구하고 제한된 수의 화자에 대하여는 보다 적은 프로세싱 타임을 요구하는 반면, 모델 수의 증가로 인해 화자 모델들(각 모델은 화자 의존적 시스템에서보다 비교적 작은 정보를 담고 있음)간의 차이가 감소됨에 따라 그 구별 능력은 제한되고 상당히 양보된다. 화자 발음에 관한 (저장 및/또는 처리되는) 정보를 줄이려는 어떠한 방안도, 사용자 수가 많아지게 되면 개별 등록 사용자를 식별할 수 있는 시스템 능력을 양보할 수도 있음을 쉽게 이해할 수 있다. 화자의 수가 상당히 커지면, 화자 인식 시스템 또는 엔진은 더 이상 몇몇 화자들은 구별할 수 없게 된다. 이러한 상태는 포화라 알려져 있다.

반면에, 화자 인식을 제공하기 위하여 개별 화자에 적응된 화자 의존적 모델 기반 디코더를 사용하는 보다 복잡한 시스템들은 화자 인식을 달성하기 위해서 병렬적으로 또는 순차적으로 모델들을 실행해야 하므로 상당히 느리며, 대량의 메모리 및 프로세서 타임을 요구한다. 또한, 이러한 모델들은 전형적으로 모델을 형성하는데 대량의 데이터를 요구하기 때문에 학습시켜 적응시키기가 어렵다.

템플릿 매칭 시스템(template matching system)에서는 저장 조건이 어느 정도 완화되는데, 이러한 시스템은 그 화자 인식 및/또는 인증 기능에 특유한 각 등록 화자의 특정한 발음에 의존함으로 화자 의존적일 뿐만 아니라 텍스트 의존적이기도 하다. 하지만, 이러한 시스템은 그 본질 상, 사용자에게 투명(transparent)할 수 없는데, 왜냐하면 이런 시스템은 비교적 긴 등록 및 초기 인식 (예컨대, 로그온) 과정을 요구하고, 인증을 위해 종종 시스템의 사용을 주기적으로 중지시킬 것을 요구하기 때문이다. 또한, 아마 보다 중요하게는, 이러한 시스템은 각 화자의 노화, 피로, 병, 스트레스, 운율(prosody), 심리 상태 및 기타 상태들에 의해 발생할 수 있는 것과 같은 각 화자의 발음의 변이("화자 내부(intra-speaker)" 변이)에 보다 민감하다.

보다 구체적으로, 화자 의존적 음성 인식기는 작동 중 등록 단계 동안 각 화자에 대한 모델을 구축한다. 그 다음에, 화자 및 그 발음은 가장 큰 유사도 또는 가장 낮은 에러 레이트를 생성하는 모델에 의해 인식된다. 모든 발음들이 인식되도록 각 모델을 고유한 화자에 적응시키는 데에는 충분한 데이터가 필요하게 된다. 이러한 이유 때문에, 대부분의 화자 의존적 시스템은 또한 텍스트 의존적이며, 템플릿 매칭을 종종 사용하여 각 모델 내에 저장될 데이터의 양을 줄인다. 이와 달리, 예컨대 은닉 마코프 모델(HMM) 또는 이와 유사한 통계적 모델을 사용하는 시스템은 대개 화자의 그룹에 기초한 유사 화자 모델(cohort model)을 생성하여 지나치게 가능성이 없는 화자는 거부하고 있다.

유사 화자 모델은 화자 신원의 경합 유사도에 기초한 신뢰 척도(confidence measures)를 도입할 수 있게 하며, 특히 화자의 수를 증가시킬 때 등록 화자의 수가 커짐에 따라 상이한 화자의 발음 사이에 존재할 수 있는 다수의 유사점 때문에 올바르게 구축하기가 매우 어렵다. 이런 이유 때문에, 유사 화자 모델은 잠재적인 에러의 중요한 원인이 될 수 있다. 또한, 새로운 유사 화자의 추출 및 이에 따른 유사 화자 모델의 생성 혹은 수정을 요구하기 때문에 새로운 화자를 등록하기가 복잡하다.

특히, 템플릿 매칭은 유사 화자의 직접적인 도입을 허용하지 않는다. 템플릿들은 대개 등록 시에 사용된 사용자 발음의 원래의 파형(original waveforms)이며, 각 발음에 대한 템플릿 수는 실제로 매칭 프로세스가 합리적으로 이용할 수 있는 시간에 의해 제한된다. 반면에, 화자 내부 변이의 범위(coverage)는 인식될 각각의 발음에 대해 수집되거나 사용될 수 있는 템플릿 개수에 의해 제한되며, 화자 내부 변이의 범위에 대한 허용가능한 수준은 사용자 수가 커짐에 따라 제한되게 된다. 특히 데이터를 줄이거나 탐색 전략들을 단순화하도록 유사 화자 모델을 생성하면 화자 내부 변이를 차단할 수는 있지만, 이로 인해 복잡해지는 단점이 있다.

또한, 사용자 수가 증가함에 따라 템플릿 간 거리 척도(distance measures)의 정의가 보다 중요해지고 탐색 전략이 복잡해지므로, 템플릿 매칭의 구별 능력이 떨어지게 된다. 그리고, 개념적으로, 템플릿 매칭은 발음에 있어 다이나믹(dynamic)(예컨대, 시간에 대한 파형의 변화)의 생성 및 그 다이나믹의 재생성을 강조하는 반면, 그 다이나믹은 특히 화자의 상태에 따라 변할 수 있다.

따라서, 현재의 기술 수준에서 텍스트 비의존적 고속 화자 인식 시스템은 화자의 수가 많으면 사용하기에 덜 적합하고, 화자의 수가 어느 정도 되면 비효율적이고, 성능이 저하되며, 저장 및 프로세싱 중심 시스템이 느려진다. 등록된 화자의수가 많아짐에 따라, 계산 및 메모리 조건을 제한하고 포화를 피하면서 빠르고 간단한 시스템에 필적하는 화자 인식 성능을 유지하거나 구별 능력을 증가시킬 수 있는 이용가능한 시스템이 전혀 없었다.

따라서, 본 발명의 목적은 텍스트 비의존적이고 등록 후 사용자에게 투명한, 다수의 등록 사용자 가운데 개별 등록 사용자를 고속으로 구별하는 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 다수의 등록 사용자 가운데 화자 식별 및 인증을 위한, 간단하고 빠르고 투명하고 텍스트 비의존적인 등록 프로시저를 구비하는 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 음성 디코딩 및 화자 인식 중에 화자 및 유사 화자 모델들의 프로세싱을 개선하는 것이다.

본 발명의 또 다른 목적은 정확도를 유지하면서 다수의 화자에 대한 고속의 화자 인식을 제공하는 것이다.

도 1은 본 발명의 바람직한 형태의 구조 및 동작을 상세히 설명하는 블럭도/흐름도.

도 2a 및 도 2b는 본 발명에 따른 히스토그램 프로세싱에 대한 그래프.

도면의 주요 부분에 대한 부호의 설명

100: 고속 매칭부110: 음향 프론트엔드

130: 화자 의존적 코드북140: 프레임 별 디코딩

150: 히스토그램 카운터160: 클래스 선택 비교기

200: 상세 매칭부210: 화자 의존적 모델

220: 유사 화자 및 음성 디코딩 화자 인식 엔진

300: 화자/클래스 데이터베이스

본 발명의 이러한 목적 및 다른 목적들을 달성하기 위하여, 화자 인식 방법이 제공되는데, 이 방법은 등록 화자 그룹을 형성하는 단계, 화자 또는 등록 화자 그룹 가운데 특정 발음의 화자를 포함할 가능성이 가장 많은 화자 그룹을 식별하는 단계, 상기 화자 그룹 내에서 화자 의존적 모델에 대하여 상기 발음을 매칭시켜 상기 발음의 화자의 신원을 판단하는 단계를 포함한다.

본 발명의 또 다른 특징에 따르면, 화자 인식 장치가 제공되는데, 이 장치는 발음의 프레임들을 샘플링하고 가장 유사한 발음의 화자를 결정하는 벡터 양자기를 포함하고, 상기 발음의 화자와 하나 이상의 이전 등록 화자 간의 잠재적 혼동을 검출하는 수단을 포함하며, 잠재적 혼동의 검출에 응답하여 상기 사용자와 이전 등록 화자를 구별하기 위하여 화자 의존적 모델을 생성하는 수단을 포함한다.

본 발명은 필요하다면 고속 매칭 프로세스 및 상세 매칭을 순차적으로 사용하여, 사용자 수의 증가에 의해 고속 매칭 프로세스의 포화가 시작되는 시점 또는 그 이전에 상세 매칭이 구현되도록 한다. 상세 매칭은 잠재적 혼동의 검출에 응답하여 사용자들을 그룹화(grouping)함으로써 가속화되며, 그룹의 구성원들을 구별하도록 모델을 생성함으로써 저장 공간을 제한하며, 동시에 후보 화자 또는 그룹의 수를 제한함으로써 상세 매칭 프로세스를 용이하게 하고 가속화한다.

이제, 도면, 특히 도 1을 보면, 본 발명의 바람직한 형태에 대한 하이 레벨(high level)의 블럭도가 도시되어 있다. 도 1은 또한 아래에서 논의되는 바와 같이 본 발명의 동작을 상세히 설명하는 흐름도로서 이해될 수도 있다. 또한이해해야 할 것은, 도 1에 상세히 설명된 바와 같은 시스템의 구조 및 동작이 특수 목적의 데이터 프로세서로서 구현될 수 있고, 또는 바람직하게는, 적절히 프로그래밍된 범용 데이터 프로세서에 의해 구현될 수 있으며, 후자의 경우에 있어서, 예시된 기능적 구성요소들은 초기화 중에 그 내부에서 구성되거나 또는 본 기술에 널리 이해되고 있는 바와 같이 프로그램의 동작 중 필요한 때에 구성될 것이라는 점이다.

먼저, 본 발명의 바람직한 형태의 구성은 일반적으로 두 개의 부분(section)으로 분할되므로, 하이브리드 시스템으로서 널리 기술되고 있다는 것을 인식해야 할 것이다. 상부(100)는, 도시된 바와 같이, 특징 벡터 기반 고속 매칭 화자 인식/분류 시스템이며, 이는 텍스트 비의존적이다. 하부(200)는, 도시한 바와 같이, 화자 모델(210) 또는 유사 화자 모델(220)에 기초한 상세 매칭 장치인데, 상부(100)가 본래 텍스트 비의존적인데 반해, 하부는 텍스트 의존적일 수도 있고 텍스트 비의존적일 수도 있다. 이해해야 할 점은 본 발명에 따른 전체 시스템이 하위의 상세 매칭부(200) 용으로 선택된 구현예에 따라 텍스트 의존적일 수도 있고 텍스트 비의존적일 수도 있다는 것이다.

시스템 구조의 이러한 부분들은 프로세싱의 순차적인 단계를 나타내고 있는데, 이러한 프로세싱 단계에 있어서, 상세 매칭부는 제 1 고속 매칭 단계에 의해 결정이 이루어질 수 없을 때에만 수행되며, 비록 성공하지 못했다 하더라도, 제 1 단계는 자동적으로 화자 또는 유사 화자 모델을 선택할 뿐만 아니라 상세 매칭을 위한 화자 또는 유사 화자 모델을 자동적으로 선택함으로써 제 2 단계의 성능을 향상시킨다. 유사 화자의 선택은 상세 매칭 프로세싱을 위해 필요하며, 아래에서 논의되는 바와 같이 소정의 경우에 있어 고속 매칭 프로세스를 가속화시킨다.

보다 구체적으로, 그 자체로서 본 기술에 널리 이해되고 있는 음향 프론트엔드(110)는, 중첩 방식(overlapping fashion)으로 발음을 샘플링하고 이로부터 특징 벡터(120)를 바람직하게는, 정규화된 로그에너지(log-energies)를 구비한 MEL 셉스트라(cepstra), 델타 및 델타-델타 계수들로서 추출하는데 사용된다(로그 에너지 및 셉스트라 C₀는 포함되어서는 안 됨). 이와 함께, 벡터 양자기는 인식될 발음(테스트 데이터)으로부터 유도한 특징 벡터를 양자화하기 위해서 뿐만 아니라 효율적인 저장을 위해서 등록 데이터로부터 그의 평균 및 편차로서 생성된 특징 벡터를 클러스터링한다.

이러한 특징 벡터는 바람직하게, 25 - 30 msec의 프레임을 10 msec의 쉬프트와 중첩시킨 상태에서 계산된다. 기타 알려진 타입의 특징 벡터들이 사용될 수도 있지만, 생리학적으로 관련된(예컨대, 공명(resonances)과 같은 성도 기호들(vocal tract signatures)을 특징화하는) MEL 셉스트라, 델타 및 델타-델타 특징 벡터들은 화자 인식 또는 인증의 효율성 및 효과성 때문에 특징 벡터로서 선호되고 있다. 이러한 특징 벡터들과 LPC 셉스트라와 같은 다른 벡터들은 본 기술에 널리 이해되고 있는 바와 같이, 대개 39 차원 벡터들이다. 그 결과로 생긴 특징 벡터들은 마할라노비스 거리(Mahalanobis distance)에 따라 약 69 개(이 수는 본 발명의 실시에 중요하지 않음)의 코드워드(codeword)로 클러스터링된다. 실제로, 특징 벡터의각 좌표의 편차는 화자들의 대표 집합에 대해 경험적으로 결정될 수 있고, 코드워드에 대한 벡터의 연관 척도(measure of association of a vector relative to a codeword)는 가중치가 연관된 편차의 역수인 가중 유클리디안 거리(weighted Euclidean distance)이다. 이와 같이 유도된 코드워드의 집합은 각 등록 화자에 대한 하나의 코드북(codebook)을 구성한다.

주의해야 할 점은 단지 하나의 코드북만이 각 등록 화자에 대해 요구된다는 것이다. 따라서, 본 발명의 고속 매칭부에 대한 저장 조건(예컨대, 메모리(130))은 상당히 작으며, 완전한 발음(complete utterance)에 대한 복잡한 모델은 전혀 요구되지 않는다. 임의의 새로운 화자의 등록은 이전에 등록된 화자의 코드북을 그대로 둔 채 단지 별도의 코드북을 추가하기만 하면 되므로, 등록 복잡도가 감소된다. 또한, 메모리(130)는 유사하게 구성된 코드북들로 이루어져 있기 때문에, 등록 사용자(및 연관된 코드북)의 수가 많아짐에 따라 효율적인 계층적(hierarchical)(다중분석(multi-resolution)) 탐색 방안이 구현될 수 있다.

그 후에, 테스트 정보는 디코더(140)에 의해 코드북에 대하여 프레임 별로 디코딩된다. 코드워드에 대한 임의 근사 매칭을 제공하는 테스트 데이터의 각각의 프레임은 그 워드를 담고 있는 코드북의 식별을 제공한다. 이렇게 특정 코드북을 식별하는 프레임들은 각 프레임에 의해 식별된 코드북에 따라 카운터(150)에 의해 계수(counting)되고, 도 2a의 화자 1-5에 대해 도시된 바와 같은 히스토그램이 생성된다. 일반적으로, 하나의 코드북은 몇 초 동안 임의로 발언한 후 통계적으로 중요하거나 지배적인 프레임 번호에 의해 식별되어 나타날 것이고, 따라서 화자(예컨대, 도 2a의 화자 1)는, 바람직하게 비교기 장치(160)에 의해 검출되는 바와 같이, 식별된다. 또한, 히스토그램 정점 크기들(histogram peak magnitudes)의 차이(divergence)는 화자 식별의 신뢰 수준에 대한 직접적인 척도(measure)를 제공한다. 둘 또는 그 이상의 정점들이 유사한(통계적으로 중요하지 않는) 크기를 가진다면, 아래에서 기술되는 바와 같이 화자 식별을 위한 상세 매칭부(200)에 대하여 추가적인 프로세싱이 수행될 수 있다.

하지만, 본 발명에 따르면, 특징 벡터들은 또한, 등록 동안 기존 코드북에 대하여 상기한 바와 같이 히스토그램을 나타냄으로써 디코딩된다. 등록 중인 화자(예컨대, 도 2a의 화자 6)가 이전 등록 화자의 그것과 유사한 히스토그램 정점 크기를 나타냄으로써 기존 등록 화자와 혼동된다면(예컨대, 새로운 화자를 이전에 등록된 화자로 식별할 가능성이 있다면), 비교기(160)에 응답하여 그 발음이 유사한 특징 벡터를 생성하는 화자들을 포함하는 소정의 클래스가 데이터베이스(300) 내에 형성된다(이 경우 화자 1 및 6이 포함됨). 다음에, 서로 다른 화자들로부터의 데이터를 사용하여, 화자 의존적 모델과 데이터 베이스(300) 내에 저장된 모델을 구별할 수 있도록 이들 화자 의존적 모델들을 적응시킨다.

잠재적인 혼동의 검출이 고속 매칭 시스템의 포화 시점과 같아서, 그 최대한의 구별 능력으로 고속 매칭 시스템이 이용될 수 있고 (잠재적인 혼동에 대해 통계적 임계치를 낮게 설정하는 것과 같은 보수적 설계에 의해 의도적으로 제한되지 않는다면) 본 발명의 고속 매칭부의 처리 능력을 초과할 때에만 상세 매칭부가 수행되도록 한다는 점을 인식해야만 한다. 하지만, 이러한 포화의 개시는 등록 동안검출되므로, 이러한 의미에서, 본 발명에 따른 시스템의 구성은 필요한 때에, 상세 매칭 프로세스에 의해 고속 매칭부를 보충하도록 적응된다. 비교 범위를 그룹의 구성원들로 제한하고, 그 그룹의 구성원들을 반드시 구별하도록 최적화된 혹은 적어도 적응된 화자 의존적 모델을 적응시킴으로써, 상세 매칭을 용이하게 한다. 그룹 수 및 그룹 당 화자의 수가 항상 최소로 될 것인데, 이는 잠재적 혼동이 탐지될 때만 그룹들이 생성되고 구성원들이 그룹에 추가되기 때문이다.

물론, 이러한 화자 의존적 모델을 생성하고 적응시키기 위해서는 이러한 각각의 화자에 대한 보다 많은 데이터를 수집할 필요가 있다. 하지만, 이러한 데이터는 등록 중인 화자(화자 6)에 대해서는 다소 연장된 등록 동안에 수집될 수 있고, 다음 번 시스템 사용 동안 그 새로 등록된 화자와 혼동되는 화자들(예컨대, 화자 1)에 대해서는 나중에 수집될 수 있다. 또한 주의해야 할 점은 클래스의 생성은 유사 화자들 - 이들로부터 유사 화자 모델이 생성될 수 있음 - 을 자동적으로 선택하거나 정의하며, 등록 사용자 수가 커짐에 따라 필요한 때에만 추가적인 데이터의 수집 및 저장을 제공한다는 것이다.

또한 주의해야 할 점은 적어도 하나의 클래스가 상기한 바와 같이 정의되고 생성된 후, 히스토그램(150)이 생성된 때 화자 사이의 혼동을 유발하는 테스트 데이터가 있다면 이를 각 후보 화자가 할당된 클래스 또는 클래스들과 비교할 수 있다는 것이다. 이러한 비교는 종종 단지 몇 초의 음성 또는 심지어 수백 프레임 후에 사용가능한 결과들을 제공할 수 있다. 예컨대, 인증(예를 들면, 음성이 이전에 식별된 화자의 음성인지 여부에 대한 주기적인 테스트) 동안 이전에 식별된 화자가속한 클래스 이외의 클래스라면, 인증은 실패한 것으로 간주될 수 있다. 이러한 가능성은 초기 식별 시 액세스가 허여된 후 인증이 실패한 때 보안 시스템의 사용자에 대한 액세스를 거부하는데 특히 유용하다. 식별의 경우, 둘 또는 제한된 수의 화자가 지배적이게 되면, 그 지배적인 화자들에 대응하는 한 개 또는 두 개의 클래스 내의 화자들만을 단지 추가적으로 고려할 필요가 있다. 단지 몇 초 후 또는 작은 수의 프레임 후에 행해지는 이러한 결정들은 모두 화자 인식 프로세스를 상당히 빠르게 한다.

다른 결정들은 또한, 고속 매칭 및/또는 상세 매칭 프로세싱을 용이하게 하는 방식으로 행해질 수 있고, 가능한 또는 적어도 잠정적인 화자 식별이 고속 매칭 프로세싱만으로 이루어질 수 있게 해준다. 예컨대, 화자 1과 3에 대하여 대등한 카운트가 생성되어 있는 도 2b에 도시된 바와 같이, 후보 화자들이 동일한 클래스에 속하지 않는다면(예컨대, 화자 3이 등록된 때, 화자 1을 포함하는 클래스를 생성하지 못했다면), 보다 큰 히스토그램 정점과 연관된 화자는 몇 개의 프레임에 근거한 고속 매칭 프로세스에 의하여 통상 올바르게 선택되거나 잠정적으로 식별될 수 있는데(또는 그들 사이에 혼동이 존재하는 다른 화자들과 함께 분류되지 않은 화자들이 제거될 수 있는데), 이는 히스토그램 정점 크기의 차이가 추가적인 음성에 근거하여 나중에 생성될 것이라고 가정할 수 있기 때문이다. 본 발명의 이러한 특징에 의하면, 본 발명의 고속 매칭부(100)에 의해 화자 인식 프로세스가 촉진될 수 있고, 화자 신원 인증 및 음성 인식을 위해 유사 화자 및 음성 디코더(230)가 사용하도록 화자 의존적 모델(210)을 데이터베이스(300)로부터 호출할 수 있다.

데이터베이스(300)를 액세스하는 비교기(160)에 의해 검출된 것과 동일한 클래스 내에 화자들이 있다면, 그 화자들을 구별하기 위해서 단일 클래스의 모든 유사 화자들의 화자 의존적 모델들이 초기 시점에서 호출될 수 있는데, 이는 유사 화자 및 음성 디코더(230)와 함께 포함된 화자 인식 엔진에 의해 행해진다. 주의해야 할 점은 이렇게 클래스를 선택하면, 처리될 데이터가 사실 상 고속 매칭부(100)에 의해 혼동된 화자들을 구별하는데 필요한 데이터로 한정되고, 결국 화자 의존적 모델에 대한 저장 조건뿐만 아니라 프로세싱 시간 및 오버헤드가 감소된다는 것이다. 유사 화자들은 혼동이 실제로 발생한 때에만 필요로 하게 되므로, 전체 저장 조건이 감소된다. 또한, 유사 화자 모델(220)은 초기 시점에서 음성을 디코딩하는 데 사용할 수 있는데, 이는 발음에 대한 모호한 디코딩이 유사 화자들 내에서 일어날 것 같지 않기 때문이다.

음성 디코딩 엔진(230)은 바람직하게, 연속 밀도 가우시안 혼합(continuous density Gaussian mixtures)을 구비한 은닉 마코프 모델(HMMs)을 이용하여 출력 분포(다시 말해, HMM 모델의 소정의 아크(arc)에서 소정의 음향 벡터를 관측하기 위한 확률 밀도 함수)를 모델링한다. MAP(maximum-a-posteriori) 추정 모델들 또는 재학습(re-training), ABC(adaptation by correlation), MLLR(maximum likelihood linear regression) 혹은 CT(clustered transformation)와 같은 다른 화자 의존적 알고리즘에 의해 적응된 모델들의 집합은 상이한 선적재(pre-loaded) 화자에 대해 적재된다. 등록 동안, 성(性)-비의존적 시스템(gender-independent system)으로 발음을 디코딩한다. 다음에, 각각의 선적재 시스템을 사용하여 동일한계열(alignment)에 대한 유사도를 계산한다. N 개의 최선의 화자가 추출되고 선형 변환을 계산하여 선택된 선적재 화자 모델들 각각을 등록된 화자에 보다 근사하게 맵핑한다. 이러한 데이터를 사용하면, 새로운 가우시안(Gaussian)들이 새로운 화자에 대해 설정된다. 관측되지 않은 가우시안들은 바람직하게 ABC 알고리즘을 사용하여 적응된다. 화자 인식 동안, 화자 및 그 유사 화자들에 의해 생성된 유사도들은 화자 의존적인 모델에 의해 생성된 동일한 계열에 대해 비교된다.

이러한 프로세스는 상당한 계산을 요할 수도 있지만, 유사 화자들을 구별하는데 사용되는 등록 데이터는 특히 텍스트 의존적 또는 텍스트 프롬프트적(text-prompted)이라면 실제로 상당히 제한될 수 있다. 후자의 경우, 고속 매칭 식별 또는 인증이 성공하지 못하면, 식별 또는 인증은 텍스트 의존적인 방식으로 수행될 수 있다. 하지만, 상기에서 기술된 계열들의 계산 및 비교들은 원한다면, 식별 또는 인증에 대한 텍스트 비의존성을 허용한다. 따라서, 대다수의 식별 및 인증 동작에 대하여 텍스트 비의존성이 고속 매칭 프로세싱에 의해 달성되면서, 동시에 상세 매칭 단계(200)에서 저장 조건 및 계산 오버 헤드를 매우 낮은 수준으로 최소화하는 것이 상기한 바와 같이 촉진된다.

전술한 관점에서 보면, 고속 매칭부와 상세 매칭부를 결합한 본 발명의 하이브리드 시스템은 저장 조건을 거의 증가시키지 않고 매우 빠른 화자 식별을 제공하는데, 이는 상세 매칭 단계의 프로세싱이 일반적으로 코드북의 저장을 보상하고도 남을 만큼 저장 조건을 감소시킬 수 있고, 대개 화자 의존적 모델들이 각 화자의 음성을 보다 충분히 특징화하기 위한 것이라기보다는 오히려 주로 소정 그룹의 화자들 간을 구별하기 위해 구축될 수 있기 때문이다. 등록, 식별 및 화자 신원의 인증은, 텍스트 의존성을 사용하여 화자 간의 작은 수의 차이에 대한 저장 공간을 제한할 수 있는 정도까지를 제외하고는 사용자에게 투명한 방식으로 수행된다. 하이브리드 장치의 고속 매칭부 및 상세 매칭부는 서로 동작을 촉진시키고, 유사 화자들의 자동적인 처리를 제공하고, 효율적인 탐색 전략을 지원하며, 효율적인 탐색 전략에 의해 보충되는 각 부 내에서 처리될 데이터를 줄임으로써 프로세싱 오버헤드를 제한한다. 이러한 이점들은 사용자의 수가 매우 커짐에 따라 유지된다.

본 발명은 단일 실시예의 관점에서 기술되고 있지만, 당업자라면 본 발명이 첨부된 청구항의 사상 및 범주 내에서 변형해서 실시될 수 있음을 인식할 것이다.

따라서, 본 발명에 의하면, 텍스트 비의존적이고 등록 후 사용자에게 투명한, 다수의 등록 사용자들 중에서 개별 등록 사용자를 고속으로 분별하는 시스템을 제공할 수 있으며, 또한 정확도를 줄이지 않고서 다수의 화자에 대한 고속의 화자 인식을 제공할 수 있다.

Claims

컴퓨터 시스템 - 상기 컴퓨터 시스템은 각각이 다수의 화자 중 하나에 대응하는 다수의 코드북(codebooks)을 저장하는 저장 유닛을 포함함 - 에 의해 화자 식별을 수행하는 방법에 있어서,

① 상기 다수의 화자를 화자 그룹들에 할당하는 단계와,

② 텍스트 비의존적(text-independent)인 고속 매칭(fast-match) 화자 인식 프로세스를 수행하는 고속 매칭 화자 인식 단계와,

③ 상세 매칭(detailed-match) 화자 인식 프로세스를 수행하는 상세 매칭 화자 인식 단계

를 포함하되,

상기 고속 매칭 화자 인식 단계는,

(a) 상기 저장 유닛에 저장된 상기 다수의 코드북의 일부와 입력 음성 신호를 비교하는 단계 - 상기 비교 단계는,

(1) 상기 입력 음성 신호를 다수의 프레임으로 분할하는 단계와,

(2) 각 프레임에 대해,

(i) 상기 입력 음성 신호로부터 적어도 하나의 특징 벡터를 유도하는 단계와,

(ii) 각 프레임 내의 적어도 하나의 특징 벡터를 상기 다수의 코드북의 상기 일부 내에 있는 코드워드와 비교하되, 각 코드북 내에 있는 코드워드는 상기 화자 중 대응하는 하나에 대해 이전에 입력된 테스트 데이터로부터 유도된 특징 벡터들로부터 형성되는 단계와,

(3) 상기 다수의 코드북 각각에 대응하는 프레임들을 카운트하는 프레임 카운팅 단계와,

(4) 상기 프레임 카운팅 단계에 기초하여 상기 각각의 코드북이 상기 입력 음성 신호와 얼마나 밀접하게 매칭되는지를 나타내는 표지를 제공하는 단계

를 포함함 - 와,

(b) 상기 입력 음성 신호에 가장 잘 매칭되는 사전결정된 수의 상기 다수의 코드북의 상기 일부를 식별하는 단계

를 포함하고,

상기 상세 매칭 화자 인식 단계는,

(c) 상기 단계 (b)에서 식별된 화자가 속하는 그룹을 식별하는 단계와,

(d) 상기 입력 음성 신호를 상기 단계 (c)에서 식별된 상기 그룹 내의 화자들에 대응하는 모델들과만 비교하는 단계와,

(e) 상기 단계 (d)의 결과에 기초하여 상기 입력 음성 신호의 화자를 식별하는 단계

를 포함하는 화자 식별 방법.
제 1 항에 있어서,

상기 단계 (b)에서 식별된 상기 화자들이 동일한 그룹에 속하면, 상기 상세 화자 인식 프로세스는 상기 동일한 그룹의 모든 유사 화자 모델들 중 화자 의존적 모델들을 이용하여 상기 입력 음성 신호의 상기 화자를 판단하는 단계를 포함하는 화자 식별 방법.
제 1 항에 있어서,

상기 단계 (e)에서의 상기 화자 식별에 후속하여 상기 입력 음성 신호의 상기 화자가 상기 식별 단계 (e)에 의해 이전에 식별된 화자임을 인증하는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서,

상기 할당 단계는,

① 등록 동안 새로운 화자의 입력 음성 신호를 나타내는 특징 벡터들을 클러스터링하여 상기 새로운 화자에 대한 코드북을 형성하는 단계와,

② 상기 특징 벡터들을 이전에 등록된 화자에 대한 코드북들에 대하여 디코딩하는 단계와,

③ 상기 새로운 화자와 이전에 등록된 화자 사이에 잠재적인 혼동이 검출된 때 상기 새로운 화자와 상기 이전에 등록된 화자를 하나의 그룹으로 연관시키는 단계

를 더 포함하는 화자 식별 방법.
제 4 항에 있어서,

한 그룹 내에 연관된 화자들을 구별할 수 있도록 화자 의존적 모델을 생성하는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서,

상기 화자 식별 단계 (e)는,

① 인식을 위하여 적어도 2 명의 후보 화자를 결정하는 단계와,

② 상기 후보 화자들이 한 그룹 내에 연관되어 있지 않다면 상기 후보 화자 중 더 유사한 후보를 선택하는 단계를 더 포함하는

화자 식별 방법.
제 1 항에 있어서,

상기 화자 식별 단계 (e)는,

① 인식을 위하여 적어도 3 명의 후보 화자들을 결정하는 ― 상기 적어도 3명의 후보 화자들 중 적어도 2 명 이상이 한 그룹 내에 연관되어 있음 ― 단계와,

② 상기 적어도 3 명의 후보 화자들 중에서 상기 그룹 내에 연관되어 있지 않는 후보 화자를 제거하는 단계를 더 포함하는

화자 식별 방법.
제 1 항에 있어서,

상기 고속 매칭 화자 인식 프로세스와 상기 상세 매칭 화자 인식 프로세스는 계층적으로(hierarchically) 수행되는 화자 식별 방법.
제 3 항에 있어서,

상기 인증 단계는 상기 입력 음성 신호의 화자가 상기 이전에 식별된 화자와 공통된 그룹 내에 있는지 여부를 결정하는 단계를 포함하는 화자 식별 방법.
제 1 항에 있어서,

적어도 상기 상세 화자 인식 프로세스를 반복함으로써 추가적인 입력 음성 신호의 화자가 상기 식별 단계 (e)에 의해 식별된 화자인지 여부를 인증하는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서,

상기 상세 화자 인식 프로세스는 학습된 화자 의존적 모델을 사용하여 상기 입력 음성 신호를 비교하고, 가장 유사한 모델이 학습된 화자로서 상기 화자를 식별하는 화자 식별 방법.
화자 인식 장치에 있어서,

① 발음의 프레임들을 샘플링하고 상기 발음의 프레임들 중 각 프레임의 가장 유사한 화자를 결정하는 샘플링 수단 ―상기 샘플링 수단은 상기 발음의 등록되지 않은 화자와 1 명 이상의 이전에 등록된 화자 간의 잠재적인 혼동을 검출하는 잠재 혼동 검출 수단을 포함함 ―과,

② 상기 등록되지 않은 화자를 등록하는 등록 수단 - 상기 등록 수단은 상기 화자와 상기 이전에 등록된 화자를 구별하는 화자 의존 모델을 생성하는 수단을 포함하고, 상기 등록 수단은 상기 잠재 혼동 검출 수단에 응답하여 유사한 화자 의존 모델을 갖는 이전에 등록된 화자의 그룹 내에 상기 등록되지 않은 화자를 등록함 - 과,

③ 상기 잠재적 혼동 검출 수단에 응답하여 소정의 화자 그룹을 형성하는 화자 그룹 형성 수단과,

④ 상기 샘플링 수단에 응답하여, 제한된 수의 그룹의 화자 의존적 모델에대하여 발음을 매칭시키는 발음 매칭 수단

을 포함하는 화자 인식 장치.