KR19980086697A

KR19980086697A - 음성 인식 시스템에서의 화자 인식 방법 및 장치

Info

Publication number: KR19980086697A
Application number: KR1019980015722A
Authority: KR
Inventors: 스테판 허만 마에스
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1997-05-06
Filing date: 1998-04-30
Publication date: 1998-12-05
Also published as: CN1202687A; JP2982870B2; HK1015924A1; KR100321835B1; US6182037B1; CN1120470C; JPH10319988A; TW374895B

Abstract

화자 인식을 위한 고속 매치와 상세한 매치 기법을 혼성 시스템으로 결합하고, 이 시스템에서 등록되는 화자와 이전에 등록된 화자사이에 잠재적인 혼동이 탐지된 때 화자들이 그룹들로 결합된다. 따라서, 상세한 매치 기법들은 단지 고속 매치 기법의 잠재적 포화 개시점에서만 기동(invoke)되고, 상세한 매치는 비교를 그룹으로 제한함으로써 그리고 보다 충분히 각 화자를 특징지우기 보다 오히려 그룹의 구성원들을 구별하는 기능을 주로 수행하도록 화자 의존적 모델을 진전시킴으로써 상기한 매치를 용이하게 한다. 따라서, 저장 공간 및 계산 요구 조건들은 제한되며, 빠르고 정확한 화자 인식이, 고속 매치 시스템들을 저하시키거나 포화시키고 상세한 매치 시스템의 성능을 저하시킬 화자 모집단(population)에 대하여 확장될 수 있다.

Description

음성 인식 시스템에서의 화자 인식 방법 및 장치

본 발명은 전반적으로 음성 인식 시스템(speech recognition systems)에서 화자의 식별(identification) 및 검사(verification)에 관한 것으로서, 특히 다수의 등록된 화자에 대한, 고속이고 텍스트 비의존적(text-independent) 화자 식별 및 검사에 관한 것이다.

많은 전자 장치들은 예컨대, 온/오프 스위치의 작동에 의해 지시되는 대로 원하는 기능이 수행되도록 할 때와 같은 흔한 간단한 경우에 원하는 기능을 결정 또는 수행하는데 필요한 특정 정보를 그 장치에 전달하기 위하여 사용자에게 입력을 요구한다. 다수의 상이한 입력들이 가능한 경우, 둘 또는 그 이상의 스위치들의 어레이를 포함하는 키보드가 최근에 선택 입력 장치로 사용되어 왔다.

하지만, 어떠한 타입의 키보드라도 내재한 단점을 가지고 있다. 가장 분명한 사실은, 키보드는 복수의 액츄어블(actuable) 영역들을 포함하는데, 이 각각의 영역은 일반적으로 움직이는 부품들을 포함하는데, 이러한 부품들은 마손(wear) 및 손상(damage) 되기 쉽고 스타일러스(stylus) 또는 다른 별개의 기계적 수단이 채택되지 않는 한 본체의 일부분에 의해 가동되도록 크기가 조정되어야만 한다. 따라서, 보안 시스템 및 전자 계산기를 위한 입력 패널 따위의 많은 장치 타입에 있어서, 장치의 크기는 종종 하우징(housing)의 전자적인 내용물보다 오히려 키패드의 용적에 의해 결정된다. 또한, 동작을 느리게 하고 잘못된 가동을 일으킬 수 있는 가능성을 증가시키는 다수의 키스트로크들을 (예컨대, 동작을 명시하고, 보안 코드,개인 식별 번호(personal identification number:PIN)등을 입력하는데) 필요로 할 수 있다. 따라서, 키보드 또는 손으로 조작하는 다른 입력 구조를 사용하는 데에는 사용자에게 최적이 아니거나 편리하지 아니한 동작이 필요하게 된다.

보다 자연스럽게 사용할 수 있고 편리하고 빠른 인터페이스를 제공하고,그 처리능력을 증가시키려고 하는 과정에서, 음성 또는 소리 탐지 및 인식 시스템에 대한 다수의 접근법들이 제안되어 왔고 어느 정도 구현하는데 성공했다. 또한, 이러한 시스템들은 이론적으로는 장치 또는 시스템의 자원들에 대한 액세스를 허용 또는 금지시키거나 등록된 화자를 식별하고 또는 사용자에 비교적 투명하고 편리할 수 있는 방식으로 사용자 신원에 따라 맞추어진(customized) 커맨드 라이브러리들을 호출하기 위하여 사용자의 발음을 등록된 화자의 발음에 대해 매칭시킬 수 있는 능력을 가질 수 있다.

그러나, 대규모 자원들을 포함하는 대규모 시스템들은 다수의 잠재적인 사용자들을 가질 수도 있고 따라서 등록된 화자의 수가 많게 되면 화자를 인식하는데 상당한 양의 저장 공간 및 프로세싱 오버헤드를 요구할 수도 있다. 화자 모집단(population)의 크기가 증가할 때에 상이한 화자들을 빠르게 분별하도록 설계된 간단하고 빠른 시스템들에 대해서 화자 인식 시스템의 성능 포화가 발생할 것이다. 대부분의 화자 의존적(speaker-dependent)(예컨대, 발음에 대한 디코딩을 수행하고 상이한 화자에 적합한 히든 마코프 모델(hidden Markov models)(HMM)와 같은 디코딩된 스크립트 모델상에서 정렬을 수행하는데, 이러한 모델은 가장 높은 정확도의 화자 디코딩 및 식별을 제시하며, 이 모델은 텍스트 의존적(text-dependent)일 수도 있고 또는 텍스트 비의존적일 수 도 있음)시스템의 성능은 큰 화자 모집단에 대해서 저하될 뿐만 아니라 포화 및 성능 저하의 경향은 보다 작은 양의 정보에 근거하여 화자들을 분별하고 보다 큰 화자 모집단에 대한 데이타가 데이타의 인스탄스사이에 보다 작은 차이를 발생시키는 때 모호한 결과를 반환하는 경향이 있는, 빠르고 간단한 시스템의 보다 작은 모집단에 대해서 직면하게 된다.

일례로서, 프레임 대 프레임 특성 클러스터링 및 분류와 같은 텍스트 비의존적 시스템은 화자 또는 화자 부류(class) 식별에 대한 고속 매치 기법으로서 생각될 수 있다. 하지만, 용인할 수 있는 반응 시간내에 프로세싱 오버헤드의 실질적인 양으로써 처리될 수 있는, 화자 부류의 수 및 각 부류내의 화자의 수가 제한된다. (다시 말해, 프레임 대 프레임 분류기는 각 등록된 화자에 대하여 비교적 작은 양의 데이타를 요구하고 제한된 수의 화자에 대하여 보다 작은 프로세싱 타임을 요구하는 반면, 그 분별 능력은 화자 모델들(각 모델은 화자 의존적 시스템에서보다 비교적 작은 정보를 담고 있음)의 차별성이 모델 수의 증가에 의해 감소됨에 따라 제한되고 상당히 절충된다. 화자 발음에 관한 (저장되고/되거나 처리되는) 정보를 줄이려고 하는 어떠한 접근법도 사용자 모집단이 커짐에 따라 개별 등록 사용자를 식별할 수 있는 시스템 능력을 절충할 수도 있음을 즉시 이해할 수 있다. 화자 모집단의 어떤 크기에서, 화자 인식 시스템 또는 엔진은 더 이상 몇몇 화자들을 분별할 수 없다. 이러한 조건은 포화로서 알려져 있다.

반면에, 화자 인식을 제공하기 위하여 개별 화자에 적응된 화자 의존적 모델 기반 디코더를 사용하는 보다 복잡한 시스템들은 화자 인식을 달성하기 위해서 병렬적으로 또는 순차적으로 모델들을 실행해야 하고 따라서 상당히 느리며, 대량의 메모리 및 프로세서 타임을 요구한다. 또한, 이러한 모델들은 학습시켜 적응시키기가 어려운데, 왜냐하면 이들은 전형적으로 모델을 형성하는데 대량의 데이타를 요구하기 때문이다.

템플릿 매칭 시스템들(template matching systems)에서 저장 공간 제약은 어느 정도 완화되는데, 이러한 시스템은 또한 화자 인식 및/또는 검사 함수에 특유한, 각 등록 화자의 특정한 발음에 의존하므로 화자 의존적일 뿐만 아니라 텍스트 의존적이다. 하지만, 이러한 시스템은 그 특성상, 사용자에게 투명할 수 없는데, 왜냐하면 이런 시스템은 비교적 긴 등록 및 초기 인식 (예컨대, 로그온) 과정을 요구하고 검사를 위해 종종 시스템의 사용을 주기적으로 중지시킬 것을 요구하기 때문이다. 또한, 그리고 아마 보다 중요하게는, 이러한 시스템은 각 화자의 노화,피로,병,스트레스, 운율(prosody),심리 상태 및 다른 조건들을 통하여 발생할 수 있는 것과 같은 각 화자의 발음의 변화(화자내(intra-speaker) 변화)에 보다 민감하다.

보다 구체적으로, 화자 의존적 음성 인식기는 동작중 등록 단계 동안에 각 화자에 대한 모델을 만든다. 그 다음에, 화자 및 그 발음은 가장 큰 확률 또는 가장 낮은 에러율을 생성하는 모델에 의해 인식된다. 모든 발음들을 인식하기 위하여 충분한 데이타가 각 모델을 고유한 화자에 적응시키는데 필요하게 된다. 이러한 이유 때문에, 대부분의 화자 의존적 시스템은 또한 텍스트 의존적이며, 템플릿 매칭이 각 모델내에 저장될 데이타의 양을 줄이는데 종종 사용된다. 이와는 달리, 예컨대 히든 마코프 모델(HMM) 또는 이와 유사한 통계적 모델을 사용하는 시스템은 상당히 있음직하지 않은 화자를 거부할 수 있는, 화자의 그룹에 기초한 동료 모델(cohort model)을 대개 도입하고 있다.

동료 모델은 화자 신원의 경합 가능성에 기초한 신뢰 척도(confidence measures)의 도입을 허용하며, 특히 화자 모집단을 증가시킬 때 등록 화자의 수가 증가함에 따라 상이한 화자의 발음 사이에 존재할 수 있는 다수의 유사점 때문에 정확하게 만들기가 매우 어렵다. 이런 이유 때문에, 동료 모델은 잠재적인 에러의 중요한 소스가 될 수 있다. 새로운 화자의 등록이 또한 복잡한데, 왜냐하면 이는 새로운 동료의 추출 및 이에 대응한 동료 모델의 개선 혹은 수정을 요구하기 때문이다.

특히, 템플릿 매칭은 동료의 직접적인 도입을 허용하지 않는다. 템플릿들은 대개 등록을 위해 사용되는 사용자 발음의 원래의 파형이고 각 발음에 대한 템플릿 수가 실제적으로 매칭 프로세스가 합리적으로 이용할 수 있는 시간에 의해 제한된다. 반면에, 화자내 변화의 범위는 각 발음을 인식하는데 획득하거나 사용될 수 있는 템플릿 수에 의해 제한되고 화자내 변화의 범위에 대한 용인할 수 있는 수준은 사용자 수가 커짐에 따라 제한되게 된다. 특히 데이타를 줄이거나 탐색 전략들을 단순화하기 위한 동료 모델의 진전(development)은 이에 의해 복잡하게 되긴 하지만 화자내 변화를 마스킹하는 경향이 있다.

또한, 템플릿 매칭은 사용자 수가 증가함에 따라 템플릿간 거리 척도의 정의가 보다 중대하게 되고 탐색 전략을 복잡하게 하기 때문에 보다 덜 식별적이게 된다. 또한, 개념적으로, 템플릿 매칭은 발음에 있어 다이나믹(dynamic)(예컨대, 시간에 대한 파형의 변화)의 전개 및 그 다이나믹의 재생성을 강조하는 반면, 다이나믹은 특히 화자의 조건에 따라 변할 수 있다.

따라서, 현재의 기술 상태에서, 큰 화자 모집단은 텍스트 비의존적이고 고속인 화자 인식 시스템들로 하여금 사용하기에 덜 적합하게 만들고, 화자 모집단의 어떤 크기에서는, 그 시스템들을 비효율적이게 하고 보다 느린, 저장 장치 및 프로세서 중심의 시스템들을 채택하도록 요구하며, 따라서 그만큼 그 성능이 저하된다. 계산 및 메모리 요구 조건을 제한하고 등록 화자의 모집단이 커질 때 포화를 피하면서 동시에 빠르고 간단한 시스템에 필적하는 화자 인식 능력을 유지할 수 있거나 분별 능력을 증가시킬 수 있는 가용 시스템은 전혀 없다.

따라서, 본 발명의 목적은 텍스트 비의존적이고 등록후 사용자에게 투명한, 큰 모집단의 등록 사용자중에서 개별 등록 사용자를 고속으로 분별하기 위한 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 큰 모집단의 등록 사용자중에서 화자의 식별 및 검사를 제공하며 간단하고 빠르고 투명하고 텍스트 비의존적인 등록 과정을 구비한 시스템을 제공하는 것이다.

본 발명의 또다른 목적은 음성 디코딩 및 화자 인식 동안에 화자 및 동료 모델들에 대한 프로세싱을 개선하는 것이다.

본 발명의 또다른 목적은 정확도의 감소없이 큰 화자 모집단에 대한 고속의 화자 인식을 제공하는 것이다.

도 1은 본 발명의 바람직한 형태의 구조 및 동작을 상세히 설명하는 블럭도/흐름도.

도 2a 및 도 2b는 본 발명에 따른 히스토그램 프로세싱에 대한 그래프.

도면의 주요 부분에 대한 부호의 설명

100: 고속 매치 110: 음향 프론트엔드

130: 화자 의존적 코드북 140: 프레임 대 프레임 디코딩

150: 히스토그램 카운터 160: 부류 선택 비교기

200: 상세한 매치 210: 화자 의존적 모델

220: 동료 및 음성 디코딩 화자 인식 엔지 300: 화자/부류 데이타베이스

본 발명의 이러한 그리고 다른 목적들을 달성하기 위하여, 화자 인식 방법이 제공되는데, 이 방법은 등록 화자들의 그룹을 형성하는 단계, 화자 또는 등록 화자들의 그룹중에서 특정 발음의 화자를 가장 포함할 것 같은 화자들의 그룹을 식별하는 단계, 상기 발음의 화자의 신원을 결정하기 위하여 상기 화자들의 그룹내에서 화자 의존적 모델에 대하여 발음을 매칭시키는 단계를 포함한다.

본 발명의 또다른 특징에 따르면, 화자 인식 장치가 제공되는데, 이 장치는 발음의 프레임들을 샘플링하고 발음에 가장 근사한 화자를 결정하기 위한 벡터 양자기를 포함하고, 상기 발음의 화자와 하나 이상의 이전에 등록된 화자간의 잠재적 혼동을 탐지하기 위한 수단을 포함하며, 잠재적 혼동의 탐지에 응답하여 상기 사용자와 이전에 등록된 화자를 구별하기 위하여 화자 의존적 모델을 진전시키기 위한 수단을 포함한다.

본 발명은 고속 매치 프로세스 및 필요하다면, 차례로 상세한 매치를 사용하는데, 상세한 매치는 사용자 모집단의 증가에 의해 이 매치 프로세스의 포화가 시작되는 시점 또는 그 이전에 구현된다. 상세한 매치는 잠재적 혼동의 탐지에 응답하여 사용자들을 그룹지움으로써 빨라지고, 후보 화자 또는 그룹의 수를 제한함으로써 상세한 매치 프로세스를 용이하게 하고 빠르게 하면서 그룹의 구성원들을 분별하도록 모델을 진전시킴으로써 저장 공간을 제한한다.

도면을 참조하면, 특히 도 1을 보면, 본 발명의 바람직한 형태에 대한 고수준(high level)의 블럭도가 도시되어 있다. 도 1은 또한 아래에서 논의될 것인바와 같이 본 발명의 동작을 상세히 설명하는 흐름도로서 이해될 수도 있다. 또한 이해해야 할 것은 도 1에 상세히 설명된 바와 같은 시스템의 구조 및 동작은 특정 목적의 데이타 프로세서로서 구현될 수 있고 또는 바람직하게는, 적절히 프로그램된 범용 데이타 프로세서에 의해 구현될 수 있는데, 후자의 경우에 있어서, 예시된 기능적 엘리먼트들은 초기화동안에 또는 본 기술에 널리 이해되고 있는 바와 같이 프로그램의 동작동안 필요한 때에 그 내부에서 구성될 것이라는 점이다.

먼저, 본 발명의 바람직한 형태의 구성은 일반적으로 두 개의 부분(section)으로 나뉘고 따라서 혼성 시스템으로서 널리 기술되고 있다는 것을 인식해야 할 것이다. 상부(100)는, 도시된 바와 같이, 텍스트 비의존적인 고속 매치 화자 인식/분류 시스템에 기초한 특성 벡터(feature vector)이다. 하부(200)는, 도시된 바와 같이, 화자 모델(210) 또는 동료 모델(220)에 기초한 상세한 매치 장치이고, 상부(100)는 본래 텍스트 비의존적인데 반해 하부는 텍스트 의존적일 수도 있고 텍스트 비의존적일 수도 있다. 이해해야 할 점은 본 발명에 따른 전체 시스템은 하위의 상세한 매치 부분(200)에 대해 선택한 구현예에 따라 텍스트 의존적일 수도 있고 텍스트 비의존적일 수도 있다는 것이다.

시스템 구조의 이러한 부분들은 프로세싱의 순차적인 단계를 나타내고 있는데, 이러한 프로세싱 단계에 있어서, 상세한 매치는 제 1 의 고속 매치 단계에 의해 결정이 이루어질 수 없을 때에만 수행되며, 비록 성공하지 못했다 하더라도, 제 1 단계는 자동적으로 화자 또는 동료 모델을 선택할 뿐만 아니라 상세한 매치용으로 화자 또는 동료 모델을 자동적으로 선택함으로써 제 2 단계의 성능을 향상시킨다.

보다 구체적으로, 음향 프론트엔드(110)는, 그 자체로서 본 기술에 널리 이해되고 있는바, 중첩 방식(overlapping fashion)으로 발음을 샘플링하고 이로부터 특성 벡터들(120)을 바람직하게는 정규화된 로그에너지(log-energies)와 함께 MEL 셉스트라(cepstra),델타 및 델타-델타 계수들로서 추출하는데 사용된다(로그 에너지 및 셉스트라 C₀는 포함되어서는 안됨). 이와 함께, 벡터 양자기는 인식될 발음(테스트 데이타)으로부터 유도된 특성 벡터들을 양자화할 목적으로 뿐만 아니라 효율적인 저장 목적으로 등록된 데이타로부터 생성된 특성 벡터들을 그들의 평균 및 편차로서 클러스터링한다.

이러한 특성 벡터는 바람직하게는 25 - 30 msec의 프레임들을 10 msec 프레임의 쉬프트 프레임과 중첩시키자 마자 계산된다. 심리적으로 관련된(예컨대, 공명(resonances)과 같은 발음 대역 기호들(vocal tract signatures)을 특징지우는) MEL 셉스트라, 델타 및 델타-델타 특성 벡터들은 다른 알려진 타입의 특성 벡터들을 사용할 수 있음에도 불구하고 화자 인식 또는 검사의 효율성 및 효과성 때문에 특성 벡터로서 선호되고 있다. 이러한 특성 벡터들과 LPC 셉스트라와 같은 다른 벡터들은 본 기술에 널리 이해되고 있는 바와 같이, 대개 39 차원 벡터들이다. 결국 특성 벡터들은 마할노비스 거리(Mahalnobis distance)에 따라 약 69개(이 수는 본 발명의 실시에 중요하지 않음)의 코드워드(codeword)로 클러스터링된다. 실제로, 특성 벡터의 각 좌표의 편차는 화자들의 대표 집합에 대하여 경험적으로 결정될 수 있고, 코드워드에 대한 벡터의 연관 척도(measure of association of a vector relative to a codeword)는 가중치가 연관된 편차의 역수인 가중 유클리드 거리(weighted Euclidean distance)이다. 이와 같이 유도된 코드워드의 집합은 각 등록 화자당 하나의 코드북(codebook)을 구성한다.

주의해야 할 점은 단지 하나의 코드북만이 각 등록 화자에 대해 요구된다는 것이다. 따라서, 본 발명의 고속 매치 부분에 대한 저장 공간 요구 조건은 상당히 작으며 완전한 발음(complete utterance)에 대한 복잡한 모델은 전혀 요구되지 않는다. 어떠한 새로운 화자의 등록도 이전에 등록된 화자의 코드북을 그대로 둔채 단지 추가적인 코드북의 부가를 요구할 뿐이며, 따라서 등록의 복잡도가 감소된다. 또한, 메모리(130)는 유사하게 구성된 코드북을 포함하고 있기 때문에, 등록 사용자(와 연관된 코드북)의 수가 커질때 탐색에 대한 효율적인 계층적(hierachical)(다중분해(multi-resolution)) 접근법이 구현될 수 있다.

그 후에, 테스트 정보가 디코더(140)에 의해 코드북에 대하여 프레임 대 프레임으로 디코딩된다. 코드워드에 임의적으로 근접한 매치를 제공하는 테스트 데이타의 각 프레임은 그 워드를 담고 있는 코드북에 대한 식별을 제공한다. 이렇게 특정 코드북을 식별하는 프레임들은 각 프레임에 의해 식별된 코드북에 따라 카운터(150)에 의해 그 수가 계산되고, 도 2a의 화자 1-5에 대해 도시된 바와 같이 히스토그램이 전개된다. 일반적으로, 하나의 코드북은 몇초동안의 임의적인 발언후에 통계적으로 중요하거나 지배적인 프레임 수에 의해 식별되는 때에 나타날 것이고, 따라서 화자(예컨대, 도 2a의 화자 1)는, 바람직하게 비교기 장치(160)에 의해 탐지되는 바와 같이, 식별된다. 히스토그램 정점 크기들(histogram peak magnitudes)의 차이(divergence)는 또한 화자 식별의 신뢰 수준에 대한 직접적인 척도(measure)를 제공한다. 둘 또는 그 이상의 정점들이 유사한(통계적으로 중요하지 않는) 크기를 가진다면, 아래에서 기술되는 바와 같이 추가적인 프로세싱이 화자 식별을 위한 상세한 매치(200)에 대하여 수행될 수 있다.

하지만, 본 발명에 따르면, 특성 벡터들은 또한 등록 동안 현존하는 코드북에 대하여 상기한 바와 같이 히스토그램을 전개함으로써 디코딩된다. 등록되고 있는 화자(예컨대, 도 2a의 화자 6)가 이전에 등록된 화자의 그것과 유사한 히스토그램 정점 크기를 전개함으로써 현존하는 등록 화자와 혼동된다면(예컨대, 새로운 화자를 이전에 등록된 화자로 잠재적으로 식별한다면), 그 발음이 유사한 특성 벡터들을 생성하는 화자들을 포함하는 비교기(160)에 대응하여 데이타베이스(300)내에 한 부류(class)가 형성된다(이 경우 화자 1 및 6이 포함됨). 다음에, 상이한 화자들로부터의 데이타가 이들 모델과 데이타 베이스(300)내에 저장된 모델들을 구별할 수 있도록 화자 의존적 모델들을 바꾸는데 사용된다.

고속 매치 시스템을 그 분별 능력이 최대한도로 발휘되게 사용할 수 있도록 하기 위해서는 잠재적인 혼동의 탐지가 고속 매치 시스템의 포화 시점과 같고, 상세한 매칭은 (잠재적인 혼동에 대비해 낮은 통계적 임계치를 설정하는 것과 같은 보수적 설계에 의해 의도적으로 제한되지 않는다면) 본 발명의 고속 매치 부분의 처리 능력을 초과할 때에만 수행된다는 점을 인식해야만 한다. 하지만, 이러한 포화의 개시는 등록동안에 탐지되고, 이러한 의미에서, 본 발명에 따른 시스템의 구성은 필요한 때에, 상세한 매칭 프로세스에 의해 고속 매치 부분을 보충하도록 바뀌게 된다. 상세한 매치는 비교 범위를 그룹의 구성원들로 제한함으로써 그 자체로서 용이하게 되고, 화자 의존적 모델의 개조 모델은 그룹의 구성원들사이에서 필요한 구별을 하도록 최적화 또는 적어도 바뀌게 된다. 그룹 수 및 그룹당 화자들의 수가 항상 최소로 될 것인데, 왜냐하면 잠재적 혼동이 탐지될 때만 그룹들이 생성되고 구성원들이 그룹에 부가되기 때문이다.

물론, 이런 화자 의존적 모델들의 진전 및 개조는 실질적으로 이러한 각 화자당 더 많은 데이타가 수집될 것을 요구한다. 하지만, 이러한 데이타는 등록되는 화자(화자 6)에 대해서는 다소 연장된 등록동안에 수집될 수 있고, 시스템의 다음 사용 동안 새로 등록된 화자와 혼동되는 화자들(예컨대, 화자 1)에 대해서는 나중에 수집될 수 있다. 또한 주의해야 할 점은 부류의 진전은 동료 모델들이 이로부터 진전될 수 있는 동료들을 자동적으로 선택하거나 정의하며, 등록 사용자 모집단이 증가하는 경우 필요한 때에만 추가적인 데이타의 수집 및 저장을 제공한다는 것이다.

또한 주의해야 할 점은 적어도 하나의 부류가 상기한 바와 같이 정의되고 생성된 후, 히스토그램(150)이 진전된 때 화자사이에 혼동을 발생시키는 테스트 데이타를, 있다면, 각 후보 화자가 할당되는 부류 또는 부류들과 비교할 수 있다는 것이다. 이러한 비교는 종종 단지 몇 초의 음성 또는 심지어 수백 프레임 후에야 사용가능한 결과들을 제공할 수 있다. 예컨대, 검사(예를 들면, 음성이 이전에 식별된 화자의 음성인지 여부에 대한 주기적인 테스팅)동안 이전에 식별된 화자가 속하는 부류이외의 부류라면, 검사는 실패한 것으로 간주될 수 있다. 이러한 가능성은 액세스가 초기 식별시에 허여된 후 검사가 실패한 때 보안 시스템에 대한 사용자의 액세스를 거절하는데 특히 유용하다. 식별을 위해서는, 둘 또는 제한된 수의 화자가 지배하게 되자 마자, 지배적인 화자들에 대응하는 한개 또는 두개의 부류내의 화자들만을 단지 추가적으로 고려할 필요가 있다. 단지 비교적 몇 초후 또는 작은 수의 프레임후에 행해지는 이러한 결정들은 모두 화자 인식 프로세스를 상당히 빠르게 한다.

다른 결정들은 또한 고속 매치 그리고/또는 상세한 매치 프로세싱을 용이하게하는 방식으로 행해질 수 있고, 이러한 다른 결정에 의해 가능한 또는 적어도 잠정적인 식별이 고속 매치 프로세싱만으로 이루어질 수 있다. 예컨대, 화자 1과 3에 대하여 대등한 카운트가 진전되고 있는 도 2b에 도시된 바와 같이, 후보 화자들이 동일한 부류에 속하지 않는다면(예컨대, 화자 3이,등록된 때, 화자 1을 포함하는 부류를 생성하지 못했다면), 보다 큰 히스토그램 정점과 연관된 화자는 비교적 몇개의 프레임에 근거한 고속 매치 프로세스에 의하여 대개 정확하게 선택되거나 잠정적으로 식별될 수 있는데( 또는 그들사이에 혼동이 존재하는 다른 화자들과 함게 분류되지 않은 화자들이 제거될 수 있는데), 왜냐하면 히스토그램 정점 크기의 차이가 추가적인 음성에 근거하여 나중에 전개될 것이라고 가정할 수 있기 때문이다. 본 발명의 이러한 특징에 의하면, 본 발명의 고속 매치 부분(100)에 의한 화자 인식 프로세스를 촉진시킬 수 있고, 화자 신원 검사 및 음성 인식을 위해 동료 및 음성 디코더(230)가 사용하도록 화자 의존적 모델(210)을 데이타베이스(300)로부터 호출할 수 있다.

데이타베이스(300)을 액세스하는 비교기(160)에 의해 탐지되는 바와 같이 화자들이 동일한 부류내에 있다면, 단일 부류의 모든 동료들에 대한 화자 의존적 모델들은 그 화자들을 구별하기 위해서 시간적으로 초기 시점에서 호출될 수 있는데, 이는 동료 및 음성 디코더(230)을 함께 포함하고 있는 화자 인식 엔진에 의해 행해진다. 주의해야 할 점은 이러한 부류 선택은 처리될 데이타를 사실상 고속 매치 부분(100)에 의해 혼동된 화자들을 구별하는데 필요한 데이타로 제한하고 결국 화자 의존적 모델에 대한 저장 공간 요구 조건뿐만 아니라 프로세싱 시간 및 오버헤드를 감소시키다는 것이다. 동료들은 혼동이 실제로 발생한 때에만 필요로 하게 되므로, 전체 저장 공간 요구 조건이 감소된다. 또한, 동료 모델(220)은 초기 시점에서 음성을 디코딩하는데 사용될 수 있는데, 왜냐하면 발음에 대한 모호한 디코딩은 동료들내에서 있을 것 같지 않기 때문이다.

음성 디코딩 엔진(230)은 바람직하게 연속 밀도 가우시안 혼합(continuous density Gaussian mixtures)과 함께 히든 마코프 모델(HMMs)을 이용하여 출력 분포(다시 말해, HMM 모델의 소정의 아크(arc)에서 소정의 음향 벡터를 관찰하는 확률 밀도 함수)를 모델링한다. MAP(maximum-a-posteriori) 추정 모델들 또는 재학습(re-training), 상관성에 의해 개조(adaptation by correlation:ABC), 최대 가능 직선 후퇴(maximum likelihood linear regression:MLLR) 혹은 클러스터된 변환(clustered transformation:CT)와 같은 다른 화자 의존적 알고리즘에 의해 개조된 모델들의 집합은 상이한 선적재(pre-loaded) 화자를 위하여 적재된다. 다음에, 각각의 선적재 시스템을 사용하여 동일한 계열(alignment)일 가능성을 계산한다. N개의 최상의 화자가 추출되고 선형 변환을 계산하여 선택된 선적재 화자 모델들 각각을 등록된 화자에 보다 근사하게 맵핑한다. 이러한 데이타를 사용하면, 새로운 가우시안(Gaussian)들이 새로운 화자에 대해 설정된다. 관찰되지 않은 가우시안들은 바람직하게 ABC 알고리즘을 사용하여 바뀌게 된다. 화자 인식동안, 화자 및 그 동료들에 의해 생성된 가능성들은 화자 의존적인 모델에 의해 생성된 동일한 계열에 대해 비교된다.

이러한 프로세스는 상당한 계산을 요할 수도 있지만, 동료들 사이를 분별하는데 사용되는 등록 데이타는 특히 텍스트 의존적 또는 텍스트 프롬프트적(text-prompted)이라면 실제로 상당히 제한될 수 있다. 이러한 후자의 경우, 고속 매치 식별 또는 검사가 성공하지 못하면, 식별 또는 검사는 텍스트 의존적인 방식으로 수행될 수 있다. 하지만, 상기에서 기술된 계열들의 계산 및 비교들은 식별 또는 원하면, 검사에 대하여 텍스트 비의존성을 허용한다. 따라서, 텍스트 비의존성은 대다수의 식별 및 검사 동작에 대하여 고속 매치 프로세싱에 의해 달성되지만, 상세한 매치 단계(200)에서 저장 요구 조건 및 계산 오버 헤드를 매우 낮은 수준으로 최소화하는 과정이 상기한 바와 같이 촉진된다.

상술한 점에서 보아, 고속 매치 부분과 상세한 매치 부분을 결합하는 본 발명의 혼성 시스템은 저장 공간 요구 조건을 거의 증가시키지 않고 매우 고속 화자 식별을 제공하는데, 왜냐하면 상세한 매치 단계의 프로세싱은 일반적으로 코드북의 저장 공간을 보상하고도 남을 만큼 저장 공간 요구 조건의 감소를 허용하고, 대개 화자 의존적 모델들은 각 화자의 음성을 보다 충분히 특징지우기 위한 것보다는 오히려 주로 그룹의 화자들사이를 구별하기 위해 설정될 수 있기 때문이다. 등록, 식별 및 화자 신원의 검사는 화자사이의 작은 수의 차이에 대한 저장 공간을 제한하는데 텍스트 의존성이 사용될 수 있는 정도까지를 제외하고는 사용자에게 투명한 방식으로 수행된다. 혼성 구성의 고속 매치와 상세한 매치 부분은 서로서로의 동작을 촉진시키고 동료들의 자동적인 처리를 제공하고 효율적인 탐색 전략을 지원하며 프로세싱 오버헤드는 효율적인 탐색 전략에 의해 보충되는 각 부분내에서 처리될 데이타를 줄임으로써 제한된다. 이러한 이점들은 사용자 모집단이 매우 커짐에 따라 유지된다.

본 발명은 단일 실시예의 관점에서 기술되고 있지만, 당업자라면 본 발명이 첨부된 청구항의 사상 및 범위내에서 변형해서 실시될 수 있음을 인식할 것이다.

따라서, 본 발명에 의하면, 텍스트 비의존적이고 등록후 사용자에게 투명한, 큰 모집단의 등록 사용자중에서 개별 등록 사용자를 고속으로 분별하기 위한 시스템을 제공할 수 있으며, 또한 정확도의 감소없이 큰 화자 모집단에 대한 고속의 화자 인식을 제공할 수 있다.

Claims

화자를 식별하는 방법에 있어서, ① 등록 화자의 그룹들을 형성하는 단계와, ② 화자 또는 등록 화자의 상기 그룹들중에서 특정 발음의 화자를 가장 포함할 것 같은 화자들의 그룹을 식별하는 단계와, ③ 화자들의 상기 그룹내에서 화자 의존적 모델에 대하여 발음을 매칭시켜서 상기 발음의 화자의 신원을 결정하는 단계를 포함하는 화자 식별 방법.
제 1 항에 있어서, 상기 그룹 식별 단계는 상기 발음의 상기 화자에 대한 잠정적인 식별을 행하는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서, 적어도 상기 식별 단계는 상기 발음의 화자가 상기 식별 단계에 의해 이전에 식별된 화자인지를 검사하는 단계를 포함하는 화자 식별 방법.
제 1 항에 있어서, 상기 그룹 형성 단계는, ① 등록동안 새로운 화자의 발음들을 나타내는 특성 벡터들을 클러스터링하여 상기 새로운 화자에 대한 코드북을 형성하는 단계와, ② 상기 특성 벡터들을 이전에 등록된 화자에 대한 코드북들에 대하여 디코딩하는 단계와, ③ 상기 새로운 화자와 상기 이전에 등록된 화자사이에 잠재적인 혼동이 탐지된 때에 상기 새로운 화자와 이전에 등록된 화자를 하나의 부류(class)로 결합하는 단계를 더 포함하는 화자 식별 방법.
제 4 항에 있어서, 한 그룹내에 결합된 화자들을 구별할 수 있도록 화자 의존적 모델을 진전시키는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서, 상기 매칭 단계는 텍스트 의존적인 화자 식별 방법.
제 2 항에 있어서, 상기 잠정적 식별 단계는, ① 인식을 위하여 적어도 2 명의 후보 화자를 결정하는 단계와, ② 상기 후보 화자들이 한 그룹내에 결합되어 있지 않다면 상기 후보 화자중 가장 가능성 있는 후보를 선택하는 단계를 더 포함하는 화자 식별 방법.
제 2 항에 있어서, 상기 잠정적 식별 단계는, ① 인식을 위하여 적어도 3 명의 후보 화자들을 결정하는 ― 상기 적어도 3 명의 후보 화자들중 적어도 2 명이하가 모두 한 부류내에 결합되어 있음 ― 단계와, ② 상기 적어도 3 명의 후보 화자들중에서 상기 그룹내에 결합되어 있지 않는 후보 화자를 제거하는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서, 상기 화자 또는 화자들의 그룹을 식별하는 단계와 상기 발음 매칭 단계는 계층적으로(hierarchically) 수행되는 화자 식별 방법.
제 3 항에 있어서, 상기 검사 단계는 발음의 화자가 상기 이전에 식별된 화자와 공통된 부류내에 있는지 여부를 결정하는 단계를 포함하는 화자 식별 방법.
제 10 항에 있어서, 상기 매칭 단계를 반복하여 상기 검사 단계를 종료시키는 단계를 더 포함하는 화자 식별 방법.
제 1 항에 있어서, 추가적인 발음의 화자가 상기 식별 단계에 의해 식별되거나 적어도 상기 식별 단계를 반복함으로써 상기 매칭 단계에 의해 식별된 화자인지 여부를 검사하는 단계를 더 포함하는 화자 식별 방법.
제 12 항에 있어서, ① 상기 추가적인 발음의 화자가 상기 식별 단계 또는 상기 매칭 단계에 의해 식별된 상기 화자를 포함하지 않는 화자들의 그룹의 구성원일 가능성이 상기 추가적인 발음의 화자가 상기 식별 단계 또는 상기 매칭 단계에 의해 식별된 상기 화자일 가능성보다 큰지 여부를 결정하는 단계와, ② 종결하고 상기 검사 단계의 실패를 표시하는 단계를 더 포함하는 화자 식별 방법.
제 9 항에 있어서, 상기 식별 단계는 벡터 클러스터링에 의해 수행되는 화자 식별 방법.
제 9 항에 있어서, 상기 매칭 단계는 교육된, 화자 의존적 모델을 사용하여 상기 발음을 디코딩하고 가장 근사한 모델이 교육되어지는 화자를 화자로서 식별함으로써 수행되는 화자 식별 방법.
화자 인식 장치에 있어서, ① 발음의 프레임들을 샘플링하고 상기 발음의 프레임들중 각 프레임에 대한 가장 근사한 화자를 결정하기 위한 수단으로서, 상기 샘플링 수단이 상기 발음의 화자와 1 명이상의 이전에 등록된 화자사이의 잠재적인 혼동을 탐지하기 위한 수단을 포함하는 수단과, ② 상기 잠재적 혼동 탐지 수단에 응답하여 상기 화자와 상기 이전에 등록된 화자를 구별하도록 화자 의존적 모델을 진전시키기 위한 수단을 포함하는 화자 인식 장치.
제 16 항에 있어서, ①상기 잠재적 혼동 탐지 수단에 응답하여 화자들의 그룹을 형성하기 위한 수단과, ② 상기 샘플링 수단에 응답하여 제한된 수의 그룹에 대한 화자 의존적 모델에 대하여 발음을 매칭시키기 위한 수단을 더 포함하는 화자 인식 장치.
제 16 항에 있어서, 상기 샘플링 수단이 새로운 화자를 등록하기 위한 수단을 포함하는 화자 인식 장치.