KR19990022391A

KR19990022391A - 화자 대조 시스템

Info

Publication number: KR19990022391A
Application number: KR1019970708871A
Authority: KR
Inventors: 리처드 제이. 마몬; 캐빈 패럴; 매니쉬 샤마; 나이크 데방; 지아오유 장; 칼드 아살레; 한승 리오우
Original assignee: 애덤스 윌리엄 티.; 러트거스 유니버시티
Priority date: 1995-06-07
Filing date: 1996-06-06
Publication date: 1999-03-25
Also published as: EP0870300A1; TR199701555T1; JPH11507443A; NO975475L; FI974339A0; IL122354A; RU2161336C2; NZ311289A; CA2221415A1; WO1996041334A1; NO975475D0; IL122354A0; AU711496B2; FI117954B; AU6257696A; NO321125B1; EP0870300B1; ATE323934T1; CN1197526A; US5839103A

Abstract

본 발명은 패턴 인지 시스템(도 1)에 관한 것으로써 다수의 추출된 특징들(60, 61, 62) 및 다수의 분류기(70, 71, 72)로부터의 데이터를 결합하기 위하여 데이터 융합을 사용한다. 화자 패턴은 식별기반의 그리고 왜곡기반의 분류기들의 결합에 의하여 정확히 검증될 수 있다. 리브 완 아웃(leave one out) 데이터의 트레이닝 세트를 사용하는 새로운 기법은 감소된 데이터 세트(도 7A, 7B, 7C)를 가지는 시스템을 트레이닝하기 위하여 사용될 수 있다. 추출된 특징들은 채널 효과를 줄이기 위한 폴 필터된 방법(pole filtered method)(도 11B) 및 트레이닝과 테스팅 데이터 사이의 상관관계를 개선하기 위한 어파인(affine) 변환(도 14)을 가지고 개선될 수 있다.

Description

화자 대조 시스템

패턴 인지는 언어, 화자 또는 이미지와 같은 패턴을 인지하는 것과 관련이 있다. 인지된 화자 패턴은 발화로부터 어떤 화자가 존재하는 지를 결정하기 위하여 화자 인지 시스템에서 사용될 수 있다.

화자 대조 시스템의 목적은 발화로부터 화자의 주장된 동일성을 검증하기 위한 것이다. 화자 대조 시스템으로의 발화 입력은 텍스트 종속 또는 텍스트 독립일 수 있다. 텍스트 종속인 화자 대조 시스템은 예정된 구 또는 패스워드의 발화 후에 화자를 식별한다. 텍스트 독립인 화자 대조 시스템은 발화에 무관하게 화자를 식별한다. 사용자 관점에서 보면 종래의 텍스트 독립인 시스템은 패스워드가 필요 없다는 점에서 더욱 편리하다.

화자 정보의 특징추출은 각 음성의 프레임에 가중치를 주는 적응 성분을 사용하는 변조 모델을 가지고 수행되었는데, 이것은 본 출원의 양수인에게 양도되었고 여기에서 참조문헌으로 인용된 미국출원 제 08/203,988호인 화자 인지 대조 시스템에 기술되어 있다. 적응 성분 가중방법은 비음성 계열의 성분들을 감쇠시키며 채널상의 개선된 화자 인지를 위한 음성 성분을 정규화한다.

다른 종래의 특성 추출법들은 주파수 스펙트럼으로부터 켑스트럴(cepstral) 계수 또는 선형 예측에서 파생된 스펙트럼형의 코딩 계수를 결정하는 것을 포함한다. 신경 트리 네트웍(NTN)은 식별 기반의 화자간 인자들을 결정하기 위하여 화자 독립인 데이터와 함께 사용되어 왔다. NTN은 계층적 분류기로써 결정 트리 및 신경망의 특징들을 결합하며, A. Sankar 및 R.J. Mammone, Growing and Pruning Neutral Tree Networks, IEEE Transaction on Computers, C-42:221-229, March 1993에 기술되어 있다. 화자 인지에 대하여, NTN에 대한 트레이닝 데이터는 다른 화자로부터의 데이터 및 희망하는 화자에 대한 데이터로 구성된다. NTN은 특징 공간을 할당된 가능성인 영역들로 분할하는데, 이는 화자가 얼마나 화자 영역 내에 해당하는 특징 벡터를 생성할 것인가를 반영하는 것이다. 텍스트 독립인 시스템은 화자의 음향 특징을 모델링하고 평가하기 위한 막대한 양의 데이트를 요구하는 단점을 가진다.

미국 특허 제 4,957,961은 신경망에 관하여 설명하는데, 연결된 워드를 신뢰성 있게 인지하기 위하여 기꺼이 트레인될 수 있다. 동적 프로그래밍 기법은 입력 층의 입력 뉴런 유닛이 다수층 신경망으로 그룹화 되는 곳에 사용된다. 입력 패턴을 인지하기 위하여, 각 특성 벡터의 벡터 성분들은 세 개의 연속번호가 부여된 입력 층 프레임들로부터 선택된 입력 층들 중의 하나에 대한 각 입력 뉴런 유닛에게 제공된다. 중간층은 적어도 두 개의 입력 층 프레임들에 대한 입력 뉴런 유닛들을 연결한다. 출력 뉴런 유닛은 중간층에 연결된다. 조절 층은 중간층에 연결되어 출력 유닛이 출력 신호를 만들어내도록 입력과 중간 및 중간과 출력간의 연결을 조정한다. 신경망은 조정 유닛이 출력 신호를 최대화할 때 예정된 패턴으로써 입력 패턴을 인지한다. 약 40번의 트레이닝은 동적 신경망을 트레인하기 위하여 각 음성 인지 패턴과 관련하여 사용된다.

대조 시스템을 트레이닝 및 테스팅하기 위하여 필요한 데이터의 양이 텍스트 종속인 화자 발성을 사용함으로써 감소될 수 있다는 것이 발견되었다. 어떤 종래의 텍스트 종속인 화자 대조 시스템은 왜곡에 기초한 특성들의 진단을 시간정렬하기 위하여 동적 타임 워핑(time warping)을 사용하며, 이에 대하여는 S. Furui, Cepstral Analysis Technique For Automatic Speaker Verification, IEEE Transactions on Acoustics, Speeck, and Signal Processing, ASSP-29:254-272, April 1981을 참조할 수 있다. 참조 템플릿은 테스팅 동안 패스워드의 여러 번의 발성으로부터 생성된다. 화자의 주장된 신원을 인용 또는 거절하기 위한 결정은 화자의 발성의 왜곡이 예정된 임계치 이하로 떨어지는지 아닌지에 따라 이루어진다. 이 시스템은 정확성이 떨어지는 결점을 가진다.

히든 마코브 모델(HMM)을 사용하는 또다른 기법은 DTW 시스템에 대한 개선된 성능을 제공하는데, 이는 J.J. Naik, L.P. Netsch, 그리고 G.R. Doddington, Speaker Verification Over Long Distance Telephone Lines, Proceedings ICASSP (1989)에 기술되어 있다. HMM의 몇몇 형태는 텍스트 종속의 화자 대조에 사용되어 왔다. 예를 들어, 화자 대조를 위하여 고려되어 왔던 것으로 A.E. Rosenberg, C.H. Lee 및 F.K. Soong, Subword Unit Talker Verification Using Hidden Markov Models, Proceedings ICASSP, 269-272쪽 (1990)에 기술된 서브워드 모델 그리고 A.E. Rosenberg, C.H. Lee 및 S. Gokeen, Connected Word Talker Recognition Using Whole Word Hidden Markov Models, Proceedings ICASSP, 381-384쪽 (1991)을 들 수 있다. HMM 기법은 일반적으로 모델 인자들을 충분히 평가하기 위하여 많은 양의 데이터를 요구하는 한계를 가진다. DTW 및 HMM 시스템의 한가지 일반적인 단점은 그들은 오직 화자를 모델링할 뿐이며 그 시스템들을 사용하는 다른 화자들로부터 모델링 데이터를 설명하지 않는 다는 것이다. 식별 트레이닝의 실패는 악의의 제 3자가 이 시스템에 침입하기가 쉽다는 것이다.

바람직한 패턴 인지 시스템은 다수의 추출된 특성들이 패턴 인지의 정확성을 개선시키기 위한 예정된 다수의 분류기들로 결합될 수 있어야 한다.

발명의 요약

간단히 설명하여, 본 발명은 예를 들어, 이하에서 설명하는 리브 완 아웃(leave one out) 기법에 의한 트레이닝 데이터의 다르고 중첩된 기판을 가지고 트레인된 분류기들을 포함하는 다수의 분류기들의 추출된 다수의 특성들을 결합하는 패턴 인지 시스템을 포함한다. 바람직하게는, 이 패턴 인지 시스템은 화자 대조를 위하여 사용되는데, 여기에서 특성들은 화자에 의하여 발성되는 음성으로부터 추출된다. 다수의 분류기들은 추출된 특성들을 분류하기 위하여 사용된다. 분류된 출력은 화자에 의하여 발성된 음성 및 그 화자에 대하여 미리 저장된 음성과의 유사성을 인지하기 위하여 융합된다. 융합되고 분류된 출력으로부터 화자를 인용할 것인가 또는 거절할 것인가에 관한 결정이 이루어진다. 가장 바람직하게는, 음성은 발성된 패스워드의 대조를 위한 동적 타임 워핑 분류기 및 다른 화자들로부터의 식별을 위한 수정된 신경 트리망 분류기의 융합을 가지고 분류된다. 화자 대조 시스템에서 식별 트레인된 분류자의 사용은 다른 화자들로부터 한 화자를 정확하게 식별하는 이점을 가진다.

또한 시스템은 화자에 의하여 발성된 워드(즉, 화자의 패스워드)의 워드 인지를 수행하는 것에 기초하여 화자를 인용하거나 거절하는 예비 결정을 하는 것을 포함한다. 만약 화자의 패스워드가 인용되면, 분류기들이 인에이블 된다. 바람직하게는, 분류기들은 다수의 발성을 발성중의 하나를 가지는 분류기에 가함으로써 트레인된다. 발성은 화자를 식별하기 위하여 0 및 1 사이의 가능성을 결정하기 위하여 분류기로 가해질 수 있다. 이 가능성은 화자를 인용할 것인가 또는 거절할 것인가에 대한 결정을 하기 위한 분류기 임계값과 비교될 수 있다.

화자에 의하여 발성되는 텍스트는 화자 독립 또는 화자 종속일 수 있다. 또한 추출된 특성들은 서브워드들로 분할될 수 있다. 바람직하게는, 이 서브워드는 음소이다. 각 서브워드는 적어도 하나의 분류기를 가지고 모델링될 수 있다. 서브워드 기반의 분류기들로부터의 출력은 서브워드 기반의 대조 시스템을 제공하기 위하여 융합될 수 있다.

바람직하게는, 그 특성들은 음성에서의 채널 효과를 줄이기 위하여 폴 필터링 방법(pole filtering method)으로 추출될 수 있다. 또한, 추출된 특성들은 트레이닝 및 테스팅 변환 사이의 불일치를 감소시키기 위한 어파인 변환(affine transformation)을 가지고 조절될 수 있다.

본 발명은 다음의 도면을 참조함으로써 더 완벽하게 설명될 것이다.

본 발명은 패턴 인지 시스템에 관한 것이며, 특히, 다수의 추출된 특징 및 주장된 동일성을 검증하는 다수의 분류기로부터의 데이터를 결합하기 위하여 데이터 융합을 사용하는 화자 대조 시스템(speaker verification system)에 관한 것이다.

도 1은 본 발명의 개시에 따른 화자 대조 시스템의 개략도.

도 2A는 시스템의 트레이닝동안 도 1에 도시된 워드 인지 모듈에 관한 개략도.

도 2B는 시스템의 테스팅동안 도 1에 도시된 워드 인지 모듈에 관한 개략도.

도 3은 다수의 분류기들을 가지며 다수의 추출된 특성들을 결합하는 화자 대조 모듈에 관한 개략도.

도 4는 도 1에 도시된 화자 대조 모듈에 사용된 동적 타임 워핑 분류기들 및 수정된 신경 트리망의 조합에 관한 개략도.

도 5는 도 1에 도시된 화자 대조 모듈에서 사용된 수정된 신경 트리망(MNTN)에 관한 개략도.

도 6은 도 1에 도시된 화자 대조 모듈에 사용된 동적 타임 워핑(DTW) 분류기에 관한 개략도.

도 7A는 화자 대조 모듈의 트레이닝에 사용되는 다수의 발성에 관한 개략도.

도 7B는 화자 대조 모듈에서 도 7A에 도시된 다수의 발성의 애플리케이션에 관한 개략도.

도 8은 화자 및 다른 화자 점수에 관한 그래프.

도 9는 서브워드 기반의 화자 대조 시스템에 관한 개략도.

도 10A는 트레이닝 동안 서브워드 기반의 분류 시스템에 관한 개략도.

도 10B는 테스팅 동안 서브워드 기반의 분류 시스템에 관한 개략도.

도 11A는 선행기술인 채널 정규화 시스템에 관한 개략도.

도 11B는 본 발명의 채널 정규화 시스템에 관한 개략도.

도 12는 폴 필터링 채널 정규화에 관한 그래프.

도 13A는 음성 프레임의 스펙트럼들에 관한 그래프.

도 13B는 본 발명의 정규화 시스템에 대한 음성의 프레임과 선행기술인 정규화 시스템으로부터의 프레임을 비교한 스펙트럼들에 관한 그래프.

도 14는 어파인 변환 시스템에 관한 개략도.

본 상세한 설명 중에 동일한 번호는 본 발명을 나타내는 다른 도면에 관한 동일한 요소들을 나타낸다.

도 1은 본 발명의 개시에 따른 화자 대조 시스템(10)의 실시예에 관한 개략도이다. 화자(11)는 음성(12)을 발성한다. 음성(12)은 음성 입력 신호(13)로써 특성 추출 모듈(14)로 가해진다. 특성 추출 모듈(14)은 음성 입력 신호(13)의 특성 인자들을 나타내는 음성 특성 벡터(15)를 결정한다. 바람직하게는, 음성 특성 벡터(15)는 선형 예측(LP) 켑스트럴 계수들을 결정하기 위하여 LP 분석을 가지고 결정된다. LP 켑스트럴 계수들은 개선된 켑스트럴 계수의 인지를 제공하기 위한 종래의 기법들을 가지는 고양된 사인 윈도우를 사용하는 리프터된 통과폭일 수 있다.

대안으로써, 또는 LP 분석과 결합하여, 특성 추출 모듈(14)은 다수의 방법을 가지고 특성들을 추출할 수 있다. 예를 들어, 전기 미국특허출원 제 08/203,988호에 기술된 적응성분 가중 방법은 음성 특성 벡터(15)를 추출하기 위하여 사용될 수 있다. 적응성분 가중 기법은 비음성 계열의 효과를 줄이면서 신호의 음성 계열의 특성을 개선하는 정규화된 스펙트럼을 만들어내기 위한 음성 입력 신호(13)의 예정된 성분들에 가중치를 가함으로써 추출된 특성들을 강화한다. 특성 추출 모듈(14)은 또한 로그 영역 비, 라인 스펙트럼 쌍 그리고 반사 계수와 같은 종래의 방법들을 사용하는 선형 예측(LP) 계수들로부터의 선형 예측으로 유도된 다른 특성들을 생성할 수 있다. 특성 추출 모듈(14)은 또한 선형 및 로그 주파수 범위, 기본 주파수(피치), 라우드니스(loudness) 계수 그리고 제로 크로싱 율 상에서 급속 푸리에 변환(FFT)으로 유도된 스펙트럼들의 특성들을 생성할 수 있다.

워드 인지 모듈920)은 음성 특성 벡터(15)를 받으며 음성 특성 벡터(15)를 음성 특성 벡터(15)와 관련한 데이터(16)와 비교한다. 데이터(16)는 데이터베이스(50)에 저장될 수 있다. 예를 들어, 화자(11)는 음성(12)으로써 패스워드를 발성할 수 있다. 음성 특성 벡터(15)는 화자(11)에 대한 패스워드의 발성을 나타낸다. 폐쇄된 패스워드 세트는 데이터(16)에 의하여 표현되며 데이터베이스(50)에 저장된다. 패스워드의 폐쇄된 세트는 화자 신분 세트에 상응하며, 화자(11)에 대한 패스워드를 포함한다. 워드 인지 모듈(20)에서, 만약 워드 인지 모듈(20)에서 수신된 음성 특성 벡터(15)가 데이터베이스(50)에 저장된 데이터(16)와 일치하면 (예를 들어, 주장된 신분에 대한 패스워드의 일치), 화자 대조 모듈(30)은 인에이블이다. 만약 수신된 음성 특성 벡터(15)가 데이터베이스(50)에 저장된 데이터(16)와 일치하지 않으면(예를 들어, 주장된 신분에 대한 데이터베이스(50)에 저장된 패스워드의 불일치), 사용자(11)는 모듈(21)에서 다시 호출하도록 촉구될 수 있다.

화자 대조 모듈(30)은 바람직하게는 음성 특성 벡터(15)를 가지는 다수의 분류기들을 결합하기 위하여 데이터 융합을 사용하며, 이 기법은 이하에서 상세히 설명된다. 화자 대조 모듈(30)의 융합된 분류기 출력(35)은 결정 융합 로직 모듈(40)에서 수신된다. 결정 융합 로직 모듈(40)은 화자(11)의 주장된 신분을 인용할 것인가 또는 거절할 것인가에 대한 최종 결정을 하며, 이로써 화자의 주장된 신분을 검증한다.

도 2A 및 도 2B는 각각 화자의 등록동안 그리고 화자의 테스팅동안의 워드 인지 모듈(20)을 나타낸다. 화자 대조 시스템(10)에서 화자(11)의 등록동안, 트레이닝 음성(22)은 화자(11)에 의하여 발생된다. 예를 들어, 트레이닝 음성(22)은 화자(11)에 대한 패스워드의 4회 반복을 포함한다. 각 반복은 워드 일치 인지 모듈(28)을 가지고 인지된다. 바람직하게는, DTW 기반의 템플릿 일치 알고리즘은 인지된 워드(23)를 만들어내기 위하여 워드 인지 모듈(28)에서 사용된다. 인지된 워드(23)는 화자 종속의 템플릿(24)으로 클러스터된다. 화자 독립인 템플릿(26)은 또한 화자 대조 시스템(10)을 사용하는 다른 화자(25)에 의하여 발성되는 동일한 트레이닝 음성(22)의 반복에 관한 데이터 및 인지된 데이터(23)를 가지고 발생될 수 있다. 워드 인지 일치 모듈(28)로부터 인지된 워드(23) 상의 다수결 원칙은 화자(11)에 대한 사용자의 패스워드(27)를 식별하기 위하여 사용될 수 있다.

화자(11)의 테스팅동안, 음성(12)은 사용자(11)에 의하여 발성되며 워드 인지 일치 모듈(28)에서 화자 종속된 템플릿(26) 및 화자 종속된 템플릿(24)과 비교된다. 만약 음성(12)이 화자(11)의 패스워드(27)를 나타내고 화자 종속된 워드 템플릿(24) 또는 화자 독립인 워드 템플릿(26)의 어느 것과 일치하면, 인용 반응이 라인(29)으로 출력된다. 만약 음성(12)이 화자 종속된 워드 템플릿(24) 또는 화자 독립인 워드 템플릿(26)의 어느 것과도 일치하지 않으면, 거절 반응이 라인(29)으로 출력된다.

바람직하게는, 화자 대조 모듈(30)은 도 3에서 보듯이, 다수의 추출된 특성들(60,61,62)과 다수의 분류기(70,71,72)를 결합한다. 특성(60,61,62)은 상기의 다양한 예정된 추출방법을 가지고 추출된 음성 특성 벡터들(15)을 표현할 수 있다. 분류기들(70,71,72)은 예를 들어, 신경 트리망(NTN), 멀티층 인지(MLP), 히든 마코브 모델(HMM), 동적 타임 워핑(DTW), 가우시안 믹스처 모델(GMM), 그리고 벡터 양자화(VQ)와 같은 다양한 예정된 분류 방법들을 나타낼 수 있다. 대안적 실시예에서, 특성(60,61,62)은 음성 또는 이미지와 같은 대안적 패턴의 추출 특성을 나타낼 수 있으며 분류기(70,71,72)는 음성 또는 이미지 패턴에 대한 예정된 분류 방법을 나타낼 수 있다. 각 분류기(70,71,72)로부터의 출력(73,74,75)은 화자(11)를 인용할 것인지 또는 거절할 것인지를 결정하기 위한 최종 결정을 하기 위하여 의사결정 융합 로직 모듈(40)로 결합될 수 있다. 의사결정 융합 모듈(40)은 선형 의사 풀, 로그 의사 풀, 배이시안 조합 룰; 분류기(70,71,72)를 결합하기 위한 부가적인 분류기 또는 투표 방법과 같은 종래의 기법을 사용할 수 있다. 몇 개의 특성 또는 분류기도 결합될 수 있다는 것을 이해해야 한다. 분류기들은 또한 예를 이하에서 설명하는 한 개를 추출하는 기법과 같은 트레이닝 데이터의 다르고 중첩된 기판을 가지고 트레인된 분류기들을 포함한다.

도 4는 본 발명의 화자 대조 시스템에서 사용하기 위한 바람직한 화자 대조 모듈(30)을 나타내고 있다. 음성 특성 결정기(102)는 신경 트리망(NTN) 분류기들(104,106,108,110) 및 동적 타임 워핑(DTW)(120,122,124,126)으로 입력된다. 분류 동안, 각 NTN 분류기(104,106,108,110,126)는 특성 벡터(102)가 예정된 각 임계치인 데이터베이스(132)에 저장된 NTN의 T_NTN이상인지의 여부를 결정한다. 각 DTW 분류기(120,122,124,126)는 특성 벡터(102)가 예정된 데이터베이스(132)에 저장된 DTW의 T_DTW이상인지의 여부를 결정한다. 만약 특성 벡터(102)가 각 임계치인 T_NTN및 T_DTW이상이면, 1의 이진 출력이 라인(240,241)에 각각 출력된다. 만약 특성 벡터(102)가 각 임계치인 T_NTN및 T_DTW미만이면, 0의 이진 출력이 라인(240,241)에 각각 출력된다.

화자 대조 시스템(10)을 가지고 화자(11)의 테스팅을 하는 동안, 의사결정 모듈(40)은 라인(240,241)으로부터 이진 출력을 수신한다. 의사결정 모둘(40)의 바람직한 실시예에서, 화자(11)를 인용할 것인지 또는 거절할 것인지를 결정하기 위하여 다수결의 원칙이 의사결정 모듈(240)의 이진 출력에 대하여 적용될 수 있다. 만약, 이 실시예에서, 이진 출력의 다수가 1이면, 화자는 인용되며, 이진 출력의 다수가 0이면, 화자는 거절된다.

수정된 신경 트리망(MNTN)(200)으로써 설계된 바람직한 분류기는 화자 대조 모듈(30)에서 식별 기반의 분류기로써 사용될 수 있다. MNTN(200)은 도 5에서 보듯이 다수의 상호연결 노드(202,204,206)를 가진다. 노드(204)는 리프 노드(208,210)와 결합되며 노드(206)는 리프 노드(212,214)와 결합한다. 가능성 측정은 리프노드(208,210,212,214)에서 사용되는데, 예정된 수준을 초과하여 MNTN(200)의 성장을 절단함으로써 트리의 포워드 전지작업(forward pruning)를 하기 때문이다.

MNTN(200)은 화자 대조 시스템(10)을 사용하는 다른 화자들(25)로부터의 데이터(201)를 가함으로써 화자(11)에 대하여 트레인되기 때문이다. S로 표시된 화자(11)에 대한 추출된 특성 결정기(15)들은 1의 라벨이 할당되며, 화자 대조 시스템(10)을 사용하는 다른 화자(25)에 대한 추출된 특성 결정기(15)들은 0의 라벨이 할당된다. 데이터(220,230,240,250)는 각각 추출된 특성 결정기들의 리프 노드(208,210,212,214)에게로 가해진다. 결정기는 리프 노드들(208,210,212,214) 각각에서 취해진다. 리프 노드들(208,210,212,214) 각각은 결정기의 다수결(majority)이라는 라벨이 할당된다. 신뢰도는 총 수의 라벨에 대한 다수결이라는 라벨이 붙은 수의 비율로 정의된다. 예를 들어, 여덟 개의 0 특성들을 포함하는 데이터(220)는 0의 라벨 및 1.0의 신뢰도가 할당된다. 여섯 개의 1 특성들을 포함하는 데이터(230)는 1의 라벨 및 0.6의 신뢰도가 할당된다.

트레인된 MNTN(200)은 음성(12)에 대한 일련의 특성 벡터들로부터의 상응하는 화자 스코어를 결정하기 위하여 화자 대조 모듈(30)에서 사용될 수 있다. 상응하는 화자 스코어 P_MNTN(X/S_i)는 다음의 수식을 가지고 결정될 수 있다.

P_MNTN(X/S_i) = (

c_j ¹

)/(

c_j ⁰

+

c_j ¹

)

여기에서 화자(11)는 S_i로 표시되며, C¹은 화자(11)의 신뢰도 스코어이며, C⁰은 다른 모드 화자들에 대한 신뢰도 스코어이다. M 및 N은 각각 1 및 0으로 분류된 벡터들의 수에 상응한다.

바람직한 DTW 분류기는 도 6에 도시된 바와 같이 두 개의 파형 또는 두 개의 특성 패턴을 타임 정렬하기 위한 왜곡 기반의 접근방식을 사용한다. 파형들은 X 축상의 음성 특성 벡터(15)의 참조 패턴 및 Y 축상의 음성 특성 벡터(15)의 테스트 패턴에 의하여 표현되며, 여기에서 N은 참조 패턴들의 수를 나타내며 M은 테스트 패턴의 수를 나타낸다. 전역 제한(270,271,272,273)은 동적 타임 워핑 경로(275)에 대한 제한을 나타낸다. 동적 타임 워핑 경로(275)는 Sakoe 및 S. Chiba, Dynamic programming algorithm optimization for spoken word recognition, IEEE Trans. on Acoustics, Speech and Signal Processing, vol. ASSP-26, no. 1, 43-49쪽, Feb. 1978에 기술된 것과 같은 종래의 방법에 의하여 결정될 수 있다.

화자에 관한 정보를 제공하기 위한 왜곡 방법에 기초한 분류기 즉, DTW 분류기와 화자 대조 시스템(10)을 사용하는 다른 화자들에 관한 화자와 관련이 있는 정보를 제공하기 위한 식별 방법에 기초한 분류기 즉, NTN 또는 MNTN 분류기들을 결합하는 것이 바람직하다. 또한 DTW 분류기와 MNTN 또는 NTN 분류기의 융합이 갖는 이점은 DTW 분류기가 일반적으로 NTN 또는 MNTN 분류기의 일부가 아닌 임시적 정보를 제공한다는 것이다.

NTN 분류기(104,106,108,110) 및 DTW 분류기(120,122,124,126)는 도 7A 및 7B에 도시된 트레이닝 모듈(300)을 가지고 트레인될 수 있다. 트레이닝 모듈(300)은 또한 MNTN 분류기, DTW 분류기 및 화자 대조 모듈(30)에서 사용될 수 있는 다른 분류기를 트레이닝하기 위하여 사용될 수 있다. 리브 완 아웃(leave one out) 기법이라고 표현되는 리샘플링(resampling) 기법은 바람직하게는 트레이닝 모듈(300)에 사용된다. 예정된 수의 트레이닝 발성의 수는 화자(11)로부터 받는다. 이 실시예에서, 화자의 패스워드와 같이 음성(22)의 네 개의 발성(302,304,306,308)이 사용된다. 네 개의 발성 중에서 하나의 발성을 제외한 세 개의 조합은 NTN 분류기(104,106,108,110) 및 DTW 분류기(120,122,124,126)의 쌍에게로 가해진다. 세 개의 발성은 분류기들을 트레이닝하기 위하여 사용되며 나머지 발성은 독립 테스트의 경우에 사용된다. 예를 들어, 발성(302,304,306)은 NTN 분류기(104) 및 DTW 분류기(120)로 가해지며, 발성(304,306,308)은 NTN 분류기(106) 및 DTW 분류기(122)로 가해지며, 발성(302,306,308)은 NTN 분류기(108) 및 DTW 분류기(124)로 가해지며, 발성(302,304,308)은 NTN 분류기(110) 및 DTW 분류기(126)로 가해질 수 있다.

세 개 발성을 NTN 분류기(104,106,108,110) 및 DTW 분류기(120,122,124,126)의 쌍 각각에게 가한 후, 제외된 발성은 도 7C에서 보는 바와 같이 NTN 분류기(104,106,108,110) 및 DTW 분류기(120,122,124,126)의 각 쌍에게 가해진다. 예를 들어, 발성(308)은 NTN 분류기(104) 및 DTW 분류기(120)로 가해지며, 발성(302)은 NTN 분류기(106) 및 DTW 분류기(122)로 가해지며, 발성(304)은 NTN 분류기(108) 및 DTW 분류기(124)로 가해지며, 발성(306)은 NTN 분류기(110) 및 DTW 분류기(126)로 가해진다. 310, 312, 314 및 316으로 표시된 0과 1 사이의 가능성(P)이 계산된다. 의사결정 융합 로직 모듈(40)의 결정 모듈(321)에서 가능성(310,312,314,316)은 T_DTW와 그리고 가능성(317,318,319,320)은 T_NTN과 비교된다.

도 8은 임계치 T_DTW및 T_NTN과 같은 화자 대조 시스템(10)에서 사용되는 분류기들에 대한 임계치를 결정하기 위하여 사용될 수 있는 화자(11)로부터의 화자간 스코어(interspeaker score) 및 다른 화자로부터의 화자내의 스코어(intraspeaker score)에 관한 그래프이다. 음성(12)에 대한 화자(11)의 화자간 스코어는 평균 화자 스코어(351)를 가지는 그래프(350)에 의하여 표현된다. 음성(12)에 대한 다른 화자(25)의 화자내의 스코어는 평균 화자 스코어(361)를 가지는 그래프(360)에 의하여 표현된다. 임계치(T)는 다음의 식에 의하여 결정된다.

T = x * interspeaker + y * interspeaker

소프트 스코어(soft score)(S)는 음성(12)이 임계치(T)의 이상 또는 이하인 양에 의하여 결정될 수 있다. 각 분류기의 스코어(C)는 0과 1 사이인데, 가장 신뢰도 있는 거절에 대하여 0이고 가장 신뢰도 있는 인용에 대하여 1이다. 인용 계수(C_accept)는 임계치(T)와 1 사이이며, 다음의 식에 의하여 구해진다.

C_accept=

거절 계수(C_reject)는 임계치(T)와 0 사이이며, 다음의 식에 의하여 구해진다.

C_reject=

도 9는 서브워드 기반의 화자 대조 시스템(400)에 관한 개략도이다. 특성 추출 모듈(14)에서 음성 특성 벡터(15)를 추출한 후, 음성 특성 벡터(15)는 서브워드 분할 모듈(402)의 서브워드(404)로 분할된다. 바람직하게는 서브워드(404)는 음소이다. 서브워드(404)는 트레인 화자 모듈(406) 및 테스트 화자 모듈(408)로 가해질 수 있다.

도 10A는 트레인 스피커 모듈(406)의 애플리케이션 동안 서브워드 기반의 화자 대조 시스템(400)에 관한 개략도이다. 화자(11) 트레이닝 발성 및 패스워드 트랜스크립트(410)를 표현하는 화자 추출 특징(15)들은 서브워드 음소레벨 분할 모듈(402)로 가해진다. 패스워드 트랜스크립트(410)는 화자(11)에 의하여 발성되거나, 컴퓨터에 의하여 입력되거나 또는 카드 등과 같은 것으로부터 스캔될 수 있다. 음성 분할 모듈(402)은 화자 추출 특성(15)을 서브워드 1에서 M으로 분할하는데 예를 들어, 모듈(420)에서의 서브워드 1, 모듈(422)에서의 서브워드 m, 모듈(424)에서의 서브워드 M과 같은 것이며 M은 분할된 서브워드의 수이다. 서브워드(420,422,424)는 서브워드 데이터베이스(425)에 저장될 수 있다. 감독되는 학습 벡터 라벨링 스킴(supervised learning vector-labeling scheme)(430)은 트레이닝 분류기들(440,442,444)에 대하여 0 또는 1로써 트레이닝 음성 벡터들에 대한 라벨들을 결정한다. 예를 들어, 다른 화자(25)에 대한 서브워드들은 0으로 라벨될 수 있으며 화자(15)에 대한 서브워드들은 1로 라벨될 수 있다. 대안으로써, 가장 가까운 음소가 데이터베이스(425)에서 검색될 수 있다. 서브워드 분류기들(440,442,444)은 각 서브워드들을 분류하기 위하여 서브워드(420,422,424) 각각에게로 가해진다. 바람직하게는, 서브워드 분류기들(440,442,444)은 NTN 및 MNTN 분류 방법을 사용한다.

도 10B는 테스트 화자 모듈9408)의 애플리케이션 동안 서브워드 기반의 화자 대조 시스템(400)에 관한 개략도이다. 화자(11) 테스트 발성을 표현하는 화자 추출 특성(15)은 패스워드 트랜스크립트(410)를 가지고 서브워드 음소레벨의 분할 모듈(402)에 가해진다. 서브워드 분류기들(440,442,444)은 화자(11) 테스트 발성을 표현하는 추출된 화자 특성(15)으로부터 결정된 각 서브워드(420,422,424)를 분류한다. 분류기(440,442,444)로부터의 출력(445)은 전술의 계산된 수용 신뢰도(C_accept)를 기반으로한 분류기들(440,442,444)로부터의 융합된 출력에 기초하여 화자(11)를 수용할 것인가 또는 거절할 것인가를 결정하기 위한 의사결정 융합 로직 모듈(40)에 가해진다.

폴 필터링(pole filtering)이라고 표현될 수 있는 바람직한 방법은 채널 차이에 견고성을 보이는 음성 특성 벡터(15)를 만들어내기 위한 특성 추출 모듈(14)에 사용될 수 있다. 폴 필터링은 모든 폴 선형예측(LP) 필터의 지능형 필터링을 사용하여 채널 정규화를 수행한다.

깨끗한 음성(C_s)이 임펄스 응답(h)을 가지는 채널과 섞여 있으면 일반적인 켑스트럴 평균의 채널 켑스트럼은 다음과 같이 표현될 수 있다.

C_s= S_m+h

상기에서 다음과 같은 S_s는 오로지 근원적인 깨끗한 음성에 의한 켑스트럴 평균 성분에 상응한다.

S_s= S_m

깨끗한 음성에 의한 성분은 채널 켑스트럼 예정치(C_s)가 실제의 근원적인 누적 왜곡의 켑스트럴 예정치(h)에 상응하게 하기 위하여 평균이 0이어야 한다.

깨끗한 음성에 의한 평균 켑스트럼 성분은 짧은 발성에 대하여 결코 0이 되지 않는 다는 것을 경험적으로 할 수 있으며 화자 대조 시스템(10)의 트레이닝 및 테스팅에 대한 경우가 될 수 있다.

선행 기술인 채널 정규화 시스템(500)은 도 11A에 도시되어 있으며, 거기에서 음성은 프레임간 가중 모듈(502)에 가해진다. 적응 성분 가중치 부여(ACW)는 채널 정규화에 대한 프레임 내의 가중치를 부여하는 예이다. 가중된 음성(504)은 부가적인 채널 효과를 제거하기 위하여 프레임간 처리 모듈(506)에서 수신된다. 부가적인 채널 효과를 제거하는 한 가지 종래의 프레임간 방법은 켑스트럴 평균 감산(CMS)에 의한 것이다. 채널 켑스트럼이 음성뿐만 아니라 채널에 의한 전체적인 분광분포를 포함하기 때문에, 각 음성 프레임의 켑스트럼으로부터의 채널 켑스트럼의 왜곡된 예측치를 제거하는 종래의 방식은 채널의 신뢰성이 없는 예측치를 효과적으로 디콘볼루션하는 것에 상응한다.

도 11B는 본 발명의 채널 정규화 시스템(600)을 도시하고 있다. 음성(12)은 채널 예측치 폴 필터링 모듈(602)로 가해진다. 폴 필터링은 음성 S_s에 의한 획일적인 성분의 영향력이 크지 않게 한다. 정교화된 채널 예측치는 채널을 정규화하기 위하여 사용된다. 바람직하게, 채널 스펙트럼의 정교화는 대화적인 방식으로 수행될 수 있다.

채널 스펙트럼의 예측치(C_s)는 발성에서 이용 가능한 음성 프레임의 수에 따라 다르다. 이용 가능한 음성 발성이 충분히 긴 경우에, 진정한 채널 예측치(h)에 근사한 채널 스펙트럼의 예측치를 얻는 것이 가능하다. 대부분의 실제적인 상황에서, 트레이닝 또는 테스팅을 위한 발성기간은 S_s- 0이 되도록 허락할 만큼 길지 못하다. 켑스트럴 평균 예측치는 음성 프레임에서의 폴의 영향력 및 채널 스펙트럼의 예측치에 대한 기여도를 결정함으로써 개선될 수 있다.

켑스트럴 평균상의 음성 계열의 각 모드 효과는 켑스트럴 평균을 선형 예측 계수들로 변환하고 상응하는 복잡한 공액 폴의 쌍에 대한 영향력을 연구함으로써 결정된다. 음성 프레임에 대한 스펙트럼 성분은 만약 그것이 단위원에 가장 가까운 복잡한 공액 폴의 쌍에 상응하면 가장 영향력이 있고(최소 대역폭) ,만약 그것이 단위원에 가장 먼 복잡한 공액 폴의 쌍에 상응하면 가장 영향력이 있다(최대 대역폭).

부드럽고 더 정확한 인버스 채널 예측치를 얻기 위하여 음성의 폴을 켑스트럴 영역에 한정시키는 것은 수정된 켑스트럴 평균인

c_s ^pf

에 상응하며, 음성에 의한 획일적인 성분에 관련한 켑스트럴 바이어스를 덜 강조한다. 음성에 의한 거친 분광분포 성분 없이 정교화된 켑스트럴 평균 이동은 개선된 채널 비정규화 방법을 제공한다.

채널 폴의 필터링 모듈(602)로부터 최적으로 결정된 채널 예측치는 정규화된 음성(735)을 제공하기 위하여 타임 도매인에서의 디콘뷰레이션(deconvulation)을 위한 디콘뷰레이션 모듈(730)에서 음성(12)과 결합된다. 종래의 프레임간 커플링(502) 및 간섭 처리(506)는 채널 정규화된 음성 특성 벡터(740)를 제공하기 위하여 정규화된 음성(735)에 가해질 수 있다. 음성 특성 벡터(740)는 도 1에서 도시된 음성 특성 벡터(15)와 유사한 방식으로 가해질 수 있다. 채널의 예측을 개선하는 한가지 바람직한 방법은 폴 필터된 켑스트럴 계수(PFCC)를 사용하는데, 여기에서 협대역 폴은, 도 12에 도시되었듯이, 그들의 주파수가 불변인 동안 그들의 대역폭에서 부풀려진다. 폴(801,802,803,804,805,806)은 수정된 폴(811,812,813,814,815 ,816)로 이동된다. 효과는 동일한 반경에 따라서 단위원의 내부에 협대역 폴을 움직이는 것과 동일하여, 대역폭을 넓히면서 주파수를 일정하게 유지한다.

폴 필터된 켑스트럴 계수(PFCC)는 음성에 대하여 음성 특성 벡터(15)와 동시에 결정된다. 폴 필터된 켑스트럴 계수(PFCC)는 프레임(12)의 폴이 예정된 임계치(t)보다 작은 대역폭을 가지는 지를 분석함으로써 결정된다. 만약 음성(12)이 예정된 임계치보다 작으면 그 폴의 대역폭은 임계치(t)까지로 제한된다. 폴 필터된 켑스트럴 계수는 수정된 켑스트럴 평균을 평가하기 위하여 사용된다. 개선된 인버스 필터 예측치는 진정한 인버스 채널 필터에 보다 가까운 폴 필터된 켑스트럴 계수(PFCC)의 평균을 사용함으로써 얻어진다. 음성의 켑스트럴 프레임으로부터 수정된 켑스트럴 평균을 공제함으로써 채널의 스펙트럼 기울기를 더 정확하게 보상하면서 스펙트럼 정보를 유지하게 된다.

도 13A는 음성 프레임의 샘플 스펙트럼들(700)을 도시하고 있다. 도 13B는 스펙트럼(700)들로부터 뺄셈된 선행기술인 켑스트럴 평균 C_s의 스펙트럼들(710)을 도시하고 있다. 스펙트럼들(720)은 스펙트럼(700)으로부터 뺄셈된 폴 필터된 수정 켑스트럴 평균

c_s ^pf

이다. 스펙트럼(720)은 스펙트럼들(710) 상의 개선된 스펙트럼의 정보를 보여준다.

도 14는 화자 대조 시스템(10)의 트레이닝 및 테스팅을 가지고 사용될 수 있는 어파인 변환 시스템(900)을 도시하고 있다. 트레이닝과 테스팅 환경 사이의 불일치는 특성 추출 모듈(14)을 가지고 추출된 켑스트럴 계수들에 대한 어파인 변환을 수행함으로써 감소될 수 있다. 벡터 x의 어파인 변환 y는 다음과 같이 정의된다.

y = Ax + b

상기에서 A는 선형 변환을 나타내는 행렬이며, b는 변환을 나타내는 0이 아닌 벡터이며, y는 테스팅 데이터이며, x는 트레이닝 데이터에 해당한다. 음성 처리 영역에서, 행렬 A는 노이즈에 의한 개별 켑스트럴 계수의 감소를 모델링하며 벡터 b는 채널 효과에 의한 켑스트럴 평균의 변위를 설명한다.

특이값 분해(SVD)는 다음의 식을 가지고 어파인 변환의 형상을 설명한다.

y = U V^Tx+b

상기에서 U 및 V^T는 귀일 행렬이며 는 대각선의 것이다. 형상 해석은 x가 V^T에 의하여 회전되며, 에 의하여 리스케일링되며, 다시 U에 의하여 회전된다. 또한 벡터(b)에 의하여 도입된 변환도 이루어진다.

각 켑스트럴 계수는 실제로 다른 값에 의하여 스케일되며 뒤따르는 켑스트럴 계수의 리스케일링은 각도에 있어서의 약간의 변화를 주는 것이다. 노이지 켑스트럴 벡터(c_ns)는 행렬 즉, c_ns= Ac를 가지는 깨끗한 스펙트럼 벡터의 조절로써 표현된다.

채널 및 노이즈 모두에 의하여 발생된 왜곡들을 동시에 표현하기 위하여, 어파인 매핑은 다음과 같이 표현된다.

c' = Ac + b

x의 어파인 변형 인자는 다음의 어파인 변형으로부터 정의된다.

x' = A^-1(y-b)

상기에서 x'는 x와 동일하다.

어파인 변환 인자(A 및 b)는 트레이닝 또는 크로스 대조 데이터 세트에서의 상기 방정식을 풀기 위하여 최소제곱법을 사용함으로써 찾아낼 수 있다.

화자 대조 시스템(10)의 트레이닝 동안, 음성 특성 벡터(15)는 어파인 변환 모듈(902)과 연결되며 분류기 입력 라인(901)에 의하여 테스팅 동안 분류기(904)로 가해진다. 트레이닝 동안, 음성 특성 벡터(15)는 어파인 변화 모듈(902)과 연결되며 분류기 입력 라인(903)에 의하여 분류기(904)로 가해진다. 바람직하게는, 분류기(804)는 벡터 양자화 분류기이다. 예를 들어, 분류기(804)는 도 3의 분류기(70,71,72), 또는 도 4의 NTN 분류기(104,106,108,110) 및 DTW 분류기(120,122,124,126)에 상응할 수 있다.

화자 대조 시스템(10)에서, 진정한 자기의 신분을 주장하는 화자는 전정한 화자라고 할 수 있고 가짜의 신분을 주장하는 화자(11)는 사기꾼이라고 칭할 수 있다. 화자를 평가할 때, 화자 대조 시스템(10)은 다음의 두 가지 에러를 범할 수 있다. 즉 (a) 오류의 거절(FR) 및 (b) 오류의 수용(FA)이 그것이다. 오류의 거절(FR) 에러는 진정한 신분을 주장하는 진정한 화자가 화자 대조 시스템(10)에 의하여 거절되었을 때 발생한다. 오류의 수용(FA) 에러는 사기꾼이 화자 대조 시스템(10)에 의하여 수용되었을 때 발생한다. 전술과 같이, 신분의 주장을 거절 또는 수용하는 결정은 임계치(T)에 따라 다르다. 각 에러 유형의 비용에 따라서, 시스템은 하나의 에러를 희생하여 다른 에러를 구하는 트레이드 오프를 하도록 설계될 수 있다. 대안으로써, 기법들을 평가하기 위하여, 시스템의 동일 에러율(EER)이 비교될 수 있다. 동일 에러율은 두 가지 유형의 에러(즉, FR 및 FA)가 동일한 확률로 발생할 때 얻어진다.

본 발명의 서브워드 기반의 화자 대조 시스템은 YOHO라고 불리는 종래의 음성 자료집 상에서 평가될 수 있으며, 이는 언어 데이터 콘소시움(LDC)를 통하여 이용 가능하다. 본 발명의 서브워드 기반의 화자 대조 시스템(10)은 3.6%의 동일 에러율(ERR)을 나타냈으며, 이는 유사한 조건하에서 종래의 히든 마코브 모델(HMM) 기반의 시스템이 1.66%의 EER을 나타낸 것과 비교된다.

본 발명은 다른 분류기로부터의 다수의 속성을 결합하는 이점을 가지며 이는 주어진 패턴을 정확하게 인지할 수 있는 강력한 인지 시스템을 제공하기 위한 것이다. 화자 대조에 관한 실시예에서, 왜곡 기반의 분류기는 화자와 화자 또는 다른 화자들에 관련된 속성들을 결합하기 위하여 식별 기반의 분류기와 결합될 수 있다. 바람직하게는, 신경 트리망이 감소된 처리 량을 가지고 화자와 다른 화자들로부터의 데이터를 분류하기 위하여 사용된다. 워드 인지 인에이블 모듈은 대조 시스템에 큰 정확성을 줄 수 있으며 거절된 화자들에 대한 처리 량을 줄일 수 있다. 또한 분류기들은 텍스트 종속 또는 독립인 데이터를 가지는 서브워드 기반일 수 있다. 또한, 대조 시스템은 시스템을 트레이닝하기 위하여 필요한 데이터를 감소하기 위한 리브 완 아웃 방법을 가지고 트레인될 수 있다. 추출된 특성의 어파인 변형은 트레이닝 및 테스팅 데이터 사이의 개선된 상관관계를 제공한다. 또한 이 시스템은 시효 효과를 밝히기 위하여 긍정적인 대조가 이루어진 후 화자 모델들을 갱신한다.

본 발명이 바람직한 실시예를 참조하여 설명되었지만, 이 설명은 여기에 한정되지 않는다. 당업자는 본 발명의 사상 및 범위를 일탈하지 아니하면서 변경을 가할 수 있을 것이다.

Claims

화자 대조 방법에 있어서,

상기 화자에 의하여 발성된 제 1의 음성으로부터 적어도 하나의 특성을 추출하는 단계;

다수의 분류된 출력을 형성하기 위하여 다수의 분류기들을 가지고 적어도 하나의 상기 특성을 분류하는 단계;

상기 다수의 분류된 출력과 상기 화자에 의하여 미리 발성된 제 2의 음성의 유사성을 판단함으로써 상기 다수의 분류된 출력을 인지하는 단계; 그리고

상기 인지된 다수의 분류된 출력으로부터 상기 화자를 수용할 것인지 아니면 거절할 것인지를 결정하는 단계를 포함하는 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 인지된 다수의 분류된 출력으로부터 신뢰도를 결정하는 단계를 더 포함하는 것을 특징으로 하는 화자 대조 방법.
제 2항에 있어서, 상기 적어도 하나의 특성을 분류하는 단계 전에,

상기 화자를 예비적으로 수용할 것인지 또는 예비적으로 거절할 것인지를 결정하기 위하여 상기 적어도 하나의 특성을 미리 저장된 상기 화자에 대한 데이터와 비교함으로써 상기 화자에 의하여 발성된 상기 제 1의 음성에 대한 워드 인지를 수행하는 단계; 및

상기 화자를 예비적으로 수용할 것으로 판단시 상기 적어도 하나의 특성을 분류하는 단계를 인에이블시키고 또는 상기 화자를 예비적으로 거절할 것으로 판단시 콜백(call back) 모듈을 인에이블 시키는 것을 특징으로 하는 화자 대조 방법.
제 3항에 있어서,

상기 제 1의 음성은 상기 화자에 대한 적어도 하나의 패스워드의 발성을 포함하는 것을 특징으로 하는 화자 대조 방법.
제 4항에 있어서, 상기 데이터는

미리 상기 화자에 의하여 발성된 제 1의 음성으로부터 형성된 화자 종속의 템플릿 및 미리 적어도 하나의 제 2의 화자에 의하여 발성된 제 1의 음성으로부터 형성된 화자 독립의 템플릿을 포함하는 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 분류 단계는 신경 트리망(NTN) 분류기 및 동적 타임 워핑(warping) 분류기를 가지고 수행되는 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 분류 단계는 수정된 신경 트리망(MNTN) 분류기 및 동적 타임 워핑(warping) 분류기를 가지고 수행되는 것을 특징으로 하는 화자 대조 방법.
제 7항에 있어서,

상기 MNTN 분류기의 화자 스코어(score)는 다음의 방정식에 의하여 정의되며, 상기 식에서 C¹은 화자S_i의 신뢰도 스코어이며, C⁰은 다른 모드 화자들에 대한 신뢰도 스코어이며, M 및 N은 각각 1 및 0으로 분류된 벡터들의 수에 상응하는 것을 특징으로 하는 화자 대조 방법.

P_MNTN(X/S_i) = ( c_j ¹ )/( c_j ⁰ + c_j ¹ )
제 1항에 있어서, 상기 인식 단계는

상기 화자에 대한 다수의 제 1의 음성의 발성을 상기 다수의 분류기들 쌍에게로 가하며 제외된 발성으로 정의된 상기 발성중의 하나를 제외시키는 단계;

상기 제외된 발성을 상기 분류기들의 쌍에게로 가하는 단계; 및

상기 분류기들의 쌍에서 상기 분류기 각각에 대한 가능성을 계산하는 단계에 의하여 트레인되며,

상기 다수의 분류된 출력의 상기 유사성은 상기 분류기를 상기 임계치와 비교함으로써 결정되는 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 추출 단계는 상기 적어도 하나의 특성을 추출하기 위하여 상기 제 1 및 제 2 음성을 폴 필터링 함으로써 수행되는 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 추출 단계 후에 상기 적어도 하나의 특성을 서브워드로 분할하는 단계를 더 포함하는 것을 특징으로 하는 화자 대조 방법.
제 11항에 있어서,

상기 서브워드는 음소인 것을 특징으로 하는 화자 대조 방법.
제 12항에 있어서,

상기 서브워드는 화자 종속인 것을 특징으로 하는 화자 대조 방법.
제 12항에 있어서,

상기 서브워드는 화자 독립인 것을 특징으로 하는 화자 대조 방법.
제 1항에 있어서,

상기 적어도 하나의 특성은 어파인 맵 변환(affine map transformation)을 사용하여 교정되는 것을 특징으로 하는 화자 대조 방법.
화자 대조 시스템에 있어서,

상기 화자에 의하여 발성된 제 1의 음성으로부터 적어도 하나의 특성을 추출하는 수단;

다수의 분류된 출력을 형성하기 위하여 다수의 분류기들을 가지고 적어도 하나의 상기 특성을 분류하는 수단;

상기 다수의 분류된 출력과 상기 화자에 의하여 미리 발성된 제 2의 음성의 유사성을 판단함으로써 상기 다수의 분류된 출력을 인지하는 수단; 그리고

상기 인지된 다수의 분류된 출력으로부터 상기 화자를 수용할 것인지 아니면 거절할 것인지를 결정하는 수단을 포함하는 것을 특징으로 하는 화자 대조 시스템.
제 16항에 있어서,

상기 화자를 예비적으로 수용할 것인지 또는 예비적으로 거절할 것인지를 결정하기 위하여 상기 적어도 하나의 특성을 미리 저장된 상기 화자에 대한 데이터와 비교함으로써 상기 화자에 의하여 발성된 상기 제 1의 음성에 대한 워드 인지를 수행하는 수단; 및

상기 화자를 예비적으로 수용할 것으로 판단시 상기 적어도 하나의 특성을 분류하는 수단을 인에이블 시키고 또는 상기 화자를 예비적으로 거절할 것으로 판단시 콜백(call back) 모듈을 인에이블 시키는 수단을 더 포함하는 것을 특징으로 하는 화자 대조 시스템.
제 17항에 있어서, 상기 데이터는

미리 상기 화자에 의하여 발성된 제 1의 음성으로부터 형성된 화자 종속의 템플릿 및 미리 적어도 하나의 제 2의 화자에 의하여 발성된 제 1의 음성으로부터 형성된 화자 독립의 템플릿을 포함하는 것을 특징으로 하는 화자 대조 시스템.
제 18항에 있어서,

상기 분류 수단은 수정된 신경 트리망(MNTN) 분류기 및 동적 타임 워핑(warping) 분류기를 포함하는 것을 특징으로 하는 화자 대조 시스템.
제 19항에 있어서,

상기 추출 수단은 모든 폴 필터(pole filter)를 가지고 수행되는 것을 특징으로 하는 화자 대조 시스템.
제 20항에 있어서,

상기 적어도 하나의 특성은 어파인 변환(affine transformation)을 사용하여 교정되는 것을 특징으로 하는 화자 대조 시스템.