도 2는 무선 원격국(202) 내에서 구현될 수 있는 하이브리드 음성 인식(VR) 시스템을 도시한다. 본 실시예에서, 원격국(202)은 무선 통신 네트워크(미도시)와 무선 채널(미도시)을 통해 통신한다. 예를 들어, 원격국(202)은 무선 전화기 시스템과 통신하는 무선 전화기일 수 있다. 종래 기술의 당업자는 여기에 기재된 테크닉이 고정된(비휴대용) 또는 무선 채널을 포함하지 않는 VR 시스템에 동일하게 적용될 수 있음을 인식할 수 있을 것이다.
도시된 실시예에서, 사용자로부터의 음성 신호는 마이크로폰(MIC)(210)에서 전기적 신호로 변환되고 아날로그 대 디지털 컨버터(ADC)(212)에서 디지털 음성 샘플로 변환된다. 그리고 나서, 디지털 샘플 스트림은 예를 들어 저 주파수 신호 성분을 감쇠시키는 유한 임펄스 응답(FIR) 필터와 같은, 프리엠퍼시스 필터(214)를 사용하여 필터링된다.
필터링된 샘플들은 음향 특징 추출(AFE) 유닛(216)에서 분석된다. AFE 유닛(216)은 디지털 음성 샘플들을 음향 특징 벡터로 변환시킨다. 본 실시예에 있어, AFE 유닛(216)은 다른 주파수 빈(bin)에 대응하는 신호 강도 벡터를 생성하기 위한 연속적인 디지털 샘플의 세그먼트에 대한 푸리에 변환을 수행한다. 본 실시예에 있어, 주파수 빈은 바크 스케일(bark scale)에 따라 변화하는 대역 폭을 가진다. 바크 스케일에서, 각 주파수 빈의 대역 폭은 빈의 중심 주파수와 관련이 있기 때문에, 고주파수 빈은 저 주파수 빈보다 주파수 대역이 넓다. 바크 스케일은 Rabiner, L.R. 및 Juang, B.H., FUNDAMENTALS OF SPEECH RECOGNITION, Prentice Hall, 1993에 기재되어 있고, 종래 기술에서 널리 알려져 있다.
일 실시예에서, 각 음향 특징 벡터는 고정된 시간 간격에 걸쳐 수집된 일련의 스피치 샘플로부터 추출된다. 일 실시예에서, 이들 시간 간격은 중첩된다. 예컨대, 음향 특징은, 각각 두 개의 연속 간격이 10 밀리세컨드 세그먼트를 공유하도록 10 밀리세컨드마다 시작하는 20 밀리세컨드 간격의 스피치 데이터로부터 얻어질 수 있다. 당업자라면, 본 명세서에 개시된 범위를 일탈하지 않고, 시간 간격이 비중첩이거나 또는 고정되지 않은 지속시간(duration)을 가질 수도 있다는 것을 알 수 있을 것이다.
AFE 유닛(216)에 의해 발생된 음향 특징 벡터는 VR 엔진(220)에 제공되고, VR 엔진(220)은 하나 이상의 음향 모델(230, 232, 234)의 컨텐츠를 근거로 음향 특징 벡터를 특징화하도록 패턴 매칭을 수행한다.
도 2에 나타낸 실시예에서, 다음 3개의 음향 모델이 개시되어 있다: 화자 독립(SI) 은닉 마르코프 모델(HMM) 음향 모델(230), 화자 독립 동적 타임 와핑(DTW) 음향 모델(232) 및 화자 종속(SD) 음향 모델(234). 당업자는 SI 음향 모델의 다른 결합이 다른 실시예에서 사용될 수 있다는 것을 알 수 있다. 예컨대, 원격국(202)은 단지 SIHMM 음향 모델(230)과 SD 음향 모델(234)을 포함하며, SIDTW 음향 모델(232)을 생략할 수 있다. 대안적으로 원격국(202)은 단일 SIHMM 음향 모델(230), SD 음향 모델(234) 및 다른 2개의 SIDTW 음향 모델(232)을 포함할 수 있다. 뿐만 아니라, 당업자라면 SD 음향 모델(234)이 HMM 타입이거나, DTW 타입 또는 그 둘의 결합일 수 있다는 것을 알 수 있을 것이다. 일 실시예에서, SD 음향 모델은 DTW 음향 모델이다.
상술한 바와 같이, VR 엔진(220)은 음향 특징 벡터와 하나 이상의 음향 모델(230, 232, 234)의 컨텐츠 사이의 매칭도를 결정하기 위해 패턴 매칭을 수행한다. 일 실시예에서, VR 엔진(220)은 음향 모델(230, 232, 234) 각각의 서로 다른 음향 템플릿과 음향 특징 벡터의 매칭을 근거로 매칭 스코어를 생성한다. 예컨대, VR 엔진(220)은 SIHMM 음향 모델(230)의 다수의 HMM 템플릿과 한 세트의 음향 특징 벡터의 매칭을 기초로 HMM 음향 매칭 스코어를 생성한다. 유사하게, VR 엔진(220)은 SIDTW 음향 모델(232)의 다수의 DTW 템플릿과 음향 특징 벡터의 매칭을 근거로 DTW 매칭 스코어를 생성한다. VR 엔진(220)은 SD 음향 모델(234)의 템플릿과 음향 특징 벡터의 매칭을 근거로 매칭 스코어를 생성한다.
상술한 바와 같이, 음향 모델의 각각의 템플릿은 발성 클래스와 연관되어 있다. 일 실시예에서, VR 엔진(220)은 동일한 음성 클래스와 연관된 템플릿들의 스코어들을 결합하여 비통제 트레이닝에 사용될 결합된 매칭 스코어를 생성한다. 예컨대, VR 엔진(220)은 음향 특징 벡터의 입력 세트의 상관으로부터 얻은 SIHMM 및 SIDTW 스코어를 결합하여 결합된 SI 스코어를 생성한다. 상기 결합된 매칭 스코어를 근거로, VR 엔진(220)은 SD 음향 모델(234)의 SD 템플릿으로서 음향 특징 벡터의 입력 세트를 저장할지를 결정한다. 일 실시예에서, SD 음향 모델(234)을 갱신하기 위한 비통제 트레이닝은 SI 매칭 스코어를 독점적으로 사용하여 수행된다. 이것은 자신의 비통제 트레이닝을 위해 진화하는(evolving) SD 음향 모델(234)을 이용함으로써 야기될 수 있는 추가 에러를 방지한다. 이러한 비통제 트레이닝의 수행 방법의 일 실시예는 이하에 좀더 상세하게 설명한다.
비통제 트레이닝에 추가하여, VR 엔진(220)은 테스팅 동안 다양한 음향 모델(230, 232, 234)을 사용한다. 일 실시예에서, VR 엔진(220)은 음향 모델(230, 232, 234)로부터 매칭 스코어를 검색(retrieve)하여 각각의 발성 클래스에 대한 결합된 매칭 스코어를 생성한다. 결합된 매칭 스코어는 입력 스피치와 최적의 매칭인 발성 클래스를 선택하는데 사용된다. VR 엔진(220)은 전체 단어나 구문을 인식하는데 필수인 연속적인 발성 클래스를 그룹화한다. 그리고 나서, VR 엔진(220)은 인식된 단어나 구문에 관한 정보를 제어 프로세서에 제공하고, 제어 프로세서는 상 기 정보를 이용하여 스피치 정보 또는 명령에 적절한 응답을 결정한다. 예컨대, 인식된 단어나 구문에 응답하여, 제어 프로세서(222)는 디스플레이 또는 사용자 인터페이스를 통하여 사용자에게 피드백을 제공할 수 있다. 다른 실시예에서, 제어 프로세서(222)는 무선 모뎀 및 안테나를 통하여 무선 네트워크(미도시됨)에 메시지를 보낼 수 있으며, 이 경우 그 이름이 발성되어 인식된 사람과 연관된 목표 전화기 번호로 이동 전화 호출을 개시한다.
무선 모뎀(218)은 CDMA, TDMA 또는 FDMA를 포함하는 다양한 무선 채널 타입 중 어느 하나를 통하여 신호를 전송할 수 있다. 뿐만 아니라, 무선 모뎀(218)은 개시된 실시예의 범위를 일탈하지 않고 비무선 채널을 통하여 교신하는 다른 형태의 통신 인터페이스로 대체될 수 있다. 예컨대, 원격국(202)은 랜드라인 모뎀, T1/E1, ISDN, DSL, 이더넷, 또는 인쇄회로기판(PCB)상의 이븐 트레이스(even trace)를 포함하는 다양한 형태의 통신 채널 중 하나를 통하여 신호 정보를 전송할 수 있다.
도 3은 비통제 트레이닝을 수행하기 위한 하나의 방법을 나타내는 흐름도이다. 단계 302에서, 아날로그 스피치 데이터가 A/D 컨버터(ADC)(도 2의 212)에서 샘플링된다. 그리고 나서, 단계 304에서 디지털 샘플 스트림이 프리엠퍼시스(PE) 필터(도 2의 214)를 사용하여 필터링된다. 단계 306에서, 입력 음향 특징 벡터가 음향 특성 추출(AFE) 유닛(도 2의 216)에서 필터링된 샘플로부터 추출된다. VR 엔진(도 2의 220)은 AFE 유닛(216)으로부터 입력 음향 특징 벡터를 수신하여 SI 음향 모델(도 2의 230, 232)의 컨텐츠와 입력 음향 특징 벡터와의 패턴 매칭을 수행한다. 단계 308에서, VR 엔진(220)은 패턴 매칭의 결과로부터 매칭 스코어를 생성한다. VR 엔진(220)은 입력 음향 특징 벡터와 SIHMM 음향 모델(230)을 매칭함으로써 SIHMM 매칭 스코어를 생성하고, 입력 음향 특징 벡터와 SIDTW 음향 모델(232)을 매칭하여 SIDTW 매칭 스코어를 생성한다. SIHMM 및 SIDTW 음향 모델(230, 232)의 각각의 음향 템플릿은 특정 발성 클래스와 연관되어 있다. 단계 310에서, SIHMM 및 SIDTW 스코어는 결합하여 결합된 매칭 스코어를 형성한다.
도 4는 비통제 트레이닝에 사용하기 위한 결합된 매칭 스코어의 발생을 나타낸다. 도시된 실시예에서, 특정 발성 클래스에 대한 화자 독립 결합 매칭 스코어(SCOMB _SI)는 도시된 바와 같이, EQN.1에 따라 가중된 합이다, 여기서:
SIHMMT는 목표 발성 클래스의 SIHMM 매칭 스코어;
SIHMMNT는 비목표 발성 클래스(목표 발성 클래스 이외의 발성 클래스)와 연관된 SIHMM 음향 모델의 템플릿에 대한 그 다음의 최적 매칭 스코어;
SIHMMG는 "가비지(garbage)" 발성 클래스에 대한 SIHMM 매칭 스코어;
SIDTWT는 목표 발성 클래스에 대한 SIDTW 매칭 스코어;
SIDTWNT는 비목표 발성 클래스와 연관된 SIDTW 음향 모델의 템플릿에 대한 그 다음의 최적 매칭 스코어이며,
SIDTWG는 "가비지" 발성 클래스에 대한 SIDTW 매칭 스코어이다.
다양한 개별 매칭 스코어 SIHMMN 및 SIDTWN은 음향 모델의 템플릿과 일련의 입력 음향 특징 벡터들 사이의 거리 값을 나타낸다. 입력 음향 특징 벡터와 템플 릿 사이의 간격이 커질수록, 매칭 스코어도 커진다. 템플릿과 입력 음향 특징 벡터 사이의 밀접한 매치는 매우 낮은 매칭 스코어를 만들어낸다. 서로 다른 발성 클래스와 연관된 두 개의 템플릿과 일련의 입력 음향 특징 벡터의 비교가 거의 동일한 두 개의 매칭 스코어를 산출한다면, VR 시스템은 어느 것도 "정확한" 발성 클래스로 인식할 수 없을 것이다.
SIHMMG 및 SIDTWG는 "가비지" 발성 클래스에 대한 매칭 스코어이다. 가비지 발성 클래스와 연관된 템플릿(들)은 가비지 템플릿이라고 불리며, 특정 단어 또는 구문에 대응하지 않는다. 이러한 이유로, 이들은 모든 입력 스피치에 똑같이 상관되지 않는 경향이 있다. 가비지 매칭 스코어는 VR 시스템의 일종의 잡음 플로어(floor) 측정에 유용하다. 일반적으로 일련의 입력 음향 특징 벡터는 발성 클래스가 확실하게 인식될 수 있기 전에 가비지 템플릿보다는 목표 발성 클래스와 연관된 템플릿과 더 양호한 매칭도를 가져야 한다.
VR 시스템은 "정확한" 클래스로서 발성 클래스를 확실하게 인식하기 전에, 입력 음향 특징 벡터는 가비지 템플릿 또는 다른 발성 클래스와 연관된 템플릿 보다는 상기 발성 클래스와 연관된 템플릿과 더 고도의 매칭도를 가져야 한다. 다양한 음향 모델로부터 발생한 결합된 매칭 스코어는 오직 하나의 음향 모델을 기초로한 매칭 스코어보다 발성 클래스 사이에서 보다 확실하게 구별될 수 있다. 일 실시예에서, VR 시스템은 SD 음향 모델(도 2의 234)의 템플릿을 새로운 세트의 입력 음향 특징 벡터로부터 유도된 것으로 대체할지를 결정하기 위하여 이러한 결합 매 칭 스코어를 사용한다.
가중 인자(W1, ... W6)는 모든 음향 환경에 걸쳐 최적의 트레이닝 수행을 제공하도록 선택된다. 일 실시예에서, 가중 인자(W1, ... , W6)는 모든 발성 클래스에 대하여 일정하다. 즉, 제 1 목표 발성 클래스에 대한 결합된 매칭 스코어를 산출하도록 사용된 Wn은 다른 목표 발성 클래스에 대한 결합 매칭 스코어를 생성하는데 사용된 Wn값과 동일하다. 다른 실시예에서, 가중 인자는 목표 발성 클래스를 기초로 하여 변화한다. 도 4에 제시된 결합 방법의 다양한 변형은 당업자에게 명백할 것이며, 본 명세서에 설명된 실시예의 범위 내에 있다. 예컨대, 6개 이상 또는 6개 이하의 가중 입력이 사용될 수 있다. 다른 실시예는 한 타입의 음향 모델에 근거하여 결합 매칭 스코어를 생성할 수 있다. 예컨대, 결합 매칭 스코어는 SIHMMT, SIHMMNT 및 SIHMMG를 기초로 생성될 수 있다. 또는, SIDTWT, SIDTWNT, 및 SIDTWG를 근거로 생성될 수 있다.
일 실시예에서, W1 및 W4는 음수이며, 더 큰 값(또는 음수에서 더 적은 절대값)의 SCOMB는 목표 발성 클래스 및 일련의 입력 음향 특징 벡터 사이의 더 큰 매칭도(더 작은 간격)를 나타낸다. 당업자라면, 개시된 실시예의 범위를 일탈하지 않고 더 큰 매칭도가 더 작은 값에 대응하도록 가중 인자 부호가 용이하게 재배열될 수 있다는 것을 이해할 수 있을 것이다.
도 3으로 돌아가서, 단계 310에서 결합 매칭 스코어는 HMM 및 DTW 음향 모 델(230, 232)의 템플릿과 연관된 발성 클래스에 대하여 생성된다. 일 실시예에서, 결합 매칭 스코어는 최적의 n개의 SIHMM 매칭 스코어들과 연관된 발성 클래스 및 m 개의 SIDTW 매칭 스코어들과 연관된 발성 클래스에 대해서만 생성된다. 보다 많은 양의 계산 전력이 각각의 매칭 스코어를 생성하는 동안 소비된다고 하더라도, 이러한 제한은 계산 자원들을 보존하는데 바람직할 수 있다. 예컨대, n=m=3인 경우, 결합 매칭 스코어는 상위 3개의 SIHMM과 연관된 발성 클래스와 상위 3개의 SIDTW 매칭 스코어와 연관된 발성 클래스에 대하여 생성된다. 상위 3개의 SIHMM 매칭 스코어와 연관된 발성 클래스가 상위 3개의 SIDTW 매칭 스코어와 연관된 발성 클래스와 동일한지 여부에 따라서, 이러한 접근방식은 3개 내지 6개의 서로 다른 결합 매칭 스코어를 산출할 것이다.
단계 312에서, 원격국(202)은 SD 음향 모델의 (동일한 발성 클래스와 연관된) 대응하는 템플릿에 저장된 결합 매칭 스코어들을 이러한 결합 매칭 스코어들과 비교한다. 새로운 입력 음향 특징 벡터 시리즈가 동일한 발성 클래스에 대하여 SD모델에 저장된 다른 이전의 템플릿의 매칭도보다 큰 매칭도를 가지는 경우, 새로운 SD 템플릿이 새로운 일련의 입력 음향 특징 벡터들로부터 생성된다. SD 음향 모델이 DTW 음향 모델인 일 실시예에서, 일련의 입력 음향 벡터들 자체는 새로운 SD 템플릿을 구성한다. 그리고 나서, 그 이전의 템플릿은 새로운 템플릿으로 대체되고, 새로운 템플릿과 연관된 결합 매칭 스코어는 앞으로의 비교에서 사용하기 위해서 SD 음향 모델에 저장된다.
다른 실시예에서, 비통제 트레이닝은 화자 종속 은닉 마르코프 모델(SDHMM) 음향 모델의 하나 이상의 템플릿을 갱신하는데 사용된다. 이러한 SDHMM 음향 모델은 SD 음향 모델(234) 내의 SDDTW 음향 모델에 부가하여 또는 SDDTW 모델 대신에 사용될 수 있다.
일 실시예에서, 비교 단계 312는 일정한 트레이닝 임계치와 예기되는 새로운 SD 템플릿의 결합 매칭 스코어를 비교하는 단계를 포함한다. 특정 발성 클래스에 대하여 SD 음향 모델에 저장된 어떠한 템플릿도 존재하지 않는다고 해도, 트레이닝 임계치보다 더 좋은(더 큰 매칭도를 나타내는) 결합 매칭 스코어를 가지지 않으면 새로운 템플릿은 SD 음향 모델에 저장되지 않을 것이다.
다른 실시예에서, SD 음향 모델 내의 임의의 템플릿이 교체되기 전에, SD 음향 모델은 SI 음향 모델로부터의 템플릿에 의해 디폴트로 파퓰레이트된다. 이러한 초기화는 SD 음향 모델을 이용하는 VR 수행이 적어도 단지 SI 음향 모델을 이용하는 VR 수행만큼 양호하게 개시될 것을 보장하는데 있어서 다른 접근 방식을 제공한다.
SD 음향 모델의 템플릿이 점점더 갱신됨에 따라, SD 음향 모델을 사용한 VR 성능은 SI 음향 모델만을 사용한 VR 성능을 능가할 것이다.
다른 실시예에 있어서, VR 시스템은 사용자로 하여금 통제 트레이닝을 수행할 수 있게 한다. 사용자는 그러한 통제 트레이닝을 수행하기 전에 통제 트레이닝 모드로 VR 시스템을 위치시킨다. 통제 트레이닝 동안에, VR 시스템은 정확한 발성 클래스를 사전에 인지한다. 만약 입력 스피치에 대한 결합된 매칭 스코어가 발성 클래스에 대해 앞서 저장된 SD 템플릿의 결합된 매칭 스코어보다 더 양호하다면, 대체 SD 템플릿을 형성하기 위해 입력 스피치가 사용된다. 다른 실시예에서, VR 시스템은 사용자로 하여금 통제 트레이닝 동안에 기존 SD 템플릿을 대체할 수 있게 한다.
SD 음향 모델은 단일 발성 클래스에 대한 다중 (둘 이상) 템플릿을 위한 룸으로 설계될 수 있다. 예시적인 실시예에서는, 두 개의 템플릿이 각각의 발성 클래스에 대해 SD 음향 모델에서 저장된다. 따라서, 단계 312에서의 비교는 동일한 발성 클래스에 대한 SD 모델의 두 템플릿에 대해 획득된 매칭 스코어를 새로운 템플릿을 통해 획득된 매칭 스코어와 비교하는 것을 수반한다. 만약 새로운 템플릿이 SD 음향 모델의 기존 템플릿보다 더 나은 매칭 스코어를 갖는다면, 단계 314에서, 가장 나쁜 매칭 스코어를 갖는 SD 음향 모델 템플릿이 새로운 템플릿으로 대체된다. 만약 새로운 템플릿의 매칭 스코어가 기존 템플릿보다 더 좋지 않다면, 단계 314는 생략된다. 또한, 단계 312에서는, 새로운 템플릿으로 획득된 매칭 스코어가 매칭 스코어 임계치에 비교된다. 따라서, 임계치보다 더 좋은 매칭 스코어를 갖는 새로운 템플릿이 SD 음향 모델에 저장될 때까지, 새로운 템플릿은 자신이 SD 음향 모델의 이전 컨텐츠를 겹쳐 쓰기 하기 위해 사용되기 이전에 그 임계치 값에 비교된다. 결합된 매칭 스코어에 따라 분류된 순서대로 SD 음향 모델 템플릿을 저장하고 새로운 매칭 스코어를 단지 가장 낮은 매칭 스코어와만 비교하는 것과 같은 다른 실시예들이 가능하다. 각각의 발성 클래스에 대한 음향 모델에 저장된 템플릿 수의 변동 역시 가능하다. 예컨대, SD 음향 모델은 각각의 발성 클래스에 대해 두 개 이상의 템플릿을 포함할 수 있거나, 다른 발성 클래스에 대해 다른 개수의 템플릿을 포함할 수 있다.
도 5는 SI 및 SD 음향 모델의 결합을 사용하여 VR 테스트를 수행하기 위한 예시적인 방법을 도시하는 흐름도이다. 단계 302, 304, 306 및 308은 도 3에 설명된 바와 동일하다. 예시적인 방법은 단계 510에서 도 3에 도시된 방법과 달라진다. 단계 510에서, VR 엔진(220)은 입력 음향 특징 벡터를 SD 음향 모델의 템플릿과 비교함으로써 SD 매칭 스코어를 생성한다. 예시적인 실시예에서, SD 매칭 스코어는 가장 좋은 n개의 SIHMM 매칭 스코어와 가장 좋은 m개의 SIDTW 매칭 스코어와 연관된 발성 클래스들에 대해서만 생성된다. 예시적인 실시예에서, n=m=3이다. 발성 클래스의 두 세트 사이의 중첩(overlap) 정도에 따라서, 그것은 3 내지 6개의 발성 클래스에 대한 SD 매칭 스코어를 생성할 것이다. 위에서 논의된 바와 같이, SD 음향 모델은 단일 발성 클래스에 대해 여러 템플릿을 포함할 수 있다. 단계 512에서, VR 엔진(220)은 VR 테스트에 사용하기 위해 하이브리드 결합된 매칭 스코어를 생성한다. 예시적인 실시예에서, 그러한 하이브리드 결합된 매칭 스코어는 각각의 SI 및 각각의 SD 매칭 스코어 양쪽 모두에 근거한다. 단계 514에서, 결합된 가장 좋은 매칭 스코어를 갖는 단어나 발성이 선택되어 테스트 임계치와 비교된다. 발성은 이러한 결합된 매칭 스코어가 그 테스트 임계치를 초과하는 경우에만 인지되는 것으로 간주된다. 예시적인 실시예에서, (도 4에 도시된 바와 같은) 트레이닝을 위해 결합된 스코어를 생성하는데 사용되는 가중치[W1...W6]는 (도 6에 도시된 바와 같은) 테스트를 위한 결합된 스코어를 생성하기 위해 사용되는 가중치[W1...W6]와 동일하지만, 트레이닝 임계치는 테스트 임계치와 동일하지 않다.
도 6은 단계 512에서 수행되는 하이브리드 결합된 매칭 스코어의 생성을 나타낸다. 도시된 예시적인 실시예는, 가중치 인자(W4)가 SIDTWT 대신에 DTWT에 적용되고 가중치 인자(W5)가 SIDTWNT를 대신해서 DTWNT에 적용되는 것을 제외하곤, 도 4에 도시된 결합기와 동일하게 동작한다. DTWT(목표 발성 클래스에 대한 동적 타임 와핑 매칭 스코어)가 목표 발성 클래스와 연관된 SIDTW 및 SDDTW 스코어 중 가장 좋은 것으로부터 선택된다. 마찬가지로, DTWNT(목표가 아닌 나머지 발성 클래스에 대한 동적 타임 와핑 매칭 스코어)는 목표가 아닌 발성 클래스와 연관된 SIDTW 및 SDDTW 스코어 중 가장 좋은 것으로부터 선택된다.
특정 발성 클래스에 대한 SI/SD 하이브리드 스코어(SCOMB _H)는 도시된 바와 같이 EQN.2에 따른 가중된 합인데, 여기서 SIHMMT, SIHMMNT, SIHMMG, 및 SIDTWG는 EQN.1과 동일하다. 특히, EQN.2에서는,
SIHMMT는 목표 발성 클래스에 대한 SIHMM 매칭 스코어이고;
SIHMMNT는 목표가 아닌 발성 클래스(목표 발성 클래스 이외의 발성 클래스)와 연관된 SIHMM 음향 모델의 템플릿에 대한 그 다음의 가장 좋은 매칭 스코어이고;
SIHMMG은 "가비지" 발성 클래스에 대한 SIHMM 매칭 스코어이고;
DTWT는 목표 발성 클래스에 상응하는 SI 및 SD 템플릿에 대한 가장 좋은 DTW 매칭 스코어이고;
DTWNT는 목표가 아닌 발성 클래스에 상응하는 SI 및 SD 템플릿에 대한 가장 좋은 DTW 매칭 스코어이며,
SIDTWG는 "가비지" 발성 클래스에 대한 SIDTW 매칭 스코어이다.
따라서, SI/SD 하이브리드 스코어(SCOMB _H)는 각각의 SI 및 SD 매칭 스코어의 결합이다. 그로 인한 결합 매칭 스코어는 SI 및 SD 음향 모델 중 어느 하나에 전적으로 의존하지 않는다. 만약 매칭 스코어(SIDTWT)가 임의의 SDDTWT 보다 더 좋다면, SI/SD 하이브리드 스코어는 더 좋은 SIDTWT 스코어로부터 계산된다. 마찬가지로, 만약 매칭 스코어(SDDTWT)가 임의의 SIDTWT 스코어보다 더 좋다면, SI/SD 하이브리드 스코어는 더 좋은 SDDTWT 스코어로부터 계산된다. 그 결과, 만약 SD 음향 모델의 템플릿이 나쁜 매칭 스코어를 산출한다면, VR 시스템은 SI/SD 하이브리드 스코어의 SI 부분에 근거해서 입력 스피치를 인지할 수 있다. 그러한 나쁜 SD 매칭 스코어는 트레이닝 및 테스트 동안의 음향 환경이나 트레이닝에 사용되는 어쩌면 나쁜 품질 입력 사이의 차이를 포함하는 여러 원인을 가질 수 있다.
다른 실시예에서, SI 스코어는 SD 스코어보다 상당히 덜 가중되거나, 심지어 는 완전히 무시될 수 있다. 예컨대, DTWT은 목표 발성 클래스와 연관된 SDDTW 스코어 중 가장 좋은 것으로부터 선택됨으로써, 목표 발성 클래스에 대한 SIDTW 스코어를 무시한다. 또한, DTWNT는 양쪽 스코어 세트 모두를 사용하는 대신에 목표가 아닌 발성 클래스와 연관된 SIDTW이나 SDDTW 스코어 중 가장 좋은 것으로부터 선택될 수 있다.
비록 예시적인 실시예는 화자에 따른 모델링을 위해 SDDTW 음향 모델만을 사용하여 설명되었지만, 여기서 설명되는 하이브리드 해결방법은 SDHMM 음향 모델이나 심지어는 SDDTW 및 SDHMM 음향 모델의 결합을 사용하는 VR 시스템에도 동일하게 적용된다. 예컨대, 도 6에 도시된 해결방법을 변경함으로써, 가중 인자(W1)는 SIHMMT 및 SDHMMT 스코어 중 가장 좋은 것으로부터 선택된 매칭 스코어에 적용될 수 있다. 가중 인자(W2)는 SIHMMNT 및 SDHMMNT 스코어 중 가장 좋은 것으로부터 선택된 매칭 스코어에 적용될 수 있다.
따라서, 여기서는 비통제 트레이닝 및 테스트 동안에 향상된 VR 성능을 위한 SI 및 SD 음향 모델의 결합을 사용하는 VR 방법 및 장치가 개시된다. 정보 및 신호는 여러 다른 기술 및 공학 중 임의의 것을 사용하여 나타낼 수 있다는 것을 당업자라면 알 것이다. 예컨대, 위의 설명 전반에 걸쳐 참조될 수 있는 데이터, 지령, 명령, 정보, 신호, 비트, 심벌, 및 칩은 전압, 전류, 전자기파, 자계 도는 입자, 광자계 또는 입자, 또는 그것들의 임의의 결합으로 표현될 수 있다. 또한, 비 록 실시예가 DTW나 HMM 음향 모델을 통해 주로 설명되지만, 설명된 기술은 신경망 음향 모델과 같은 다른 유형의 음향 모델에 적용될 수 있다.
여기서 개시된 실시예와 연관하여 설명된 여러 예시적인 논리 블록, 모듈, 회로, 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 그것들의 결합으로서 구현될 수 있다는 것을 당업자라면 알 것이다. 하드웨어 및 소프트웨어의 그러한 상호 교환 가능성을 명확히 설명하기 위해서, 여러 예시적인 구성성분, 블록, 모듈, 회로, 및 단계가 그것들의 기능을 통해 일반적으로 위에서 설명되었다. 그러한 기능은 하드웨어로 구현되는지 소프트웨어로 구현되는지는 전체 시스템에 부가되는 특정 애플리케이션 및 설계의 제약에 따라 다르다. 숙련된 기술자는 각각의 특정 애플리케이션을 위해 다른 방식으로 상기 설명된 기능을 구현할 수 있지만, 그러한 구현의 결정은 본 발명의 범위로부터 벗어나는 것으로 해석되지 않아야 한다.
여기서 개시된 실시예와 연관하여 설명된 여러 예시적인 논리 블록, 모듈, 및 회로는 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 현장 프로그래밍 가능 게이트 어레이(FPGA)나 다른 프로그램 가능 논리 장치, 별도의 게이트나 트랜지스터 논리부, 별도의 하드웨어 성분, 또는 여기서 설명된 기능을 수행하기 위해 설계된 그것들의 임의의 결합을 통해 구현되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안적으로는, 그 프로세서는 임의의 종래 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수 있다. 프로세서는 또한 예컨대 DSP와 마이크로프로세서의 결합체와 같은 컴퓨팅 장치의 결합체, 복수의 마이크로프로세서, DSP 코어와 연계된 하나 이상의 마이크로프로세서, 또는 임의의 다른 그러한 구성으로 구현될 수 있다.
본 명세서에서 개시된 실시예와 연계하여 설명된 방법이나 알고리즘의 단계들은 하드웨어에 직접 구현되거나, 프로세서에 의해 실행되는 소프트웨어 모듈로 직접 구현되거나, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 탈착 가능 디스크, CD-ROM, 해당 기술분야에 알려져 있는 임의의 다른 형태의 저장 매체에 상주할 수 있다. 예시적인 저장 매체는 프로세서에 접속되는데, 상기 프로세서는 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있다. 대안적으로, 저장 매체는 프로세서의 구성요소일 수 있다. 프로세서와 저장 매체는 ASIC에 상주할 수 있다. 대안적으로, 프로세서와 저장 매체는 사용자 터미널의 별개의 구성성분으로서 상주할 수 있다.
개시된 실시예의 앞선 설명은 당업자가 본 발명을 제작하거나 사용할 수 있도록 제공된다. 그러한 실시예들에 대한 여러 변경이 당업자에게는 쉽게 자명해질 것이고, 본 명세서에서 정의된 일반적인 원리는 본 발명의 사상이나 범위로부터 벗어남이 없이 다른 실시예에 적용될 수 있다. 따라서, 본 발명은 본 명세서에 제시된 실시예로 제한되도록 의도되지 않지만, 여기서 개시된 원리 및 신규한 특징에 따른 가장 광대한 범위를 따를 것이다.