KR100901092B1

KR100901092B1 - 음성인식을 위하여 화자의존모드 및 화자독립모드에서ｄｔｗ와 ｈｍｍ의 결합

Info

Publication number: KR100901092B1
Application number: KR1020037003316A
Authority: KR
Inventors: 퀴잉용; 비닝; 가루다드리하리나스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2000-09-08
Filing date: 2001-09-05
Publication date: 2009-06-08
Also published as: CN1238836C; ATE344959T1; JP2004518155A; WO2002021513A1; HK1058428A1; EP1316086A1; BR0113725A; DE60124408T2; WO2002021513A8; US6754629B1; CN1454381A; TW548630B; EP1316086B1; AU2001288808A1; ES2273885T3; DE60124408D1; KR20030061797A

Abstract

매핑함수를 이용하여, 음성인식엔진 (104, 108, 112, 114) 를 결합하고 개별 음성인식엔진 (104, 106, 108, 112, 114)의 결과들 간의 차이를 해결하는 방법 및 시스템이다. 화자독립 음성인식엔진 (104) 과 화자의존 음성인식엔진 (106) 이 결합된다. 히든 마르코브 모델 (HMM) 엔진 (108, 114) 과 다이내믹 타임워핑 (DTW) 엔진 (104, 106, 112) 이 결합된다.

음성인식, 화자의존, 화자독립

Description

음성인식을 위하여 화자의존모드 및 화자독립모드에서 ＤＴＷ와 ＨＭＭ의 결합 {COMBINING DTW AND HMM IN SPEAKER DEPENDENT AND INDEPENDENT MODES FOR SPEECH RECOGNITION}

I. 기술분야

본 발명은 일반적으로 통신분야에 관한 것으로서, 보다 상세하게는, 신규하고 향상된 음성인식용 시스템 및 방법에 관한 것이다.

II. 배경기술

음성인식 (VR) 은, 의사 (simulated) 지능을 갖는 머신으로 하여금 사용자 또는 사용자의 음성 명령을 인식하게 하여, 인간과 머신과의 인터페이스를 수월하게 하는 가장 중요한 기술 중의 하나이다. 또한, VR 은 인간 음성이해를 위한 주요 기술을 나타낸다. 음향 음성신호로부터 언어 메시지를 복구하는 기술을 채용하는 시스템은 음성인식기 (voice recognizer) 라 불린다. 여기서, "음성인식기" 라는 용어는 주로 임의의 화자와 인터페이스가 가능한 장치를 의미하는데 사용된다.

안전상의 이유때문에, VR (또한, 통상, 음성인식이라 지칭함) 의 이용이 점차 중요해지고 있다. 예를 들면, VR 은 무선 전화기 키패드 상의 버튼을 누르는 수작업을 대체하는데 사용할 수 있다. 사용자가 차량운전시 통화를 개시하는 경우, 이는 특히 중요하다. VR 없이 전화기를 사용하는 경우에는, 전화를 걸기 위해 버튼을 누르는 동안 운전자가 운전대로부터 한 손을 떼서 전화기 키패드를 봐야 한다. 이 행동들은 차량사고의 가능성을 증가시킨다. 음성작동되는 전화기 (즉, 음성 인식용으로 설계된 전화기) 는 운전자가 도로를 계속 관찰하면서 전화를 걸 수 있도록 한다. 또한, 핸즈프리 (hands-free) 자동차 키트 (car-kit) 시스템은 운전자로 하여금 통화 개시동안 양손을 운전대 위에 계속 놓을 수 있게 한다.

음성인식 장치는 화자의존 (speaker-dependent; SD) 장치 또는 화자독립 (speaker-independent; SI) 장치로 구분된다. 보다 흔한 화자의존 장치는 특정 사용자로부터의 명령을 인식하도록 트레이닝 (train) 된다. 이와 달리, 화자독립 장치는 임의의 사용자로부터의 음성명령을 받아들일 수 있다. 주어진 VR 시스템의 성능을 향상시키기 위해서는, 화자의존 장치이든 화자독립 장치이든, 유효 파라미터를 갖는 시스템을 구비하기 위해서 트레이닝이 요청된다. 즉, 시스템이 최적적으로 행동할 수 있기 전에 학습할 필요가 있다.

통상, 화자의존 VR 장치는 2 단계, 즉 트레이닝 단계와 인식단계로 동작한다. 트레이닝 단계에서는, VR 시스템이 사용자로 하여금 시스템 어휘 내의 단어들을 각각 1 번 또는 2 번 (통상 2 번) 말하게 하여, 이 특정 단어들 또는 어구들에 대한 사용자의 음성특색을 학습한다. 핸즈프리 차량키트용의 어휘들은, 예를 들면, 키패드 상의 디지트; "통화", "전송", "다이얼", "취소", "추가", "삭제", "히스토리", "프로그램", "예", 및 "아니오" 등의 키워드; 및 주로 통화하는 동료, 친구, 또는 가족구성원 등 소정 수의 이름들을 포함한다. 일단 트레이닝이 종료하면, 인식단계에서 사용자가 트레이닝된 키워드를 말함으로써 호를 개시할 수 있으며, VR 장치는 이전에 트레이닝된 발성 (utterance; 템플릿으로서 저장됨) 과 화자의 발성을 비교하여 최적의 매칭을 취함으로써 그 키워드를 인식한다. 예를 들면, "John" 이라는 이름이 트레이닝된 이름들 중의 하나이면, 사용자는 "John 과 통화" 라는 어구를 말함으로써 John 에게 통화를 개시할 수 있다. 그 VR 시스템은 "통화" 와 "John" 이라는 단어들을 인식하여, John 의 전화번호로 사용자가 이전에 입력하였던 번호에 전화를 건다. 트레이닝을 위한 시스템 및 방법.

또한, 화자독립 VR 장치는 소정 크기 (예를 들면, 일정한 제어 단어, 0 부터 9까지의 숫자, 예 그리고 아니오) 의 미리 기록된 어휘를 포함하는 트레이닝 템플릿을 이용한다. 그 어휘내의 각각의 단어를 말하는 다수의 화자 (예를 들면, 100명) 는 기록되어야 한다.

서로다른 화자독립 VR 장치는 서로다른 결과를 낳을 수 있다. 예를 들면, 화자독립 (SI) 히든 마르코브 모델 (Hidden Markov Model; HMM) 엔진은 화자독립 다이내믹 타임 워핑 (Dynamic Time Warping; DTW) 엔진과 다른 결과를 낳을 수 있다. 이 두 엔진들의 결과를 결합하면, 단독 엔진의 결과를 이용하는 경우보다 시스템이 보다 우수한 인식정확도와 낮은 거부율을 갖는다.

화자의존 VR 과 화자독립 VR 은 서로다른 결과를 낳을 수 있다. 화자의존 엔진은 특정 사용자와 관련되는 템플릿을 이용하여 인식을 행한다. 화자독립 엔진은 사용자 집합 (ensemble) 으로부터의 표본를 이용하여 생성되는 템플릿을 이용하여 인식을 행한다. 화자 특정 템플릿이 주어진 사용자의 말하기 스타일에 근접하기 때문에, SD 엔진이 SI 엔진보다 우수한 정확도를 제공한다. 그러나, SI 엔진은 사용자들이 시스템을 사용하기 전에 "트레이닝 공정" 을 거칠 필요가 없는 이점이 있다.

서로다른 형태의 엔진들을 결합하는 시스템과 방법이 요구된다. 다수의 엔진을 결합하는 것은 향상된 정확도를 제공하며 입력 음성신호에 있는 정보를 보다 많이 이용할 수 있다. VR 엔진을 결합하는 시스템과 방법이 2000년 7월 18일에 출원되고 본 발명의 양수인에게 양도된 발명의 명칭이 "Combined Engine System and Method for Voice Recognition" 인 미국 특허출원번호 제 09/618,177 호에 개시되며, 여기서 참조로서 통합된다.

판정로직 VR 시스템은 발견적 (heuristic) 로직을 이용하여 판정규칙을 고안한다. 통상, 판정로직은 각 엔진의 최선 후보 (단어) 템플릿과 테스팅 발성 간의 측정된 거리로 개시한다. 예를 들면, 2 개의 엔진 (엔진 D 와 H) 이 사용된다고 가정한다. d₁ 과 d₂ 가 엔진 D 의 2개의 최선 후보와 테스트 발성 간의 거리를 나타내고, h₁ 과 h₂ 가 엔진 H 의 2 개의 최선 후보와 테스트 발성 간의 거리를 나타낸다고 하자. d_g 와 h_g 는 엔진 D 와 엔진 H 각각의 "쓰레기 (garbage)" 템플릿과 테스트 발성 간의 거리를 나타낸다고 하자. 쓰레기 템플릿은 어휘에 있지 않은 모든 단어를 나타내는데 사용된다. 판정로직은 이렇게 측정된 거리들과 일련의 소정 문턱값들 간의 일련의 비교를 포함한다. 그러나, 비교규칙과 문턱값은 시스템적으로 최적화될 수 없기 때문에, 시행착오에 의해 일부분 합성되고 조정될 필요가 있다. 이는 시간을 낭비하고 다루기 힘든 프로세스이다. 또한, 발견적 규칙이 애플리케이션에 의존일 수 있다. 예를 들면, 각 엔진에 대하여 2개의 최선 단어가 아닌 3개의 최선 단어를 이용하는 경우에는, 일련의 새로운 규칙들이 합성될 필요가 있다. 무잡음 (noise-free) 음성을 인식하는 일련의 규칙들은 잡음섞인 음성을 인식하는 규칙들과 다를 가능성이 있다.

따라서, 복수개의 서로다른 VR 엔진으로부터 서로다른 결과들을 해결하는 시스템과 방법이 요구된다.

요약

상술되는 실시예들은 음성인식용 시스템과 방법을 나타낸다. 일실시예에서는, 음성인식을 향상시키기 위해서 복수개의 음성인식엔진을 결합하는 방법이 제공된다. 그 방법은 복수개의 음성인식엔진을 매핑모듈에 결합시키는 것을 포함하는 이점이 있다. 각각의 VR 엔진이 가설 (hypothesis), 즉 단어 후보를 생성한 후, 매핑모듈이 복수개의 VR 엔진에 의해 생성되는 가설들로부터 1 개의 가설을 선택하기 위해서 매핑함수를 적용한다.

일실시예에서, 화자독립 음성인식엔진들이 결합된다. 다른 실시예에서는, 화자의존 음성인식엔진들이 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 화자의존 음성인식엔진과 결합된다.

일실시예에서, 화자독립 음성인식엔진은 다이내믹 타임워핑 음성인식엔진이다. 일실시예에서, 화자독립 음성인식엔진은 히든 마르코브 모델이다. 일 실시예에서, 화자의존 음성인식엔진은 다이내믹 타임워핑 음성인식엔진이다. 일실시예에서, 화자의존 음성인식엔진은 히든 마르코브 모델이다.

도면의 간단한 설명

이하, 본 발명의 특징, 목적 및 이점을 첨부된 도면을 참조하여 상세히 설명하며 동일한 참조부호는 동일한 구성요소를 나타낸다.

도 1 은 3 가지 형태의 음성인식엔진를 갖는 음성인식시스템의 일 실시예를 나타낸다.

도 2 는 DTW 엔진과 HMM 엔진을 포함하는 음성인식시스템을 나타낸다.

도 3 은 2 개의 음성인식엔진을 갖는 음성인식시스템의 일실시예를 나타낸다.

상세한 설명

일실시예에서, 도 1 에 나타낸 음성인식시스템 (3) 은 고립된 단어 인식작업을 행할 수 있는, 다이내믹 타임워핑 화자 독립 (DTW-SI) 엔진 (104), 다이내믹 타임워핑 화자 의존 (DTW-SD) 엔진 (106), 및 히든 마르코브 모델 (HMM) 엔진 (108) 인 3 가지 형태의 음성인식엔진을 갖는다. 이 엔진들은, 예를 들면, 이동전화기, 개인 디지털 어시스턴트 (PDA) 등과 같은 핸드헬드 (handheld) 장치에 의해 행해지는 일상 작업에 풍부한 화자 인터페이스를 제공하기 위하여, 명령단어 인식과 숫자인식용으로 사용된다. 다른 실시예에서는, 음성인식시스템 (100) 이 DTW-SI 엔진 (104) 과 DTW-SD 엔진 (106) 을 구비한다. 또다른 실시예에서는, 음성인식시스템 (100) 이 DTW-SI 엔진 (104) 과 HMM 엔진 (108) 을 구비한다. 또다 른 실시예에서는, 음성인식시스템 (100) 이 DTW-SD 엔진 (106) 과 HMM 엔진 (108) 을 구비한다. 일실시예에서, HMM 엔진 (108) 은 화자독립이다. 다른 실시예에서는, HMM 엔진 (108) 이 화자의존이다. 당업자는 임의의 기지의 VR 엔진이 사용될 수 있음을 인식할 것이다. 또다른 실시예에서는, 복수개의 다른 VR 엔진 형태가 결합된다. 엔진이 임의의 결합으로 구성될 수 있음은 당업자에게 명백하다.

일실시예에 따라서, 도 1 에 나타낸 바와 같이, 음성인식시스템 (100) 이 아날로그 디지털 컨버터 (A/D; 102), DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 을 구비한다. 일실시예에서, A/D (102) 는 하드웨어 A/D 이다. 다른 실시예에서는, A/D (102) 가 소프트웨어로 구현된다. 일실시예에서, A/D (102) 와 엔진 (104, 106, 108) 들은 1 개의 장치로서 구현된다. A/D (102) 와 엔진 (104, 106, 108) 들은 임의 개수의 장치에 구현되어 분산될 수 있다.

A/D (102) 는 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 과 결합된다. 그 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 은 매핑모듈 (110) 에 결합된다. 그 매핑모듈은 입력으로 엔진 (104, 106, 108) 의 출력을 취하고, 음성신호 s(t) 에 대응하는 단어를 생성한다.

음성인식시스템 (100) 은 예를 들면, 무선전화기 또는 핸즈프리 차량키트내에 주재할 수 있다. 사용자는 (도시생략) 단어 또는 어구를 말함으로써, 음성신호를 생성한다. 그 음성신호는 통상의 트랜스듀서 (transducer; 도시생략) 에 의해 전기적 음성신호, s(t) 로 변환된다. 그 음성신호, s(t) 는 A/D (102) 에 제공되어, 예를 들면, 펄스부호화 변조 (PCM), A-law, 또는 μ-law 와 같은 기지의 샘플링 방법에 의해 디지털화된 음성샘플로 변환된다. 일 실시예에서는, 통상, 매초 N 개의 16-비트의 음성샘플들이 있다. 따라서, 샘플링 주파수가 8,000 ㎐ 에서는 N=8000 이고, 16,000 ㎐ 에서는 N=16,000 이다.

그 음성샘플들이 DTW-SI 엔진 (104), DTW-SD 엔진 (106), 및 HMM 엔진 (108) 에 제공된다. 각각의 엔진은 음성샘플들을 처리하여, 가설들, 예들 들면, 음성신호 s(t) 에 대한 후보단어들을 생성한다. 그 후, 매핑모듈은 후보단어들을 판정공간에 매핑시켜, 음성신호 s(t) 를 가장 잘 반영하는 후보단어를 선택하기 위해서, 그 후보단어들을 평가한다.

일실시예에서는, 도 2 에 나타낸 바와 같이, 음성인식시스템이 2 개의 VR 엔진을 구비한다. 그 음성인식시스템 (100) 은 DTW 엔진 (112) 과 HMM 엔진 (114) 를 구비한다. 일실시예에서, DTW 엔진은 화자독립 VR 엔진이다. 다른 실시예에서는, DTW 엔진이 화자의존 VR 엔진이다. 일실시예에서, HMM 엔진은 화자독립 VR 엔진이다. 다른 실시예에서는, HMM 엔진이 화자의존 VR 엔진이다.

이 실시예들에서, 시스템은 DTW 와 HMM 양자 모두의 이점을 가진다. 일실시예에서는, 음성인식시스템이 입력음성신호를 인식하기 위하여 트레이닝되는 트레이닝 단계동안, DTW 와 HMM 템플릿이 명시적으로 생성된다. 다른 실시예에서는, 음성인식시스템의 통상의 사용동안, DTW 와 HMM 템플릿이 묵시적으로 생성된다. 예시적인 트레이닝 시스템과 방법이 1999년 2월 8일에 출원되고 본 발명의 양수인에게 양도되어 여기서 참조되는, 발명의 명칭이 "VOICE RECOGNITION REJECTION SCHEME" 인 미국특허출원번호 제 09/248,513 호와, 1999년 1월 4일에 출원되고 본 발명의 양수인에게 양도되어 여기서 참조되는, 발명의 명칭이 "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS" 인 미국특허출원번호 제 09/225,891 호에 개시되어 있다.

음성인식시스템의 모든 어휘에 대한 일련의 템플릿들이 플래시 메모리와 같은 임의의 통상형태의 비휘발성 저장매체에 저장된다. 이는, 음성인식시스템 (100) 의 전력이 꺼질 경우, 템플릿이 저장매체내에 잔류할 수 있게 한다. 일실시예에서, 일련의 템플릿들은 화자독립 템플릿 구축 시스템으로 구성된다. 일실시에에서, 명령단어들은 VR 엔진 어휘내에 포함된다.

DTW 기술은 당해 기술에서는 기지의 기술이며, 여기서 참조되는 Lawrence Raniner & Biign-Hwang Juang, Fudalmentals of Speech Recognition 200-238 (1993) 에 개시된다. DTW 기술에 따르면, 템플릿 데이타베이스에 저장되는 각각의 발성의 시계열에 대하여 테스트되는 발성의 시계열을 플롯 (plot) 함으로써 격자 (trellis) 가 형성된다. 그 후, 테스트되는 발성이 템플릿 데이타베이스내의 각각의 발성과, 1 번에 1 개씩 점대점으로 (예를 들면, 매 10 ㎳ 마다) 비교된다. 템플릿 데이타베이스 내의 각각의 발성에 대해서, 테스트되는 발성이 조정, 즉 "워핑" 되어, 템플릿 데이타베이스 내의 발성과 가장 유사한 매칭이 획득될 때까지, 시간상 특정 지점에서 압축되거나 확장된다. 시간상의 각각의 지점에서, 2 개의 발성이 비교되어, 그 지점에서 매칭이 선언되거나 (비용없음) 미스매칭 이 선언된다. 특정 지점에서 미스매칭이 발생한 경우에는, 테스트되는 발성이 압축, 확장, 또는 필요시, 미스매칭된다. 그 프로세스는 2 개의 발성 각각에 대하여 완전히 비교될 때까지 계속된다. 다수 (통상 수천개) 의 서로 다르게 조정된 발성이 가능하다. 최저비용함수 (즉, 최소개수의 얍축 및/또는 확장 및/또는 미스매칭) 로 조정된 발성이 선택된다. 이 선택은, 비터비 (Viterbi) 디코딩 알고리즘과 유사한 방식으로, 전체비용이 가장낮은 경로를 결정하기 위해서, 템플릿 데이타베이스에서의 발성의 각 지점을 역방향으로 (backward) 관찰함으로써 행해지는 이점이 있다. 이는, 서로 다르게 조정된 발성들 중의 가능한 하나를 모두 생성하는 "브루트-포스 (brute-force)" 에 의존하지 않고도 최저비용으로 (즉, 가장 유사하게 매칭된) 조정된 발성을 결정할 수 있게 한다. 그 후, 최소비용으로 조정된 발성들이 템플릿 데이타베이스의 모든 발성에 대하여 비교되어, 테스트되는 발성에 가장 유사하게 매칭되어 저장되는 발성으로서 최소비용을 갖는 것이 선택된다.

비록 DTW 엔진 (104) 의 DTW 매칭방식과 HMM 엔진 (108) 의 비터비 디코딩은 유사하지만, 매칭 단계에서 특징 벡터를 제공하기 위해서, DTW 엔진과 HMM 엔진은 서로다른 전단 (front end) 방식, 즉 특징추출기 (feature extractor) 를 이용한다. 이러한 이유때문에, DTW 엔진과 HMM 엔진의 에러패턴은 매우 다르다. 결합엔진을 갖는 음성인식시스템은 에러 패턴들의 차이점을 활용한다. 두 엔진으로부터의 결과를 적절히 결합함으로써, 전체적으로 보다 높은 인식정확도를 획득할 수 있다. 보다 중요하게, 원하는 인식정확도에서 더욱 낮은 거부율을 획득 할 수 있다.

일실시예에서는, 동일한 어휘 집합에서 동작하는 화자독립 음성인식엔진이 결합된다. 다른 실시예에서는, 화자의존 음성인식엔진이 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 동일한 어휘집합에서 동작하는 화자의존 음성인식엔진과 결합된다. 또다른 실시예에서는, 화자독립 음성인식엔진이 다른 어휘집합에서 동작하는 화자의존 음성인식엔진과 결합된다.

각각의 엔진은 그 어휘내의 어떤 단어가 말하여 졌는지에 관한 출력을 생성한다. 각각의 출력은 입력신호에 대한 1 개의 단어후보를 포함한다. 입력신호에 대응하지 않는 단어들은 거부된다. 예시적인 거부방식은, 여기서 참조되는 미국특허출원번호 제 09/248,513 호에 개시된다.

임베디드 (embedded) 시스템에서는 한정된 계산 자원등으로 인해서 정확한 음성인식이 어렵다. 시스템 정확도를 높이기 위해서는, 다수개의 인식 엔진을 사용하여 음성인식이 획득된다. 그러나, 서로다른 VR 엔진은 서로다른 결과를 생성할 수 있다. 예를 들면, 한 엔진이 최선의 후보단어들로 "Jane" 과 "Joe" 를 선택할 수 있는 반면, 다른 VR 엔진은 2 개의 최선 후보로 "Julie" 와 "Joe" 를 선택할 수 있다. 이 서로다른 결과들은 해결될 필요가 있다. 해답은 구해져야 하며, 즉, 1 개의 후보단어가 선택될 필요가 있다. VR 시스템은 다수개의 엔진이 작용하는 후보단어들에 기초하여 판정을 내려야 한다.

일실시예에서, X (X=2,3,...) 개의 엔진들이 결합되고, 각각의 엔진은 Y (Y=1,2,...) 개의 후보단어들을 생성한다. 따라서, X*Y 후보들 중에서 오직 하 나만이 정확한 정답이다. 다른 실시예에서, 각각의 엔진은 서로다른 개수의 후보들을 생성할 수 있다.

2 개의 엔진 D 와 H 를 갖는 실시예에서, d₁ 과 d₂ 는 엔진 D 의 테스트 발성과 2 개의 최선 후보단어 간의 거리를 나타내며, h₁ 과 h₂ 는 엔진 H 의 테스트 발성과 2 개의 최선 후보단어 간의 거리를 나타낸다. 변수 d_g 와 h_g 는 엔진 D 와 엔진 H 의 "쓰레기" 템플릿과 테스트 발성간의 거리를 각각 나타낸다. 쓰레기 템플릿은 어휘에 있지 않은 모든 단어들을 표현하는데 사용된다.

일실시예에서, VR 엔진들에 의해 생성된 후보들로부터 1개의 후보를 선택하는 판정은 측정공간 (d₁, d₂,... d_g 와 h₁, h₂,..,h_g) 으로부터 판정공간 (리스트 내의 단어들 중 하나로서 테스트 발성을 수용/거부) 의 매핑에 기초하여 행해진다. 일실시예에서, 매핑은 선형 매핑이다. 다른 실시예에서, 매핑은 비선형매핑이다.

일실시예에서 따라서, 도 3 은 DTW-기반 VR 엔진과 HMM-기반 VR 엔진을 갖는 장치에 의해 행해지는 방법단계들의 흐름도를 나타낸다. 단계 200 에서, 테스트 발성 (T_u) 이 획득된다. 일단 테스트 발성 (T_u) 이 획득되면, 단계 202 에서, DTW 음성인식 분석이 테스트 발성 (T_u) 에 대하여 행해지고, 단계 204 에서 HMM 음성인식분석이 테스트 발성 (T_u) 에 대하여 행해진다. 단계 206 에서, 일련의 DTW 후보단어들 (D_i) 이 획득된다. 단계 208 에서, 일련의 HMM 후보단어들 (H_i) 이 획득된다. 단계 210 에서, 선형매핑함수가 각각의 DTW 후보단어 (D_i) 와 각각의 HMM 후보단어 (H_i) 에 적용된다. 단계 212 에서, 후보단어의 인식이 선형 매핑 결과에 기초한다. 단계 212 에서, 인식된 단어 W(T_u) 로서 최소 매핑함수값을 갖는 후보단어가 선택된다. 단계 214 에서, 인식된 단어 (W(T_u)) 의 매핑함수값이 문턱값과 비교된다. 단계 216 에서, 인식된 단어 (W(T_u)) 의 매핑함수값이 문턱값보다 작을 경우, 인식된 단어가 거부된다. 단계 218 에서는, 인식된 단어 (W(T_u)) 의 매핑함수값이 문턱값보다 크면, 인식된 단어가 수용된다.

D _i ^Wj 는 테스트 발성 (T_u) 과 어휘내 단어들 (W_j, j=1,2,...,N) 간의 거리이다. W_j는 일련의 후보단어들이며, 여기서 인덱스 j 는 집합번호이며, N 은 집합들의 개수이다. 각각의 집합은 수개의 후보단어들을 가지며, 그 개수는 양의 정수이다. 인덱스 i 는 VR 엔진 번호이다.

또한, 각각의 VR 엔진은 테스트 발성 (T_u) 과 어휘밖의 단어 템플릿 (W_g) 간의 거리 (D_g) 를 생성한다. 어휘내 단어는 VR 엔진의 어휘내에 있는 단어이다. 어휘 밖의 단어는 VR 엔진의 어휘에 있지 않은 단어이다.

매핑함수의 결과가 문턱값보다 크면, 평가된 후보단어는 유효하고 입력이 수용된다. 그렇지 않은 경우에는, 입력이 거부된다.

표 1 은 DTW 엔진과 HMM 엔진을 갖는 일실시예에서 거리 행렬을 나타내며, 각각의 엔진으로부터의 2개의 최선 단어들이 후보집합으로 선택된다. D₁ 과 D₂ 는 DTW VR 엔진으로부터의 2개의 최선 단어들이며, H₁ 과 H₂ 는 HMM VR 엔진으로부터의 2개의 최선 단어들이다.

하나의 VR 엔진은 X 거리를 생성하고 다른 VR 엔진은 Y 거리를 생성하는 2 개의 VR 엔진을 갖는 실시예에서는, 총 X*Y 개의 후보단어가 생성된다.

후보집합으로부터 단지 1 개의 단어가 인식되며, 그 인식이 거부/수용될 지를 판정한다. 일실시예에서, 선형매핑함수는 후보집합으로부터 단어를 선택하는 것과 선택 또는 거부판정을 하는 것에 모두 사용된다.

후보단어들의 각각의 집합, W_i , i=1,2,3,4 는 표 1 에 나타낸 대응 측정벡터를 갖는다.

표 1

D 는 DTW 엔진을 나타낸다. H 는 HMM 엔진을 나타낸다. D_i ^Wi는 T_u 와 W_i 간의 거리이다. D₂ ^Wi는 W_i 를 제외한 2번째로 가장 적합한 후보에 대한 거리이다. D_g 는 T_u 와 쓰레기 템플릿 간의 거리를 나타낸다. H₁ ^Wi, H₂ ^Wi, H_g는 각각 DTW 엔진에 대해 나타낸 것과 동일하다.

선형 매핑함수는 다음과 같은 형태이다.

M _i (D,H)=C _o + c ₁ D ₁ ^Wi + c ₂ D ₂ ^Wi + c ₃ D _g + c ₄ H ₁ ^Wi + c ₅ H ₂ ^Wi + c _n H _g , 여기서, c _i (i=0,1,...,n) 는, 일실시예에서, 실수인 상수이며, 다른 실시예에서는 음성파라미터이다. 인덱스 i 의 상한은 n 이다. 상한 n 은 음성인식시스템의 VR 엔진의 개수와 각각의 VR 엔진에 대한 후보단어들의 개수의 합과 같다. 일실시예에서, 2 개의 VR 엔진과 VR 엔진당 2 개의 후보단어를 갖는 실시예에서, n=6 이다. n 의 계산은 다음과 같다.

2 개의 VR 엔진 2

제 1 VR 엔진에 대한 2 개의 후보단어들 +2

제 2 VR 엔진에 대한 2 개의 후보단어들 +2

n=6

단어인식과 단어수용을 위한 판정규칙은 다음과 같다.

1. M _i (D,H) 를 최대화하는 단어가 인식되는 단어로 선택된다; 그리고

2. M _i (D,H)> 0 일 경우, 인식이 수용되고, M _i (D,H)≤0 일 경우, 인식은 거부된다.

매핑함수는 수용/거부의 오류 에러를 객관적으로 최소화하도록 구성되거나 트레이닝된다. 일실시예에서, 상수 c_i (i=0,1,...,n) 는 트레이닝으로부터 획득된다. 트레이닝 처리에서, 각각의 테스트 샘플의 존재 (identity) 는 알려져 있다. (W₁, W₂, W₃, 및 W₄ 중에서) 1 개의 단어에 대한 측정벡터는 옳음 (+1) 으로서 표시되고, 그 나머지는 그름 (-1) 으로서 표시된다. 트레이닝은 잘못 분류된 개수를 최소화하도록 c=c_i (i=0,1,...,n) 계수 벡터값을 결정한다.

벡터 b 는 각각의 트레이닝 벡터의 옳음/그름 속성을 가리키며, W 는 각각의 행이 측정벡터 D₁ ^Wi , D₂ ^Wi , D_g , H₁ ^Wi , H₂ ^Wi , H₂ , (i=1,..,4) 인 측정 행렬이다. 일실시예에서, c 는 W 의 의사역행렬 (pseudo-inverse) 을 계산함으로써 획득된다.

c = (W ^T W) ^-1 W ^T b

이 절차는 평균제곱에러 (mean squre error; MSE) 를 최소화한다. 또한, 다른 실시예에서는, 총 에러 카운트를 최소화하는 것과 같은 향상된 에러최소화 절차가 계수 벡터 c 를 구하는데 사용된다. 당해 기술에 기지인 다른 에러 최소화 절차가 계수 벡터 c 를 구하는 데 사용될 수 있다.

매핑함수 방법은 다수개의 (>2) 엔진들과 다수개의 (>2) 단어후보들에 동등하게 적용될 수 있다. L 개의 VR 엔진이 있고, 각각의 엔진이 N 개의 단어후보를 생성하는 경우, 일반화된 매핑함수는 다음과 같은 형태를 갖는다.

C ₀ 는 문턱값 상수이다. c _k ^l 는 VR 엔진 l 에 대한 k 번째 매핑상수이다. V(l)_k ^Wi은 VR 엔진 l 로부터의 단어후보 W_i 에 대한 k 번째 거리이다.

일실시예에서, 매핑함수는 비선형이다. 매핑함수에서 계수 대신 1 개 이상의 변수/파라미터가 사용될 수 있다. 일실시예에서, 매핑함수에 사용되는 1 개 이상의 변수/파라미터는 VR 엔진으로부터의 음성 파라미터이다. 1 개 이상의 변수/파라미터는 음성신호 s(t) 의 측정 또는 처리로부터 취해진 음성파라미터일 수 있음을 당업자는 명백히 알 수 있다.

따라서, 음성인식용 엔진을 결합하는 신규하고 향상된 방법 및 장치가 개시된다. 당업자는 여기서 개시된 실시예들과 결합하여 예증이 되는 다양한 논리블록, 모듈, 및 매핑이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 결합으로 구현될 수 있음을 인식할 것이다. 예증이 되는 다양한 구성성분, 블록, 모듈, 회로들 및 단계들이 주로 그들의 기능 측면에서 개시된다. 그 기능이 하드웨어 또는 소프트웨어로서 구현되는 지는 특정 애플리케이션과 전체 시스템에 부과된 설계한계에 의존한다. 당업자는 이 환경하에서 하드웨어와 소프트웨어의 교환가능성 및 각각의 특정 애플리케이션에 대한 상술한 기능을 얼마나 잘 구현할 수 있는가를 인식할 것이다. 예를 들면, 여기서 개시되는 실시예들과 결합하여 예증이 되는 다양한 논리블록, 모듈, 매핑들은, 일련의 펌웨어 명령, 애플리케이션 특정 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA) 또는 다른 프로그래 밍이 가능한 논리 소자, 디스크리트 게이트 또는 트랜지스터 로직, 레지스터와 같은 디스크리트 하드웨어 구성성분, 임의의 통상 프로그래머블 소프트웨어 및 프로세서, 또는 여기서 설명된 기능을 수행하도록 설계된 것들과 결합하여 구현되거나 행해질 수 있다. A/D (102), VR 엔진, 및 매핑모듈 (110) 은 마이크로프로세서 내에서 행해지는 이점이 있는 한편, 임의의 통상의 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 상태 머신 (state machine) 에서 행해질 수도 있다. 템플릿은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 리무버블 (removable) 메모리, CD-ROM 등, 또는 당해 기술에서 기지인 임의 형태의 다른 저장매체에 주재할 수 있다. 메모리 (도시생략) 는 상술한 임의의 프로세서 (도시생략) 의 구성요소일 수 있다. 프로세서 (도시생략) 와 메모리 (도시생략) 는 ASIC (도시생략) 내에 주재할 수 있다. 그 ASIC 은 전화기에 주재할 수 있다.

본 발명에 대한 실시예의 상술한 설명은 당업자로 하여금 본 발명을 제조 또는 사용할 수 있게 제공된다. 본 실시예들의 다양한 변형이 당업자에게 명백하며, 여기서 정의된 고유한 원리는 본 발명의 정신을 이용하지 않는 다른 실시예에도 적용될 수 있다. 따라서, 본 발명은 여기서 나타낸 실시예들에 한정하려는 것이 아니라, 여기서 개시된 원리와 신규한 특징에 부합하는 최광위에 부여하려는 것이다.

Claims

각각이 일 단어후보를 생성하도록 구성되는 복수개의 음성인식 (VR) 수단; 및

상기 복수개의 음성인식수단으로부터 상기 단어후보들을 입력으로서 취하고, 매핑함수에 기초하여 일 단어후보를 선택하도록 구성되는 매핑수단을 구비하는 것을 특징으로 하고,

상기 매핑함수는,M_i(F,S)=C_o + c₁F₁ ^Wi + c₂F₂ ^Wi + c₃F_g + c₄S₁ ^Wi + c₅S₂ ^Wi + c_nS_g 이고,

F 는 제 1 음성인식수단이고, S 는 제 2 음성인식수단이며, F₁ ^Wi는 발성 T_u와 후보단어 W_i간의 거리이고, F₂ ^Wi는 W_i 를 제외한 제 2 최선 후보에 대한 거리이며, F_g는 상기 발성 T_u와 쓰레기 (garbage) 템플릿 간의 거리를 나타내며, S₁ ^Wi는 T_u와 W_i간의 거리이고, S₂ ^Wi는 W_i를 제외한 제 2 최선 후보에 대한 거리이며, S_g는 T_u와 쓰레기 템플릿 간의 거리를 나타내고, c_i (i=0,1,..n) 은 계수이며, 상한 n 은 음성인식수단들의 개수의 합과 각각의 음성인식수단에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,

상기 복수개의 음성인식수단은 화자독립 음성인식수단을 포함하는 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,

상기 복수개의 음성인식수단은 화자의존 음성인식수단을 포함하는 것을 특징으로 하는 음성인식시스템.
제 2 항에 있어서,

상기 복수개의 음성인식수단은 화자의존 음성인식수단을 포함하는 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,

상기 화자독립 음성인식수단 중 하나 이상은 다이내믹 타임워핑 (Dynamic Time Warping) 음성인식수단인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,

상기 화자독립 음성인식수단 중 하나 이상은 히든 마르코브 모델 (Hidden Markov Model) 음성인식수단인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,

상기 화자의존 음성인식수단 중 하나 이상은 다이내믹 타임워핑 음성인식수단인 것을 특징으로 하는 음성인식시스템.
제 4 항에 있어서,

상기 화자의존 음성인식수단 중 하나 이상은 히든 마르코브 모델 인식수단인 것을 특징으로 하는 음성인식시스템.
삭제
삭제
제 1 항에 있어서,

상기 단어후보는 단어후보 템플릿과 발성 간의 거리에 의해 표현되는 것을 특징으로 하는 음성인식시스템.
제 11 항에 있어서,

상기 매핑수단은 각각의 음성인식수단으로부터의 각각의 거리를 계수와 승산하고 그 결과를 다른 계수 C_o 와 가산하여 합을 구하는 것을 특징으로 하는 음성인식시스템.
제 12 항에 있어서,

단어후보는 상기 합에 기초하여 선택되는 것을 특징으로 하는 음성인식시스템.
삭제
제 1 항에 있어서,

상기 계수는 실수 상수인 것을 특징으로 하는 음성인식시스템.
제 1 항에 있어서,

상기 계수는 음성파라미터인 것을 특징으로 하는 음성인식시스템.
각각이 일 단어후보를 생성하도록 구성되는 복수개의 음성인식 (VR) 수단; 및

상기 복수개의 음성인식수단으로부터 상기 단어후보들을 입력으로서 취하고, 매핑함수에 기초하여 일 단어후보를 선택하도록 구성되는 매핑수단을 구비하는 것을 특징으로 하고,

상기 매핑함수는,

이며,

여기서 C_o는 문턱값 상수이고, c_k ^l 는 음성인식수단 (l) 에 대한 k 번째 매핑상수이며, V(l)_k ^Wi은 음성인식수단 (l) 으로부터의 단어후보 W_i 에 대한 k 번째 거리인 것을 특징으로 하는 음성인식시스템.
테스트 발성에 대한 하나 이상의 후보단어를 획득하는 단계; 및

매핑함수에 기초하여 상기 하나 이상의 후보단어로부터 인식된 단어를 선택하는 단계를 포함하는 것을 특징으로 하고,

상기 매핑함수는, M_i(F,S)=C_o + c₁F₁ ^Wi + c₂F₂ ^Wi + c₃F_g + c₄S₁ ^Wi + c₅S₂ ^Wi + c_nS_g 이며,

F 는 제 1 음성인식수단이고, S 는 제 2 음성인식수단이며, F₁ ^Wi는 발성 T_u와 후보단어 W_i간의 거리이고, F₂ ^Wi는 W_i 를 제외한 제 2 최선 후보에 대한 거리이며, F_g는 상기 발성 T_u와 쓰레기 템플릿 간의 거리를 나타내며, S₁ ^Wi는 T_u와 W_i간의 거리이고, S₂ ^Wi는 W_i를 제외한 제 2 최선 후보에 대한 거리이며, S_g는 T_u와 쓰레기 템플릿 간의 거리를 나타내고, c_i (i=0,1,..n) 은 계수이며, 상한 n 은 음성인식수단들의 개수의 합과 각각의 음성인식수단에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식방법.
삭제
삭제
제 18 항에 있어서,

상기 단어후보는 단어후보 템플릿과 상기 테스트 발성 간의 거리에 의해 표현되는 것을 특징으로 하는 음성인식방법.
제 21 항에 있어서,

상기 매핑함수는 각각의 거리를 계수와 승산하고, 그 결과를 다른 계수 C_o와 가산하여 합을 생성하는 것을 특징으로 하는 음성인식방법.
제 22 항에 있어서,

인식된 단어는 상기 합에 기초하여 선택되는 것을 특징으로 하는 음성인식방법.
삭제
제 18 항에 있어서,

상기 계수는 실수 상수인 것을 특징으로 하는 음성인식방법.
제 18 항에 있어서,

상기 계수는 음성파라미터인 것을 특징으로 하는 음성인식방법.
테스트 발성에 대한 하나 이상의 후보단어를 획득하는 단계; 및

매핑함수에 기초하여 상기 하나 이상의 후보단어로부터 인식된 단어를 선택하는 단계를 포함하는 것을 특징으로 하고,

상기 매핑함수는,

이며,

여기서 C_o는 문턱값 상수이고, c_k ^l 는 음성인식수단 (l) 에 대한 k 번째 매핑상수이며, V(l)_k ^Wi은 음성인식수단 (l) 으로부터의 단어후보 W_i 에 대한 k 번째 거리인 것을 특징으로 하는 음성인식방법.
테스트 발성을 획득하는 단계;

상기 테스트 발성을 분석하는 단계;

상기 테스트 발성의 분석에 기초하여 상기 테스트 발성에 대한 하나 이상의 후보단어를 제공하는 단계;

상기 하나 이상의 후보단어에 매핑함수를 적용하는 단계;

상기 하나 이상의 후보단어의 매핑함수값에 기초하여 상기 하나 이상의 후보단어로부터 일 후보단어를 선택하는 단계; 및

상기 선택된 후보단어의 상기 매핑함수값과 문턱값을 비교하는 단계를 포함하는 것을 특징으로 하고,

상기 매핑함수는,M_i(F,S)=C_o + c₁F₁ ^Wi + c₂F₂ ^Wi + c₃F_g + c₄S₁ ^Wi + c₅S₂ ^Wi + c_nS_g 이고,

F 는 제 1 음성인식수단이고, S 는 제 2 음성인식수단이며, F₁ ^Wi는 발성 T_u와 후보단어 W_i간의 거리이고, F₂ ^Wi는 W_i 를 제외한 제 2 최선 후보에 대한 거리이며, F_g는 상기 발성 T_u와 쓰레기 (garbage) 템플릿 간의 거리를 나타내며, S₁ ^Wi는 T_u와 W_i간의 거리이고, S₂ ^Wi는 W_i를 제외한 제 2 최선 후보에 대한 거리이며, S_g는 T_u와 쓰레기 템플릿 간의 거리를 나타내고, c_i (i=0,1,..n) 은 계수이며, 상한 n 은 음성인식수단들의 개수의 합과 각각의 음성인식수단에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식방법.
제 28 항에 있어서,

상기 비교에 기초하여 상기 선택된 후보단어를 수용하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
제 28 항에 있어서,

상기 비교에 기초하여 상기 선택된 후보단어를 거부하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
서로다른 복수개의 음성인식 기술들을 이용하여, 디지털화된 발성에 기초하여 복수개의 후보단어들을 생성하는 단계; 및

매핑함수를 상기 복수개의 후보단어들에 적용하여, 인식된 단어를 선택하는 단계를 포함하는 것을 특징으로 하고,

상기 매핑함수는,M_i(F,S)=C_o + c₁F₁ ^Wi + c₂F₂ ^Wi + c₃F_g + c₄S₁ ^Wi + c₅S₂ ^Wi + c_nS_g 이고,

F 는 제 1 음성인식수단이고, S 는 제 2 음성인식수단이며, F₁ ^Wi는 발성 T_u와 후보단어 W_i간의 거리이고, F₂ ^Wi는 W_i 를 제외한 제 2 최선 후보에 대한 거리이며, F_g는 상기 발성 T_u와 쓰레기 (garbage) 템플릿 간의 거리를 나타내며, S₁ ^Wi는 T_u와 W_i간의 거리이고, S₂ ^Wi는 W_i를 제외한 제 2 최선 후보에 대한 거리이며, S_g는 T_u와 쓰레기 템플릿 간의 거리를 나타내고, c_i (i=0,1,..n) 은 계수이며, 상한 n 은 음성인식수단들의 개수의 합과 각각의 음성인식수단에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식방법.
제 31 항에 있어서,

상기 인식된 단어의 매핑함수값과 문턱값의 비교결과에 기초하여 상기 인식된 단어를 거부하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
제 31 항에 있어서,

상기 인식된 단어의 매핑함수값과 문턱값의 비교결과에 기초하여 상기 인식된 단어를 수용하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.
테스트 발성에 대한 하나 이상의 후보단어를 획득하는 수단; 및

매핑함수에 기초하여 상기 하나 이상의 후보단어로부터 인식된 단어를 선택하는 수단을 포함하는 것을 특징으로 하고,

상기 매핑함수는, M_i(F,S)=C_o + c₁F₁ ^Wi + c₂F₂ ^Wi + c₃F_g + c₄S₁ ^Wi + c₅S₂ ^Wi + c_nS_g 이며,

F 는 제 1 음성인식수단이고, S 는 제 2 음성인식수단이며, F₁ ^Wi는 발성 T_u와 후보단어 W_i간의 거리이고, F₂ ^Wi는 W_i 를 제외한 제 2 최선 후보에 대한 거리이며, F_g는 상기 발성 T_u와 쓰레기 템플릿 간의 거리를 나타내며, S₁ ^Wi는 T_u와 W_i간의 거리이고, S₂ ^Wi는 W_i를 제외한 제 2 최선 후보에 대한 거리이며, S_g는 T_u와 쓰레기 템플릿 간의 거리를 나타내고, c_i (i=0,1,..n) 은 계수이며, 상한 n 은 음성인식수단들의 개수의 합과 각각의 음성인식수단에 대한 상기 후보단어들의 합을 가산한 것과 동일한 것을 특징으로 하는 음성인식장치.