KR970001165B1

KR970001165B1 - 대화자 훈련의 음성 인식기 및 그 사용방법

Info

Publication number: KR970001165B1
Application number: KR1019870002681A
Authority: KR
Inventors: 알렌 도트리취 브루스; 윌리암 고델 토마스; 비욘 로 데이비드
Original assignee: 아메리칸 텔리폰 앤드 텔레그라프 캄파니; 엘리 와이스
Priority date: 1986-03-25
Filing date: 1987-03-24
Publication date: 1997-01-29
Also published as: CA1311059C; JPS62231997A; DE3775963D1; US4972485A; KR870009322A; ES2028863T3; EP0241163A1; EP0241163B1

Abstract

내용 없음.

Description

대화자 훈련의 음성 인식기 및 그 사용방법

제1도는 본 발명을 설명하기에 유용한 음성 인식기 하드웨어의 블록도.

제2도는 단어 발음을 비교하기 위한 다양한 기술의 도시도.

제3도는 본 발명의 동작에 따른 훈련의 절차를 설명하는 흐름도.

* 도면의 주요부분에 대한 부호의 설명

101 : 마이크로프로세스 102 : 버스 인터페이스 논리 회로

104 : ROM 105 : RAM

106 : 프로그램 가능 DSP 107 : 음성 합성기

108 : A/D 변환기 109 : D/A 변환기

201 : LPC 또는 필터 뱅크 202 : LPC 또는 필터 뱅크.

[기술분야]

본 발명은 대화자 훈련의 음성 인식 시스템에 관한 것으로, 특히 혼동가능한 단어가 이러한 시스템의 어휘(vocabulary)에 대하여 선택되었을때를 검출하기 위한 방법 및 장치에 관한 것이다.

[발명의 배경]

최근의 음성 인식 알고리즘과 하드웨어의 개발로 인하여 소비자 및 소규모 사업 상품에 이용될 수 있는 대화자 훈련의 음성 인식 시스템(speaker-trained speech recognition systems)의 개발이 가능하게 되었다. 이러한 시장에서의 대다수 사용자는 음성 인식 시스템에 경험이 없기 때문에 이들 시스템을 어떻게 사용해야 가장 양호하게 실행할 수 있는지를 몰랐다. 대화자 훈련의 음성 인식기 실행의 질을 떨어뜨리는 문제점중 하나는 인식될 어휘의 선택에 있다. 예를 들어, 사용자(즉, 대화자)가 Larry 및 Barry와 같은 음향적으로 유사한 2개의 단어를 선택할 경우, 인식기는 그들을 구별하는데 문제점을 갖기 쉽다. 바람직한 것은 어휘의 단어가 시스템에 있어서 혼동가능하게 유사할 때를 대화자에게 알려주는 대화자 훈련의 음성 인식 시스템이 되는 것이다.

[발명의 요약]

이러한 문제점은 본 발명에 따라 훈련 진행중에 인식기를 혼란시킬 수 있는 단어의 쌍들을 검출하여 대화자에게 알려주며, 그에 따라 대화자가 단어 어휘 선택의 변경을 할 수 있게 하는 대화자 훈련의 음성 인식기에 의해 해결될 수 있게 된다. 더욱 상세하게는, 대화자 훈련의 음성 인식기는 대화자 어휘의 단어 발음을 그의 사전 설정된 기준 모델을 나타내는 파라미터 및 음성 특성 신호로 변환시킨다. 다음의 가능한 어휘 단어 발음의 음성 특성 신호는 사전 설정된 표준을 이용하여 상기 사전 설정된 기준 모델에 대하여 비교되어지고, 그들간의 어떠한 차이라도 사전 설정된 값보다 작을 때에는 대화자는 신호를 받게된다.

이하, 본 발명은 첨부된 도면을 참조로 하여 더욱 상세히 설명될 것이다.

제1도는 본 발명에 따라 대화자 훈련의 음성 인식기를 실행할 수 있는 능력을 가진 하드웨어의 일실시예를 나타내는 블록도이다. 실행의 핵심은 제3도에 도시되는 흐름도의 동작에 따라 훈련(training), 패턴 매칭(pattern matching) 및 전체의 시스템 제어 기능을 실행하는 범용의 마이크로프로세서(예를들면, 인텔 8096)가 된다. 마이크로프로세서에 접속된 버스인터페이스 논리 회로(102)는 마이크로프로세서 버스(103)를 통해 프로그램 저장용 판독 전용 메모리(ROM)(104)와, 단어 모델 저장용 임의 접근 메모리(RAM)(105)와, 음성 신호로부터 특성을 추출하기 위한 프로그램한 가능 디지탈 신호 처리기(DSP)(106) 및 대화자에게 음성 피드백을 제공하기 위한 음성 합성기(107)에 접속된다. 상기 DSP(106)에는 마이크로폰으로부터의 아날로그 음성 신호를 DSP(106)에 의해 처리되는 개별 양자화된 샘플로 변환하는 아날로그/디지탈 변환기(108)가 접속된다. 디지탈/아날로그 변환기(109)는 음성 합성기(107)의 출력을 아날로그 신호로 변환하는데 필요되거나 그렇지 않을 수 있다. 예를 들면 AT T439B 합성기는 8-비트 μ-law D/A 변환기를 필요로 한다.

DSP(106)는 공지된 여러 특성 추출 절차를 수행할 수 있다. 실례로, 종래의 선형 예측 코팅(LPC) 또는 다중 채널 필터 뱅크 기술이 음성 특성을 추출하는데 사용될 수 있다. 한 필터 뱅크 실시예는 8개의 다른 주파수 밴드 각각에서 에너지를 주기적으로(매 15msec) 산출하는 한 세트의 디지탈 대역통과 필터를 사용한다. 필터 뱅크는 200 Hz에서 3200Hz까지의 전화 대역폭에 미친다.

필터 뱅크의 각각의 채널은 일시적 음성 신호가 포획되는 것을 보장해 주도록 매 15msec(프레임 레이트)마다 샘플된다. 15msec 간격에서 취해지는 8개의 샘플은 그 순간의 스냅숏(snapshot) 음성 스펙트럼을 제공한다. 결과적인 특성 벡터 또는 필터 뱅크 데이타의 프레임은 인식 실행상의 크기 변화의 효과를 감소시키도록 정규화 된다. 정규화된 필터 뱅크 특성 벡터는 이후 마이크로프로세서(101)에 의한 처리를 위해 DSP(106)에 의해 출력된다.

마이크로프로세서(101)는 버스(103)에 부착된 RAM(105)내의 인입 단어로부터 특성 벡터를 기억한다. DSP(106)로부터 데이타가 수집됨에 따라 마이크로프로세서(101)는 인입 특성의 에너지를 몇몇의 크기 임계치에 비교함으로써 단어의 시작과 종료점을 찾는다. 널리 공지된 방법에서는, 지속적 제한이 가능한 단어 종료점 후보지의 유효성을 결정하도록 부과된다. 이러한 동일한 동작은 훈련 또는 인식 처리를 하기 위해 발음이 요구될 때마다 발생하게 된다.

이후에 기술되는 바와 같이, 모델 발생과 훈련 및 인식 처리를 위한 모델에 대한 인입 단어의 스코어링(scoring) 또는 모든 비교는 마이크로프로세서(101)에 의해 실행된다. 기술된 훈련 절차의 상대적 및 절대적 스코어 비교 역시도 마이크로프로세서(101)에 의해 실행된다.

대화자로의 피드백은 마이크로프로세서(101)에 의해 제어되는 음성 합성기(107)에 의하여 제공된다. 이러한 피드백은 대화자에게 단어를 발성하도록 일러주고, 인식의 결과를 보고하며, 그 사람이 훈련하고자 하는 단어가 이전에 훈련된 단어와 너무 흡사하여 새로운 단어가 선택되어야만 한다는 것을 대화자에게 알리는 메시지를 포함할 수 있다. 제1도에서는, 말로 표현된 메세지를 기억하는데 요구되는 모든 메모리가 음성 합성기(107)내에 포함되는 것으로 가정하였다. 명백하게, 영상 또는 텍스트 출력 유니트가 보충될 수 있으며, 대화자에게 영상 또는 다른 피드백을 제공하도록 합성기(107)를 대체할 수 있다.

일단 제1도의 인식기가 대화자에 의해 단어 어휘로 훈련되었다면, 그 어휘의 단어를 사용하는 어떠한 대화자의 발음도 정확히 검출하게 된다. 어휘의 크기는 인식기에 의해 활용되는 RAM(105)의 크기에 의해서만 한정된다.

제2도는 일부의 가능한 기술을 도시한 것으로, 이에 의하여 제1도의 인식기는 한쌍의 혼동가능한 유사어휘 단어를 검출하게 된다. 인식기는 어휘내의 2개의 주어진 단어(예를 들어 단어 1 및 단어 2)간의 유사성을 측정한다. 하나의 해결책으로 2개의 모델간의 유사성을 계산할 수 있는 계측을 사용할 수 있으며, 여기에서 모델은 템플릿(template)(음성신호 특성의 시간 경과 기록(history) 또는 예를 들어 히든 마르코프 모델 Hidden Markov Model(HMM)과 같은 음성 신호의 파라메트릭 표현으로 규정된다. 템플릿 경우의 모델의 이러한 정의로, 모델 형성은 특성 신호를 조합하여 메모리(105)내에 이들을 기억함으로써 성취된다. 단어 1 및 단어 2에 대한 템플릿(203 및 204)은 LPC 또는 필터 뱅크 기술(예를 들어, 201 및 202)중의 어느 하나를 사용하여 결정될 수 있다.

템플릿 방법은 부가의 기억 장치를 거의 필요로 하지 않는데, 이는 템플릿이 인식 시스템의 메모니내에 이미 기억되기 때문이다. 종래의 음성 인식기에 대하여는, 2개의 템플릿(203 및 204)은 인식동안에 템플릿의 인입 발음을 시정렬(time-aligning)하는데 이용되는 동일 동적 시간 워핑(DTW : Dynamic Time Warping)을 사용하여 비교될 수 있다.

파라메트릭 음성 인식기에 대하여는 Hidden Markow Model(HMM)에 기초하는 것과 같은 파라메트릭 모델(206,207)이 발생되어야만 한다. 이러한 경우, 단지 음성 신호의 파라메트릭 모델(208,209)의 파라미터만이 유지되며, 그에 따라 계측(metric)이 2개의 파라메트릭 표시를 비교하는데 필요하게 된다. 실제로, (대응 상태 관측결과 분포의 차이를 측정하는 것과 같은) 계측(210)은 단지 모델 파라미터만을 사용하는 인식 실행을 적절히 예측하지 못한다. 이러한 HMM 기술은 2개의 논문, 즉, 에스.이.레빈슨, 엘.알.라비너 및 엠.엠.손디에 의한 벨 시스템 기술 잡지 62권 제4호, 1부(1983년 4월), 1035-1074페이지의 자동 음성 인식의 마코브 처리의 확률 함수의 이론과 역시 엘.알.라비너, 에스.이.레빈슨 및 엠.엠.손디에 의한 벨 시스템 기술 잡지 62권 제1부(1983년 4월), 1075-1105페이지의 대화자 독립 및 분리된 단어 인식에 대한 벡터량 및 히든 마코브 모델의 응용에 기술되어 있다.

유사성에 대한 2개의 파라메트릭 모델의 파라미터를 비교하는 다른 방도는 인입하는 단어 2의 발음을 취하여 이전에 훈련된 단어 모델(208)의 파라미터에 대하여 유도된 음성 특성(204)을 직접 비교하는 것이다. 비교 유니트(211)는 음성 인식기의 인식 실행을 정확하게 예측하도록 널리 공지된 비터비 스코링(Viterbi Scoring) 기술을 사용할 수 있다. 본 명세의 잔여분은 이 기술을 사용하여 동작하는 인식기를 기술한다.

본 발명에 따른 훈련 절차(training procedure)는 음성 인식 시스템이 잠재적으로 혼동가능한 단어의 쌍을 검출하게 하여 대화자에게 그들에 대한 단어 선택 변경의 기회를 제공한다. 본 발명의 절차는 제2도에 기술된 어느 기술에도 적용가능하며 실제적으로 어떠한 음성 인식 시스템에도 사용될 수 있지만, 특히, 파라메트릭 음성 모델에 기초한 인식 알고리즘에 유용하다.

제3도는 본 발명의 전체 동작을 기술하는 흐름도이다. 주어지는 설명은 제1도 및 3도를 참조로 한 것이다. 주어지는 설명에서, 각 도면의 각각의 구성성분은 그와 관련된 참조 번호를 가지며 그들의 첫번째 표기 번호는 그 구성성분이 해당되는 도면을 가르킨다(즉 301은 제3도에 있다는 것이다).

다음의 설명에서, 변수 i는 단어의 반복을 가리킨다. 즉, 훈련 처리동안에 단어는 그로부터 인식기가 더욱 정확한 모델을 유도해 주도록 대화자에 의해 여러번 반복된다. 따라서 i-1은 동일 단어에 대한 바로전의 발음을 가리킨다. 인식기에 의해 요구되는 단어의 사전 설정된 최대 반복수는 NR이다.

변수 N은 단어수를 나타내며, 단어(N＋1)은 훈련되고 있는 단어이다. 모델수 M은 제 1변수로서의 단어수와 제 2변수로서의 반복, 실례로 M(N＋1,i-1)로서 표기된다. 실예에 있어서, 모델 M(N＋1,i-1)는 단어(N＋1)의 이전의 반복(i－1)이다. 일단 모델이 완성되면, 반복 변수 i는 탈락되고, 따라서 M(N,i)는 MN이 된다.

스코어 S(N＋1)는 동일 단어의 결과적인 모델에 대한 단어 발음의 특성 비교의 결과이다. 스코어 S(MIN)는 단어 발음의 특성이 인식기에 의해 훈련된 각각의 이전 단어의 모델에 대해 비교될때 유도되는 스코어 S1-SN 그룹중 최소 스코어이다.

제3도의 동작을 설명하기 전에, 제 1단어로 인식기를 훈련하는, 즉, 단어 1(M1)에 대한 모델을 발생시키는 동작을 기술한다. 제1도를 참조로 하여, 대화자가 처음 제 1단어를 발성할때 A/D 변환기(108)는 아나로그 신호를 디지탈 신호로 변환하고 DSP( 106)는 음성 특성을 추출하여, 마이크로프로세서(101)가 단어의 파라메트릭 모델을 발생시키게 된다. 이전에 기술한 바와 같이, 모델은 DPS(106)의 필터 뱅크로부터 유도된 단지 특성 템플릿일 수 있다. 기술된 훈련 절차의 동작은 동일한 방법으로 동작하며, 모델이 특성에 근거들 두던지 또는 파라미터에 근거를 두던지에는 무관하다.

다음의 설명은 DSP(106)가 먼저 특성을 추출한 후 마이크로프로세서(101)가 HMM 처리를 사용하여 그 파라메트릭 파라미터 모델을 발생시키는 것으로 가정한다. 제 1단어의 처음 발성후에, 모델 M(1,1)이 발생된다 본 발명의 동작에 필수적이지는 않지만, 더욱 정확한 단어 모델은 동일 단어의 다중 발음이 모델을 갱신하는데 사용될때 발생된다는 것이 측정되었다. 이와 같이, 본 발명의 한 견지에 따라서, 대화자는 제 1단어의 발음을 사전설정된 수 NR번 반복하고, 단어 모델은 그에 따라 갱신된다. 그러한 발음의 NR 이후, 제 1단어에 대한 단어 모델은 M1으로서 표기되며 마이크로프로세서(101)에 의해 RAM(105)내에 기억된다.

본 발명에 따른 단어 N＋1에 대한 훈련 절차를 나타내는 흐름도가 제3도에 도시된다. 다음의 설명은 제1 및 3도를 참조한다. 다시, 변수 i는 모델 단어 N＋1에 이용된 총 반복 NR중에서 테스트되어지는 훈련의 반복을 나타낸다. 단어 1 내지 N는 이미 훈련되었으며 관련 모델 M1 내지 MN이 발생된 것으로 가정한다.

반복 계수기는 0으로 설정되며(301), 단어 N＋1의 제 1발음이 수신될때 증가된다(302). 훈련 절차의 제1단계(303)는 훈련과 인식 처리 모두에 이용된다. 주지된 바와 같이, 선형 예측 코딩(LPC) 및 필터 뱅크 해석은 2가지 실예의 특성 해석 방법이지만 전술한 참조 논문에서 기술된 바와 같이 다른 공지된 기술이 사용될 수 있다.

본 실시예는 200Hz 내지 3200Hz의 전화 대역폭을 커버하는 8개의 다른 주파수대 각각에서 에너지를 산출하는 필터 뱅크(제1도의 DPS(106))를 사용한다. 필터 뱅크의 각각의 채널은 대응 주파수대의 로그 에너지의 시간 기록을 주도록 매 15msec마다 샘플된다. 15msec 레이트(프레임 레이트)는 초과 잔여분을 갖지 않고서 음성 신호내에 나타나는 일시적 특성을 포착하는데 충분히 빠르도록 선택되었다. 동시 순간에 취해진 서로 다른 채널의 8개의 샘플은 특성 벡터 또는 필터 뱅크 데이타의 프레임을 형성하며 그 순간의 스냄숏 음성 스펙트럼을 제공한다.

필터 뱅크 특성 벡터가 마이크로프로세서(101)에 의한 처리를 위해 DSP(106)에 의해 출력되기 전에, 이들은 인식 실행상에 있어서 음성 크기 변화의 효과를 감소하도록 표준화된다.

결적적인 특성(특성 벡터) 세트는 N개의 이전에 훈련된 어휘 단어에 대한 모델(M1 내지 MN)에 대하여 비교된다(304). 이러한 앞선 단어 모델 비교기법은 인식기 동작의 인식 상태 동안에 단어를 스코어하는데 사용되는 매칭 알고리즘(matching algori thm)에 일치한다. 종래의 특성 패턴 매칭 인식기에 있어서, 이는 동적 시간 워핑의 변이중의 하나일 수 있다. 본 실시예에 있어서, 공지된 비터비 스코링이 현존 HMM 단어 모델에 의해 산출된 훈련 발음의 확률을 계산하는데 사용된다.

비터비 스코링은 각각의 단어 모델과 인입 단어 특성간의 비교를 위한 기준으로 사용된다. 이러한 순환 알고리즘은 다음과 같은 상태가 될 수 있다.

여기서 O_t는 필터 뱅크 데이타의 t번째 프레임에 대응하는 관측 결과이며, π₁는 상태 i를 개시하는 확류이고, δ_ij는 현재 상태가 i로 주어진 상태 i로부터 상태 j까지의 전이의 확률이며 b_j(O_t)는 상태가 j로 주어진 곽측 결과 O_t의 확률이다. 로그 확률은 배율을 소거하는데 사용된다. 말을 한 단어에 T 프레임의 데이타가 있는 경우, 그 단어에 대한 스코어는 그 모델을 최종 상태에서 종결되게 하기 때문에 간단히 δ_T(N)이 된다. 실제로 계산은 모델을 제 1상태에서 개시케하여 단지 재순환 단일 포맷 상태 전이만을 허용함에 의해 더욱 간략하게 된다.

단계 304의 N 비교 각각은 인식기 어휘의 이전에 훈련된 N 단어와 단어 N＋1간의 유사성 정도를 나타내는 비터비 스코어가 된다.

스코어(S1-SN)가 N개의 이전에 훈련된 단어에 대하여 얻어진 후, 스코어는 단계 305에서 가장 적절한 부합상태(match)을 찾도록 조사된다. 비터비 스코어가 작을수록 부합 상태가 근접하기 때문에 최소 스코어 S(MIN)에 대한 S1-SN의 조사가 행해진다.

단계 306에서, i=1일 경우, 즉, 단어 N＋1의 제 1반복이 처리되는 경우, 최초 모델 M(N＋1,1)이 특정 인식 알고리즘에 적합한 어떤 모델 또는 템플릿 발생 절차를 사용하여 유도된다(307)(다시, 본 실시예에 있어서, 공지된 HMM 모델링 절차가 활용된다. 이 절차는 이전에 참조된 논문에 기술된다). 현재의 단어 모델 스코링 기술은 i=1일 경우 새 모델(N＋1,1)에 대하여 인입 단어 N＋1에 대한 유도된 특성 세트를 비교한다(단계 308).

단계 306에서 i가 1에 일치하지 않을 경우는, 특성은 다시 인식에 사용된 동일 비터비 스코링 기술을 사용하여, 동일 방법으로 이전의 반복으로부터 갱신되지 않은 모델 M(N＋1,i-1)과 비교된다(단계 309). 이는 올바른 단어가 말해졌을 경우 단어 N＋1에 대한 인식동안에 대표적인 스코어를 나타내는 현재 단어 스코어 S(N＋1)를 초래한다. 스코어 S(N＋1)가 그들 특성으로부터 유도된 모델에 대하여 워드 N＋1로부터 유도된 특성을 비교하기 때문에, 얼마나 양호한 스코어가 가능한가에 따라 양호한 표준을 제공하게 된다. i=1일 경우인 제 1발음 이후에, 이 스코어는 인위적으로 낮게 되는데, 모델을 유도하는데 사용된 동일 발음이 비교를 위해 사용되기 때문이다. 사실상 패턴 매칭 인식기에 있어서, 특성 세트 및 모델(템플릿)은 일치될 수 있다. 이러한 것은 처음 훈련 반복에 대한 이들 측정치를 감소시킨다.

일단 단계(305)의 스코어 S(MIN) 및 단계(308) 또는 (309)의 S(N＋1)가 계산되며 어휘의 이전에 훈련된 단어에 대한 단어 N＋1의 유사성을 검사하는 유사성 테스트를 실행하는 것이 필수적이다. 테스트중 하나는 이들 두 스코어의 상대값의 비교이다. S(MIN)가 S(N＋1)보다 작을 경우(인식 시도가 행해졌을 경우 인식 에러를 가지게 되었음을 나타냄), S(MIN)에 대응하는 단어 및 단어 N＋1이 혼동가능하게 되기 쉬우므로, 따라서 대화자에게 경고되어야 하며(312), 어휘 단어를 변경할 기회가 주어져야 한다. 이전에 주지한 바와 같이, 이는 음성 합성기(107)를 사용하여 음성 표현으로 대화자에게 경고되어진다. 다른 N개의 단어에 대하여 단어 N＋1의 유사성을 나타내는 인덱스를 발생하는 2개의 가능한 상대 단어 유사성 테스트는 아래와 같다.

S(N＋1)/S(MIN)TR ...............................................(1)

또는, 다른 방법으로는

S(N＋1)-S(MIN)TR1 .............................................(2)

양 TR 및 TRI은 실험적으로 결정된 임계치이다. 이들 2개의 비교 테스트중의 어느 하나 또는 다른 유사한 방법이 특정 인식 스코어링 알고리즘에 따라 사용된다. 양 TR은 HMM을 기초한 인식기의 본 실시예에 사용된다. 워드 N＋1이 테스트를 통과한다면 제 2테스트가 실행될 수 있다.

제 2스코어 비교 테스트(311)는 절대 스코어 S(MIN)에서만 나타난다. 이 스코어의 낮은 값은 단어 N＋1이 어휘내의 다른 N 단어중의 하나에 양호한 매칭을 가지는 것을 나타내며, 그에 따라 이전에와 같이 대화자에게 상대 스코어 비교 테스트의 실패가 경고되어져야 한다. 값 S(MIN)은 그 값이 인입 훈련 발음의 지속 기간에 의존할 경우 소정 형태로 정규화될 수 있다. 절대 스코어 비교 테스트는 단순하게

로 실행될 수 있는데, 여기서는 TA는 실험적으로 결정된 임체치이며,

는

의 주기 정규화된 버전(duration-normalized version)이다. 만일 식(3)이 참이면, 단어 N＋1은 수용가능하다.

만일 i가 1보다 크다면, 알고리즘 각각의 반복의 최종 단계(313)는 2개의 스코어 비교 테스트 310 및 311이 통과될때 단어 N＋1에 대한 현재 모델을 갱신하게 된다. 이 갱신 단계는 단지 i1이 되는 반복상에서만 실행하게 되는데, 새로운 모델이 이미 처리의 초기 단계 307에서 제1반복에 대하여 벌써 발생되었기 때문이다. 갱신하는 것은 템플릿을 일제히 평균화하는 것같이 간단하게 될 수 있으며, 보다 정교하고 확고한 훈련 절차를 포함할 수 있게 된다. 명백히, 이 단계의 특성은 특정 인식 알고리즘에 좌우된다.

i가 각각의 단어 훈련에 대하여 요구되는 사전설정된 반복수 NR보다 작을 경우에는, 음성 합성기(107)를 통한 대화자로부터의 다음 발음이 요청된다(302,303). 만일 i가 NR에 일치할 경우, 훈련 처리는 종결되며, 갱신된 단어 모델은 M(N＋1,NR)이 되어, 음성 인식 단계 동안에 사용을 위해 RAM(105)에 기억된다.

지금까지 기술된 것은 단지 본 발명의 원리의 한 실시예만을 나타내고 있다. 따라서,야의 당업자라면 다른 방법이나, 순서 또는 장치가 본 발명의 정신 및 사상에 변경됨이 없이 실행될 수 있음은 두말할 필요가 없다.

Claims

인식기의 메모리에 부가되는 단어를 선택하는 대화자 훈련의 음성 인식기에 있어서, 대화자로부터 수신된 단어 발음으로부터 다수의 특성 신호를 추출하는 수단(106)과 ; 상기 다수의 특성 신호로부터 유도된 다수의 파라미터를 발생하는 수단(101,206)과 ; 사전설정된 표준을 사용하여 이전에 수신된 다른 단어 발음의 다수의 기억된 파라미터에 대하여 상기 추출 수단에 의해 추출된 제 1단어 발음의 다수의 특성 신호를 비교하는 수단으로서, 그 출력이 상기 이전에 수신된 단어 발음의 다수의 기억된 파라미터와 상기 제 1단어 발음의 상기 다수의 특성 신호 사이의 차에 의해 결정되어지는 상기 기뵤 수단(101,211)과 ; 상기 비교 수단의 출력이 상기 이전에 수신된 단어 발음 파라미터와 상기 제 1단어 발음의 상기 특성 신호 사이의 유사성을 나타내는 사전 설정된 값보다 작을 경우, 상기 대화자에게 상기 제 1단어 발음과는 다른 제 2단어 발음을 상기 인식기에 발음하도록 신호를 전송하여주는 수단(107) 및 상기 비교 수단의 출력이 상기 차가 상기 사전설정된 값보다 작지 않음을 나타내는 경우, 또다른 단어의 발음으로서 상기 제1단어 발음의 다수의 파라미터를 메모리에 기억하는 수단을 구비하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제1항에 있어서, 각 단어 발음의 상기 다수의 파라미터는 히든 마르코프 모델(Hidden Markow Model)인 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제1항에 있어서, 상기 추출 수단은 필터 뱅크 수단을 포함하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제1항에 있어서, 상기 비교 수단은 비터비 스코링 수단(Viterbi scoring means )을 포함하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제1항에 있어서, 상기 기억 수단은 이전에 수신된 다른 단어 발음 그룹의 다수 파라미터를 상기 메모리에 기억하고 ; 상기 비교 수단은, 상기 사전설정된 표준을 사용하여 각각의 이전에 수신된 다른 단어 발음의 상기 그룹의 다수 파라미터에 대하여 상기 제 1단어 발음의 상기 다수의 특성 신호를 스코어하는 이전의 단어 스코링 수단을 포함하며 ; 상기 신호 전송 수단은 상기 그룹의 이전에 수신된 다른 단어 발음중 어떤 발음의 스코어라도 상기 사전설정된 값보다 작을 경우, 상기 대화자에게 신호를 전송하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제5항에 있어서, 상기 비교 수단은, 상기 발생 수단을 사용하여 유도된 상기 제 1단어 발음의 다수 파라미터에 대하여 상기 제 1단어 발음의 상기 다수의 특성 신호를 스코어하는 제 1단어 스코링 수단을 더 포함하며, 상기 사전설정된 값을 결정하기 위해 상기 이전의 단어 스코링 수단의 출력과 상기 제 1단어 스코링 수단의 출력을 활용하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제6항에 있어서, 상기 이전의 단어 스코링 수단으로부터의 최저 스코어는 S(MIN)이고 ; 현재의 단어 스코링 수단의 출력은 S(M＋1)이며 ; 상기 사전설정된 값은 S(N＋1)-S(MIN)과 같은 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제6항에 있어서, 상기 이전의 단어 스코링 수단으로부터 최저 스코어는 S(MIN)이고 ; 상기 현재의 단어 스코링 수단의 상기 출력은 S(N＋1)이며 ; 상기 사전설정된 값은 S(N＋1)을 S(MIN)으로 나눈값과 같은 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제6항에 있어서, 상기 이전의 단어 스코링 수단으로부터의 최저 스코어는 S(MIN)이며; 상기 사전설정된 값은 S(MIN)의 지속기간 정규화 버전(duration-normalized version)인
인 것을 특징으로 하는 대화자 훈련의 음성 인식기.
제1항에 있어서, 대화자 훈련의 음성 인식기는, 상기 대화자로부터의 상기 제 1단어 발음의 반복 수신에 응답하여 상기 메모리에 있는 상기 제 1단어 발음의 상기 기억된 다수 파라미터를 갱신하는 수단을 더 포함하는 것을 특징으로 하는 대화자 훈련의 음성 인식기.
대화자 훈련의 음성 인식기를 동작하는 방법에 있어서, 대화자로부터 수신된 단어 발음으로부터 다수의 특성 신호를 추출하는 단계와 ; 상기 다수의 특성 신호로부터 유도된 다수의 파라미터를 발생하는 단계와 ; 사전설정된 표준을 사용하여 이전에 수신된 다른 단어 발음의 다수의 기억된 파라미터에 대하여 상기 추출 수단에 의해 추출된 제 1단어 발음의 다수의 특성 신호를 비교하는 단계로서, 그 출력이 상기 이전에 수신된 단어 발음의 다수의 기억된 파라미터와 상기 제 1단어 발음의 상기 다수의 특성 신호 사이의 차에 의해 결정되어지는 상기 비교 단계와 ; 상기 비교 단계에서의 출력이 상기 이전에 수신된 단어 발음 파라미터와 상기 제 1단어 발음의 상기 특성 신호 사이의 유사성을 나타내는 사전설정된 값보다 작을 경우, 상기 대화자에게 상기 제 1단어 발음과는 다른 제 2단어 발음을 상기 인식기에 발음하도록 신호를 전송하여주는 단계 ; 및 상기 비교 단계에서의 출력이 상기 차가 상기 사전설정된 값보다 작지 않음을 나타내는 경우, 또 다른 단어의 발음으로서 상기 제 1단어 발음의 다수의 파라미터를 메모리에 기억하는 단계를 구비하는 것을 특징으로 하는 대화자 훈련의 음성 인식기 동작 방법.