KR100737343B1 - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR100737343B1
KR100737343B1 KR1020060053775A KR20060053775A KR100737343B1 KR 100737343 B1 KR100737343 B1 KR 100737343B1 KR 1020060053775 A KR1020060053775 A KR 1020060053775A KR 20060053775 A KR20060053775 A KR 20060053775A KR 100737343 B1 KR100737343 B1 KR 100737343B1
Authority
KR
South Korea
Prior art keywords
observation probability
speech recognition
active
hmm
node
Prior art date
Application number
KR1020060053775A
Other languages
English (en)
Other versions
KR20070061162A (ko
Inventor
강병옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061162A publication Critical patent/KR20070061162A/ko
Application granted granted Critical
Publication of KR100737343B1 publication Critical patent/KR100737343B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 신호의 특징 벡터를 이용하여 음성 인식을 수행하는 장치에 있어서, 상기 특징 벡터를 이용하여 활성 노드를 선택하는 활성 노드 선택부, 상기 활성 노드 선택부에서 선택된 활성 노드의 수를 이용하여 관측 확률 계산 방식을 결정하는 관측 확률 계산 방식 결정부, 상기 관측 확률 계산 방식 결정부에서 결정된 방식에 따라 관측 확률을 구하는 관측 확률 계산부, 상기 관측 확률 계산부에서 구해진 관측 확률을 이용하여 음성 인식을 수행하고 그 결과를 출력하는 음식 인식 결과 생성부로 구성된 것으로서, 활성 노드의 수에 따라 관측 확률 계산 방식을 다르게 선택하므로 음성 인식률이 증가되고 인식 속도가 향상될 수 있다.
음성인식, HMM, 관측확률, 활성노드

Description

음성 인식 장치 및 방법{Apparatus and Method for recognizing speech}
도 1은 본 발명에 따른 음성 인식 장치의 구성을 개략적으로 나타낸 블럭도.
도 2는 도 1에 도시된 음성 인식부의 구성을 상세히 나타낸 블럭도.
도 3은 본 발명에 따른 음성 인식 장치에서 음성 인식 방법을 나타낸 흐름도.
도 4는 본 발명의 바람직한 일 실시예에 따른 음성 인식 장치에서 음성 인식을 위한 관측 확률 계산 방법을 나타낸 흐름도.
도 5는 본 발명의 바람직한 다른 실시예에 따른 음성 인식 장치에서 음성 인식을 위한 관측 확률 계산 방법을 나타낸 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 음성 수신부 110 : 음성 구간 검출부
120 : 특징 벡터 추출부 130 : 음성 인식부
140 : 데이터베이스 200 : 활성 노드 선택부
210 : 관측 확률 계산 방식 결정부 220 : 관측 확률 계산부
222 : 제1 관측 확률 계산부 224 : 상태 노드 결정부
226 : 제2 관측 확률 계산부 228 : 제3 관측 확률 계산부
230 : 음성 인식 결과 생성부
본 발명은 활성 노드의 수에 따라 관측 확률 계산 방식을 다르게 하여 음성 인식을 수행하는 음성 인식 장치 및 방법에 관한 것이다.
일반적으로 널리 알려진 음성 인식 방법으로 HMM(Hidden Markov Model)을 사용하는 방법이 있다. 여기서, 음성 인식 과정으로 비터비 탐색을 실시하는데, 이는 인식 대상후보 단어들에 대한 미리 훈련하여 구축한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유력한 후보 단어를 결정하는 과정이다.
HMM은 음성인식을 위한 기본단위(음소)를 모델링하는 방법이다. 즉 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.
HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방법으로 현재 음성인식에 많이 사용되고 있다. 따라서 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링해 이를 이용해 음성인식 시스템을 구성하는 것을 말한다.
일반적인 음성인식 시스템은 인식대상 어휘들을 연속 은닉 마코프 모 델(Continuous Hidden Markov Model)을 통해 확률적으로 모델링 한 후, 이 인식 대상 어휘들의 연속 은닉 마코프 모델로 구성된 트리구조를 따라서 입력 특징벡터의 관측확률을 계산하는 비터비 탐색 알고리즘을 사용한다. 이때 입력 특징벡터의 관측확률은 연속 은닉 마코프 모델을 구성하는 다수의 가우시안 분포에서의 관측확률의 누적 합으로 표현되는데 이때 각 가우시안 분포에서의 관측확률을 계산하는데 사용되는 계산량이 고립단어 인식 시스템의 경우 전체 계산량의 80% 가량을 차지한다.
즉, 음성인식시스템에서 특징벡터를 이용하여 구해진 활성노드는 고립단어 인식기의 경우 처음 수십 프레임 동안은 수십개의 활성노드를 갖고, 점차적으로 증가하여 인식대상 어휘 수에 따라서 수천 ~ 수만개까지 증가하다가 점점 감소하기 시작하여 음성 종료시점의 수십 프레임 동안은 다시 수십개의 활성노드를 통상적으로 갖는다.
따라서, 상기와 같은 종래의 음성 인식 방법은 관측 확률을 계산하는데 부하가 많이 걸리는 단점이 있다.
따라서, 본 발명의 목적은 음성 인식을 수행함에 있어서, 관측 확률 계산량을 줄여서 전체적인 음성인식 수행 속도를 빠르게 할 수 있는 음성 인식 장치 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 음성 신호의 특징 벡터를 이용하여 음성 인식을 수행하는 장치에 있어서, 상기 특징 벡터를 이용하여 활성 노드를 선택하는 활성 노드 선택부, 상기 활성 노드 선택부에서 선택된 활성 노드의 수를 이용하여 관측 확률 계산 방식을 결정하는 관측 확률 계산 방식 결정부, 상기 관측 확률 계산 방식 결정부에서 결정된 방식에 따라 관측 확률을 구하는 관측 확률 계산부, 상기 관측 확률 계산부에서 구해진 관측 확률을 이용하여 음성 인식을 수행하고 그 결과를 출력하는 음식 인식 결과 생성부를 포함하는 것을 특징으로 하는 음성 인식 장치가 제공된다.
상기 관측 확률 계산 방식 결정부는 상기 활성 노드 선택부에서 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 관측 확률 계산을 위하여 가우시안 혼합 모델 선택 방식을 선택하고, 기준치 이상이 아니면, 문맥 의존 HMM에 기반한 관측확률 계산 방식을 선택한다.
상기 관측 확률 계산부는 상기 관측 확률 계산 방식 결정부의 결정 결과가 가우시안 혼합 모델 선택 방식인 경우, 문맥 독립 HMM을 이용하여 제1 관측 확률을 계산하는 제1 관측 확률 계산부, 상기 제1 관측 확률 계산부에서 구해진 제1 관측 확률을 이용하여 상기 활성 노드 선택부에서 선택된 활성 노드중에서 임계값에 해당하는 수의 상태 노드를 결정하는 상태 노드 결정부, 상기 상태 노드 결정부에서 결정된 상태 노드에 대해 문맥 의존 HMM을 이용하여 제2 관측 확률을 계산하는 제2 관측 확률 계산부, 상기 관측 확률 계산 방식 결정부의 결정 결과가 문맥 의존 HMM 에 기반한 관측확률 계산 방식인 경우, 상기 활성 노드 선택부에서 선택된 활성 노드에 대하여 문맥 의존 HMM을 이용하여 제3 관측 확률을 구하는 제3 관측 확률 계산부를 포함한다.
본 발명의 다른 측면에 따르면, 음성 신호에 대하여 특징 벡터를 추출한 후, 상기 특징 벡터를 이용하여 음성 인식을 수행하는 방법에 있어서, 상기 특징 벡터를 이용하여 활성 노드를 결정하고, 상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 문맥 독립 HMM을 이용하여 제1 관측 확률을 구하고, 상기 활성 노드의 수가 미리 정해진 임계범위 이상인지를 판단하여 임계값을 조절하고, 상기 구해진 제1 관측 확률을 이용하여 상기 활성 노드중에서 상기 조절된 임계값에 해당하는 수의 상태 노드를 결정하고, 상기 결정된 상태 노드에 대하여 문맥 의존 HMM을 이용하여 제2 관측 확률을 구하고, 상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법이 제공된다.
상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 문맥 의존 HMM을 기반으로 제3 관측 확률을 구하고, 상기 구해진 제3 관측 확률을 이용하여 음성 인식을 수행한다.
본 발명의 또 다른 측면에 따르면, 음성 신호에 대하여 특징 벡터를 추출한 후, 상기 특징 벡터를 이용하여 음성 인식을 수행하는 방법에 있어서, 상기 특징 벡터를 이용하여 활성 노드를 결정하고, 상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 문맥 독립 HMM을 이용하여 제1 관측 확률을 구하고, 상기 구해진 제1 관측 확률을 이용하여 상기 활성 노드중에서 미리 정해진 임계값에 해당 하는 수의 상태 노드를 결정하고, 상기 결정된 상태 노드에 대하여 문맥 의존 HMM을 이용하여 제2 관측 확률을 구하고, 상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법이 제공된다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 음성 인식 장치의 구성을 개략적으로 나타낸 블럭도, 도 2는 도 1에 도시된 음성 인식부의 구성을 상세히 나타낸 블럭도다.
도 1을 참조하면, 음성 인식 장치는 마이크 등을 통해 사용자에 의해 입력된 음성 신호를 디지털 음성 신호로 변환하는 음성 수신부(100), 상기 음성 수신부(100)에서 출력되는 음성 신호에서 음성 구간을 검출하는 음성 구간 검출부(110), 상기 음성 구간 검출부(110)에서 검출된 음성 구간에 해당하는 음성신호의 특징을 벡터 형태로 추출하는 특징벡터 추출부(120), 상기 특징 벡터 추출부(120)에서 추출된 특징 벡터를 HMM을 이용하여 음성 인식 결과를 출력하는 음성 인식부(130), 음향모델(142)/어휘사전(144)/언어모델(146) 등을 포함하는 데이터베이스(140)를 포함한다.
상기 음성 구간 검출부(110)는 음성 신호를 프레임화하고, 상기 프레임화된 음성 신호에 대하여 일정한 크기와 고주파수를 특징으로 하는 정적 잡음을 제거하고 잔여 에너지를 대상으로 음향 프레임별 절대 에너지의 크기와 영교차율을 분석하여 음성 구간을 검출한다.
상기 음성 인식부(130)는 상기 특징 벡터 추출부(120)에서 출력되는 특징벡터를 이용하여 활성 노드를 구하고, 상기 구해진 활성 노드의 수와 미리 정해진 기준치와의 관계를 이용하여 관측 확률 계산 방식을 결정하고, 상기 결정된 방식을 이용하여 관측 확률을 계산하여 음성 인식을 수행한다.
즉, 상기 음성 인식부(130)는 데이터베이스(140)의 음성학적 정보와 상기 특징 벡터 추출부(120)에서 출력되는 특징 벡터와의 비교를 통해 인식 결과(즉, 활성 노드)를 얻게 된다. 상기 특징벡터는 유사도 측정 및 인식과정을 거치게 되는데, 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향모델과(Acoustic Model)(142) 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model)(146)이 사용된다
따라서, 상기 음성 인식부(130)는 상기 특징 벡터 추출부(120)에서 출력되는 특징 벡터를 상기 데이터베이스(140)에 저장된 음향 모델(142) 또는 언어 모델(146)과의 비교를 통해 가능한 단어에 대한 경우 즉, 활성 노드를 결정한다.
그런 다음 상기 음성 인식부(130)는 상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 가우시안 혼합 모델 선택 방식을 이용하여 음성 인식을 수행하고, 기준치 이상이 아니면, 문맥 의존 HMM에 기반한 관측확률 계산 방식을 이용하여 음성 인식을 수행한다.
여기서, 상기 가우시안 혼합 모델 선택(Gaussian Mixture Model Selection) 방식은 각 프레임에서 작은 숫자의 문맥 독립 은닉 마코프 모델(한국어의 경우 45 * 3상태 = 135개 정도로 문맥 독립 은닉 마코프 모델로 모델링이 가능함)에서의 관 측확률을 먼저 계산한 후 고득점 관측확률을 갖는 K개의 문맥 독립 은닉 마코프 모델에 해당하는 활성노드의 문맥 의존 은닉 마코프 모델(인식대상 어휘수에 따라 수백 ~ 수만개까지 가능)의 관측 확률만을 계산하여 정교화하고, 낮은 관측 확률을 갖는 문맥 의존 마코프 모델에서의 관측확률은 이미 계산한 문맥 독립 마코프 모델에서의 관측확률 값을 사용하는 방식을 말한다.
상기와 같은 역할을 수행하는 음성 인식부(130)에 대하여 도 2를 참조하여 상세히 설명하기로 한다.
도 2를 참조하면, 음성 인식부(130)는 특징 벡터 추출부(120)에서 출력되는 특징 벡터를 이용하여 활성 노드를 선택하는 활성 노드 선택부(200), 상기 활성 노드 선택부(200)에서 선택된 활성 노드의 수를 이용하여 관측 확률 계산 방식을 결정하는 관측 확률 계산 방식 결정부(210), 상기 관측 확률 계산 방식 결정부(210)에서 결정된 방식에 따라 관측 확률을 구하는 관측 확률 계산부(220), 상기 관측 확률 계산부(220)에서 구해진 관측 확률을 이용하여 음성 인식을 수행하고 그 결과를 출력하는 음식 인식 결과 생성부(230)를 포함한다.
상기 관측 확률 계산 방식 결정부(210)는 상기 활성 노드 선택부(200)에서 선택된 활성 노드의 수를 미리 정해진 기준치와 비교한다.
그런 다음 상기 관측 확률 계산 방식 결정부(210)는 상기 활성 노드의 수가 미리 정해진 기준치 이상이면, 관측 확률 계산을 위하여 가우시안 혼합 모델 선택 방식을 선택하고, 기준치 이상이 아니면, 문맥 의존 HMM에 기반한 관측확률 계산 방식을 선택한다.
상기 관측 확률 계산부(220)는 상기 관측 확률 계산 방식 결정부(210)의 결정 결과가 가우시안 혼합 모델 선택 방식인 경우, 문맥 독립 HMM을 이용하여 제1 관측 확률을 계산하는 제1 관측 확률 계산부(222), 상기 제1 관측 확률 계산부(222)에서 구해진 제1 관측 확률에 따라 상기 활성 노드 선택부(200)에서 선택된 활성 노드 중에서 임계값에 해당하는 수의 상태 노드를 결정하는 상태 노드 결정부(224), 상기 상태 노드 결정부(224)에서 결정된 상태 노드에 대해 문맥 의존 HMM을 이용하여 제2 관측 확률을 계산하는 제2 관측 확률 계산부(226)를 포함한다.
또한, 상기 관측 확률 계산부(220)는 상기 관측 확률 계산 방식 결정부(210)의 결정 결과가 문맥 의존 HMM에 기반한 관측확률 계산 방식인 경우, 상기 활성 노드 선택부(200)에서 선택된 활성 노드에 대하여 문맥 의존 HMM을 이용하여 제3 관측 확률을 구하는 제3 관측 확률 계산부(228)를 포함한다.
상기 제1 관측 확률 계산부(222)는 문맥 독립 HMM을 이용하여 제1 관측 확률을 구한다. 상기 문맥 독립 HMM은 한국어의 경우 45개 정도로 표현할 수 있어 은닉 마코프 모델의 상태가 3개인 모델의 경우 135개의 상태의 가우시안 혼합을 기반으로 관측 확률을 계산할 수 있다.
상기 상태 노드 결정부(224)는 각 프레임에서의 활성 노드의 수에 따라 임계값을 가변적으로 조절하여, 상기 조절된 임계값에 해당하는 상태 노드를 결정한다.
즉, 상기 상태 노드 결정부(224)는 활성 노드의 수가 미리 정해진 임계범위 이상이면, 상태 노드를 결정하기 위한 임계값을 작게 조절하고, 상기 활성 노드중에서 상기 제1 관측 확률 계산부(222)에서 구해진 제1 관측 확률이 높은 순으로 상 기 조절된 임계값에 해당하는 수의 상태 노드를 선택한다.
즉, 상기 상태 노드 결정부(224)는 활성 노드의 수가 미리 정해진 임계범위보다 많은 프레임에서는 상기 임계값을 작게하여 보다 많은 수의 상태 노드가 문맥 독립 HMM에 기반한 보다 정교화된 관측확률을 사용하게 한다.
또한, 상기 상태 노드 결정부(224)는 활성 노드의 수가 미리 정해진 임계범위 이상이 아니면, 상태 노드를 결정하기 위한 임계값을 크게 조절하고, 상기 활성 노드중에서 상기 제1 관측 확률 계산부(222)에서 구해진 제1 관측 확률이 높은 순으로 상기 조절된 임계값에 해당하는 수의 상태 노드를 선택한다.
즉, 상기 상태 노드 결정부(224)는 활성 노드의 수가 미리 정해진 임계범위보다 적은 프레임에서는 상기 임계값을 크게하여 보다 많은 수의 상태 노드가 문맥 의존 HMM에 기반한 보다 정교화된 관측확률을 사용하게 한다. 이를 통해 각 프레임에서의 계산량을 정규화하여 활성노드의 수가 지나치게 많은 프레임에서 많은 계산량을 사용하게 되는 것을 방지하여, 전체적인 인식속도를 증가시킬 수 있다.
상기 제2 관측 확률 계산부(226)는 상기 상태 노드 결정부(224)에서 결정된 상태 노드들에 대하여 문맥 의존 HMM을 기반으로 제2 관측 확률을 구하여 상기 음성 인식 결과 생성부(230)에 전송한다.
그러면, 상기 음성 인식 결과 생성부(230)는 상기 제2 관측 확률을 이용하여 음성 인식을 수행하고 그 결과가 출력되게 한다.
이하 상기와 같이 구성된 음성 인식 장치가 음성 인식을 수행하는 방법에 대하여 설명하기로 한다.
사용자가 마이크 등을 이용하여 음성을 입력하면, 상기 음성 수신부(100)는 상기 입력된 아날로그 음성 신호를 디지털 음성 신호로 변환하여 상기 음성 구간 검출부(110)에 전송한다.
상기 음성 구간 검출부(110)는 상기 디지털 음성 신호를 프레임화하고, 프레임별 음성 구간을 검출하여 상기 특징벡터 추출부(120)에 전송한다.
상기 특징 벡터 추출부(120)는 상기 음성 구간 검출부(110)로부터 전송된 각 프레임별 음성 구간에 해당하는 음성 신호에 대하여 특징 벡터를 추출하고 상기 음성 인식부(130)에 전송한다.
상기 음성 인식부(130)의 활성 노드 선택부(200)는 특징 벡터 추출부(120)에서 출력되는 특징 벡터를 상기 데이터 베이스(140)에 저장된 음향 모델(142) 또는 언어 모델(146)과의 비교를 통해 가능한 단어에 대한 활성 노드를 결정하여 상기 관측 확률 계산 방식 결정부(210)에 전송한다.
상기 관측 확률 계산 방식 결정부(210)는 상기 활성 노드 선택부(200)에서 출력되는 각 프레임마다의 활성 노드의 수가 미리 정해진 기준치 이상인지를 판단한다.
상기 판단결과 활성 노드가 미리 정해진 기준치 이상이면, 상기 관측 확률 계산 방식 결정부(210)는 가우시안 혼합 모델 선택 방식을 선택하여, 상기 활성 노드를 상기 제1 관측 확률 계산부(222)에 전송한다.
만약, 상기 판단결과 활성 노드가 미리 정해진 기준치 이상이 아니면, 상기 관측 확률 계산 방식 결정부(210)는 문맥 의존 HMM에 기반한 관측확률 계산 방식을 이용한다고 판단하여 상기 활성 노드를 상기 제3 관측 확률 계산부(228)에 전송한다.
그러면, 상기 제1 관측 확률 계산부(222)는 상기 입력된 활성 노드에 대해 문맥 독립 HMM을 기반으로 제1 관측 확률을 구하여 상기 상태 노드 결정부(224)에 전송한다.
상기 상태 노드 결정부(224)는 각 프레임별 활성 노드의 수가 미리 정해진 임계범위 이상이면, 임계값을 작게 조절하고, 임계범위 이상이 아니면, 임계값을 크게 조절한다.
그런 다음 상기 상태 노드 결정부(224)는 상기 제1 관측 확률 계산부(222)에서 계산된 각 상태별 제1 관측 확률과 상기 조절된 임계값을 이용하여 상기 임계값에 해당하는 수의 상태 노드를 결정한다. 즉, 상기 상태 노드 결정부(224)는 상기 제1 관측 확률 계산부(222)에서 계산된 제1 관측 확률 중에서 그 값이 큰 순으로 상기 임계값에 해당하는 수의 상태 노드를 결정하여 그 결과를 상기 제2 관측 확률 계산부(226)에 전송한다.
이를 기반으로 문맥 의존 HMM로 모델링되는 현재 프레임에서의 활성 상태노드들은 고득점 K개(임계값)의 문맥 독립 HMM의 상태에 대응되는 상태노드와 그외 상태노드로 구별이 된다.
예를 들면 문맥 독립 HMM의 상태들 중에 a_1, S_2, E_1, xl_3,...등이 임계값에 해당하는 상태노드들(a_1: 'a'd의 첫번째 상태, xl_3: 'xl'의 세번째 상태)이라고 하면, 현재 프레임에서 문맥 의존 HMM로 표현되는 활성노드들 중에 a를 중심 음소로 하는 첫번째 상태노드, S를 중심음소로 하는 두번째 상태노드, E를 중심음소로 하는 첫번째 상태노드, xl을 중심음소로 하는 세번째 상태노드 등이 선택된다.
이와 같이 선택된 활성 상태노드들은 문맥 의존 HMM을 기반으로 관측확률을 계산함으로써 보다 정교화된 관측 확률을 사용하고, 그 외 활성 상태 노드들에 대해서는 상기 제1 관측 확률 계산부(222)에서 구한 제1 관측 확률을 재사용하게 된다.
즉, 인식대상 어휘수와 프레임에 따라서 수천 ~ 수만까지 증가할 수 있는 활성노드들에 대해 문맥 의존 HMM을 기반으로 관측 확률을 모두 계산하는 대신에 작은 수의 문맥 독립 HMM을 기반으로 우선 대략적인 관측 확률을 계산한 후에 고득점을 갖는 상태노드에 대해서만 문맥 의존 HMM을 기반으로 한 관측확률로 정교화하고 나머지는 이미 계산된 값을 재사용함으로써 전체 계산량을 줄일 수 있다.
상기 제2 관측 확률 계산부(226)는 상기 상태 노드 결정부(224)에서 결정된 상태 노드에 대하여 문맥 의존 HMM을 이용하여 관측 확률을 구하여 상기 음성 인식 결과 생성부(230)에 전송한다.
상기 제3 관측 확률 계산부(230)는 상기 관측 확률 계산 방식 결정부(210)의 결정 결과 문맥 의존 HMM에 기반한 관측확률 계산 방식을 이용하는 경우, 상기 활성 노드 선택부(200)에서 선택된 활성 노드에 대하여 문맥 의존 HMM을 이용하여 관측 확률을 구하여 음성 인식 결과 생성부(230)에 전송한다.
상기 음성 인식 결과 생성부(230)는 상기 제2 관측 확률 계산부(226) 또는 제3 관측 확률 계산부(228)에서 계산된 관측 확률을 이용하여 음성 인식을 수행한다.
도 3은 본 발명에 따른 음성 인식 장치에서 음성 인식 방법을 나타낸 흐름도이다.
도 3을 참조하면, 음성 인식 장치는 사용자에 의해 음성이 입력되면(S300), 상기 입력된 음성에서 음성 구간을 검출한다(S302).
단계 302의 수행후, 상기 음성 인식 장치는 상기 검출된 음성 구간에서 각 프레임별로 특징 벡터를 추출하고(S304), 상기 추출된 특징 벡터를 이용하여 활성노드를 구한다(S306).
그런다음 상기 음성 인식 장치는 상기 구해진 프레임별 활성 노드의 수가 미리 정해진 기준치 이상인지를 판단한다(S308).
단계 308의 판단결과 활성노드의 수가 미리 정해진 기준치 이상이면, 상기 음성 인식 장치는 가우시안 혼합 선택 방식을 이용하여 관측확률을 구하고(S310), 상기 구해진 관측확률을 이용하여 음성 인식을 수행한다(S312).
만약, 단계 308의 판단결과 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 상기 음성 인식 장치는 문맥 의존 HMM에 기반한 관측확률 계산 방식을 이용하여 관측 확률을 구하고(S314), 상기 구해진 관측 확률을 이용하여 음성 인식을 수행한다(S312).
도 4는 본 발명의 바람직한 일 실시예에 따른 음성 인식 장치에서 음성 인식을 위한 관측 확률 계산 방법을 나타낸 흐름도이다.
도 4를 참조하면, 음성 인식 장치는 입력되는 특징 벡터를 이용하여 활성 노드를 구하고(S400), 상기 구해진 활성 노드의 수가 미리 정해진 기준치 이상인지를 판단한다(S402).
단계 402의 판단결과 상기 활성 노드의 수가 미리 정해진 기준치 이상이면, 상기 음성 인식 장치는 문맥 독립 HMM을 이용하여 제1 관측 확률을 구한다(S404).
단계 404의 수행 후, 상기 음성 인식 장치는 상기 활성 노드중에서 상기 제1 관측 확률이 높은 순으로 미리 정해진 임계값에 해당하는 수의 상태 노드를 선택한다(S406).
단계 406의 수행 후, 상기 음성 인식 장치는 상기 선택된 상태 노드에 대해 문맥 의존 HMM을 이용하여 제2 관측 확률을 구한다(S408).
단계 408의 수행 후, 상기 음성 인식 장치는 상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행한다(S410).
만약, 단계 402의 판단결과 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 상기 음성 인식 장치는 상기 활성 노드에 대하여 문맥 의존 HMM을 이용하여 제3 관측 확률을 구하고(S412), 상기 구해진 제3 관측 확률을 이용하여 음성 인식을 수행한다(S414).
도 5는 본 발명의 바람직한 다른 실시예에 따른 음성 인식 장치에서 음성 인식을 위한 관측 확률 계산 방법을 나타낸 흐름도이다.
도 5를 참조하면, 음성 인식 장치는 특징 벡터를 이용하여 활성 노드를 구하고(S500), 상기 구해진 활성 노드의 수가 미리 정해진 기준치 이상인지를 판단한 다(S502).
단계 502의 판단결과 상기 활성 노드의 수가 미리 정해진 기준치 이상이면, 상기 음성 인식 장치는 문맥 독립 HMM을 이용하여 제1 관측 확률을 구하고(S504), 상기 활성 노드의 수가 미리 정해진 임계범위 이상인지를 판단한다(S506).
단계 506의 판단결과 상기 활성 노드의 수가 임계범위 이상이면, 상기 음성 인식 장치는 임계값을 작게 조절하고(S508), 상기 구해진 제1 관측 확률을 이용하여 상기 조절된 임계값에 해당하는 수의 상태 노드를 선택한다(S510). 즉, 상기 음성 인식 장치는 상기 활성 노드중에서 상기 구해진 제1 관측 확률이 큰 순으로 상기 임계값에 해당하는 수의 상태 노드를 선택한다.
본 발명의 다른 실시예에 따르면, 상기 제1 관측 확률에 대한 일정 범위를 설정하고, 상기 활성 노드 중에서 상기 설정한 범위에 해당하는 상태 노드를 선택할 수 있다. 여기서, 상기 제1 관측 확률에 대한 일정 범위는 미리 설정된 범위일 수 있다.
예를 들면, 상기 제1 관측 확률에 대한 일정 범위가 200-300이라면, 상기 음성 인식 장치는 상기 활성 노드중에서 최고의 관측 확률을 갖는 활성 노드를 기준으로 상기 200-300사이에 해당하는 노드를 선택할 수 있다.
단계 510의 수행 후, 상기 음성 인식 장치는 상기 결정된 상태 노드에 대하여 문맥 의존 HMM을 이용하여 제2 관측 확률을 구하고(S512), 상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행한다(S514).
이때, 상태 노드로 결정되지 않은 노드는 단계 504에서 구해진 제1 관측 확 률을 이용하여 음성 인식을 수행한다.
만약, 단계 506의 판단결과 상기 활성 노드의 수가 임계 범위 이상이 아니면, 상기 음성 인식 장치는 활성 노드의 수가 임계 범위 미만인지를 판단한다(S516).
단계 516의 판단결과 상기 활성 노드의 수가 임계 범위 미만이면, 상기 음성 인식 장치는 임계값을 크게 조절하여(S518) 단계 510부터 단계 514를 수행한다.
만약, 단계 516의 판단결과 활성 노드의 수가 임계 범위 미만이 아니면, 상기 음성 인식 장치는 상기 구해진 제1 관측 확률을 이용하여 기준 임계값에 해당하는 수의 상태 노드를 선택한 후(S520), 단계 512를 수행한다.
만약, 단계 502의 판단결과 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 상기 음성 인식 장치는 상기 활성 노드에 대하여 문맥 의존 HMM을 이용하여 제3 관측 확률을 구하고(S522), 상기 구해진 제3 관측 확률을 이용하여 음성 인식을 수행한다(S524).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
상술한 바와 같이 본 발명에 따르면, 활성 노드의 수에 따라 관측 확률 계산 방식을 다르게 선택하므로 음성 인식률이 증가되고 인식 속도가 향상될 수 있는 음성 인식 장치 및 방법을 제공할 수 있다.
또한, 본 발명에 따르면, 활성노드의 수에 따라 가우시안 혼합 모델 선택 방식에서 사용되는 문맥독립 모델 선택 임계값을 조절하는 단계를 추가함으로써 각 프레임에서의 계산량을 정규화하여 활성노드의 수가 지나치게 많은 프레임에서 많은 계산량을 사용하게 하는 것을 방지할 수 있는 음성 인식 장치 및 방법을 제공할 수 있다.

Claims (10)

  1. 음성 신호의 특징 벡터를 이용하여 음성 인식을 수행하는 장치에 있어서,
    상기 특징 벡터를 이용하여 활성 노드를 선택하는 활성 노드 선택부;
    상기 활성 노드 선택부에서 선택된 활성 노드의 수를 이용하여 관측 확률 계산 방식을 결정하는 관측 확률 계산 방식 결정부;
    상기 관측 확률 계산 방식 결정부에서 결정된 방식에 따라 관측 확률을 구하는 관측 확률 계산부;및
    상기 관측 확률 계산부에서 구해진 관측 확률을 이용하여 음성 인식을 수행하고 그 결과를 출력하는 음식 인식 결과 생성부
    를 포함하는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 관측 확률 계산 방식 결정부는 상기 활성 노드 선택부에서 선택된 활성 노드의 수가 미리 정해진 기준치 이상이면, 관측 확률 계산을 위하여 가우시안 혼합 모델 선택 방식을 선택하고, 기준치 이상이 아니면, 문맥 의존 HMM에 기반한 관측확률 계산 방식을 선택하는 것을 특징으로 하는 음성 인식 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 관측 확률 계산부는,
    상기 관측 확률 계산 방식 결정부의 결정 결과가 가우시안 혼합 모델 선택 방식인 경우, 문맥 독립 은닉 마코프 모델(HMM)을 이용하여 제1 관측 확률을 계산하는 제1 관측 확률 계산부;
    상기 제1 관측 확률 계산부에서 구해진 제1 관측 확률을 이용하여 상기 활성 노드 선택부에서 선택된 활성 노드중에서 임계값에 해당하는 수의 상태 노드를 결정하는 상태 노드 결정부;및
    상기 상태 노드 결정부에서 결정된 상태 노드에 대해 문맥 의존 은닉 마코프 모델(HMM)을 이용하여 제2 관측 확률을 계산하는 제2 관측 확률 계산부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  4. 제3항에 있어서,
    상기 상태 노드 결정부는 프레임별 활성 노드의 수가 임계 범위 이상이면, 상태 노드를 결정하기 위한 임계값을 작게 조절하고, 임계범위 미만이면, 임계값을 크게 조절하는 것을 특징으로 하는 음성 인식 장치.
  5. 제1항 또는 제2항에 있어서,
    상기 관측 확률 계산부는,
    상기 관측 확률 계산 방식 결정부의 결정 결과가 문맥 의존 HMM에 기반한 관측확률 계산 방식인 경우, 상기 활성 노드 선택부에서 선택된 활성 노드에 대하여 문맥 의존 은닉 마코프 모델(HMM)을 이용하여 제3 관측 확률을 구하는 제3 관측 확 률 계산부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  6. 음성 신호에 대하여 특징 벡터를 추출한 후, 상기 특징 벡터를 이용하여 음성 인식을 수행하는 방법에 있어서,
    상기 특징 벡터를 이용하여 활성 노드를 결정하는 단계;
    상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 문맥 독립 은닉 마코프 모델(HMM)을 이용하여 제1 관측 확률을 구하고, 상기 활성 노드의 수가 미리 정해진 임계범위 이상인지를 판단하여 임계값을 조절하는 단계;
    상기 구해진 제1 관측 확률을 이용하여 상기 활성 노드중에서 상기 조절된 임계값에 해당하는 수의 상태 노드를 결정하는 단계;
    상기 결정된 상태 노드에 대하여 문맥 의존 은닉 마코프 모델(HMM)을 이용하여 제2 관측 확률을 구하는 단계;및
    상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행하는 단계
    를 포함하는 것을 특징으로 하는 음성 인식 방법.
  7. 제6항에 있어서,
    상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 문맥 의존 은닉 마코프 모델(HMM)을 기반으로 제3 관측 확률을 구하고, 상기 구해진 제3 관측 확률을 이용하여 음성 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 제6항에 있어서,
    상기 활성 노드의 수가 미리 정해진 임계범위 이상인지를 판단하여 임계값을 조절하는 단계는,
    상기 활성 노드의 수가 임계범위 이상이면, 상기 임계값을 작게 조절하고, 임계 범위 미만이면, 상기 임계값을 크게 조절하는 것을 특징으로 하는 음성 인식 방법.
  9. 음성 신호에 대하여 특징 벡터를 추출한 후, 상기 특징 벡터를 이용하여 음성 인식을 수행하는 방법에 있어서,
    상기 특징 벡터를 이용하여 활성 노드를 결정하는 단계;
    상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이면, 문맥 독립 은닉 마코프 모델(HMM)을 이용하여 제1 관측 확률을 구하는 단계;
    상기 구해진 제1 관측 확률을 이용하여 상기 활성 노드중에서 미리 정해진 임계값에 해당하는 수의 상태 노드를 결정하는 단계;
    상기 결정된 상태 노드에 대하여 문맥 의존은닉 마코프 모델(HMM)을 이용하여 제2 관측 확률을 구하는 단계;및
    상기 구해진 제2 관측 확률을 이용하여 음성 인식을 수행하는 단계
    를 포함하는 것을 특징으로 하는 음성 인식 방법.
  10. 제9항에 있어서,
    상기 결정된 활성 노드의 수가 미리 정해진 기준치 이상이 아니면, 문맥 의존 은닉 마코프 모델(HMM)을 이용하여 제3 관측확률을 구하고, 상기 구해진 제3 관측 확률을 이용하여 음성 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
KR1020060053775A 2005-12-08 2006-06-15 음성 인식 장치 및 방법 KR100737343B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119494 2005-12-08
KR1020050119494 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061162A KR20070061162A (ko) 2007-06-13
KR100737343B1 true KR100737343B1 (ko) 2007-07-09

Family

ID=38357098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060053775A KR100737343B1 (ko) 2005-12-08 2006-06-15 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100737343B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101217525B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0192279A (ja) * 1987-08-31 1989-04-11 Nippon Paint Co Ltd 防食塗料
WO1994023425A1 (en) * 1993-03-31 1994-10-13 British Telecommunications Public Limited Company Connected speech recognition
JPH10202424A (ja) * 1997-01-13 1998-08-04 Tani Tec:Kk セグメント及びセグメンタルソー
WO1999067775A1 (en) * 1998-06-24 1999-12-29 Fonix Corporation Method and apparatus for signal classification using a multilayernetwork
KR20040001733A (ko) * 2002-06-28 2004-01-07 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
KR20040051317A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를저장한 기록 매체
KR20050037125A (ko) * 2003-10-17 2005-04-21 학교법인 포항공과대학교 히든 마코프 모델을 이용한 음성 인식장치
KR20060058006A (ko) * 2004-11-24 2006-05-29 마이크로소프트 코포레이션 문자들의 조작을 제어하는 방법 및 시스템

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0192279A (ja) * 1987-08-31 1989-04-11 Nippon Paint Co Ltd 防食塗料
WO1994023425A1 (en) * 1993-03-31 1994-10-13 British Telecommunications Public Limited Company Connected speech recognition
JPH10202424A (ja) * 1997-01-13 1998-08-04 Tani Tec:Kk セグメント及びセグメンタルソー
WO1999067775A1 (en) * 1998-06-24 1999-12-29 Fonix Corporation Method and apparatus for signal classification using a multilayernetwork
KR20040001733A (ko) * 2002-06-28 2004-01-07 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
KR20040051317A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를저장한 기록 매체
KR20050037125A (ko) * 2003-10-17 2005-04-21 학교법인 포항공과대학교 히든 마코프 모델을 이용한 음성 인식장치
KR20060058006A (ko) * 2004-11-24 2006-05-29 마이크로소프트 코포레이션 문자들의 조작을 제어하는 방법 및 시스템

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
10-2004-1733
10-2004-51317
10-2005-37125
10-2006-58006
10-202424
10-406604
10-92279

Also Published As

Publication number Publication date
KR20070061162A (ko) 2007-06-13

Similar Documents

Publication Publication Date Title
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2006227628A (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
KR100664960B1 (ko) 음성 인식 장치 및 방법
JP2014206642A (ja) 音声認識装置および音声認識プログラム
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
KR100737343B1 (ko) 음성 인식 장치 및 방법
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
KR20160000218A (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
JP4610451B2 (ja) 音声認識装置及びプログラム
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100701

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee