KR19980036956A - 히든 마크오프 모델(hmm)을 이용한 음성인식 방법 - Google Patents

히든 마크오프 모델(hmm)을 이용한 음성인식 방법 Download PDF

Info

Publication number
KR19980036956A
KR19980036956A KR1019960055629A KR19960055629A KR19980036956A KR 19980036956 A KR19980036956 A KR 19980036956A KR 1019960055629 A KR1019960055629 A KR 1019960055629A KR 19960055629 A KR19960055629 A KR 19960055629A KR 19980036956 A KR19980036956 A KR 19980036956A
Authority
KR
South Korea
Prior art keywords
model
state
speech recognition
hmm
frames
Prior art date
Application number
KR1019960055629A
Other languages
English (en)
Other versions
KR100289315B1 (ko
Inventor
이상헌
Original Assignee
김영환
현대전자산업 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영환, 현대전자산업 주식회사 filed Critical 김영환
Priority to KR1019960055629A priority Critical patent/KR100289315B1/ko
Publication of KR19980036956A publication Critical patent/KR19980036956A/ko
Application granted granted Critical
Publication of KR100289315B1 publication Critical patent/KR100289315B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

[목적]
본 발명은 HMM을 이용한 음성인식에서, 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도를 함수를 효과적으로 모델링하기 위한 히든 마크오프 모델을 이용한 음성인식 방법에 관한 것이다.
[구성]
본 발명은 HMM을 이용한 음성인식에서 기존모델을 생성하는 훈련과정이, 모델 파라미터를 초기화하는 제 1 단계와, 음성 데이터를 상태로 분할하는 제 2 단계와, 모델 파라미터를 재추정하는 제 3 단계와, 제 3 단계의 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제 4 단계와, 제 4 단계의 비터비 알고리즘이 일정 회수만큼 반복 수행된 경우 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제 5 단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 제 2 단계로 돌아가 그 이후 단계를 수행하는 제 6 단계로 이루어진다.

Description

히든 마크오프 모델(HMM)을 이용한 음성인식 방법
도 1 은 일반적인 단순 좌우모델의 상태 천이도.
도 2 는 일반적인 음성인식 과정도.
도 3 은 본 발명에 의한 기준모델의 훈련 과정도.
* 도면의 주요부분에 대한 부호의 설명 *
A : 상태천이 확률
본 발명은 히든 마크오프 모델(Hidden Markov Model ; 이하, 'HMM'이라 약칭함)을 이용한 음성인식 방법에 있어서, 모델을 훈련시킬 경우 상태당 가지수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도 함수를 효과적으로 모델링하기 위한 HMM을 이용한 음성인식 방법에 관한 것이다.
일반적으로 디지털 오디오 시스템의 음성인식 기술에서 고립단어를 인식하는 것은 매우 중요하며, 특히 연속음성을 인식하기 위해서는 무엇보다 고립단어의 인식률이 높아야 한다.
이에 따라, 종래에는 고립단어를 인식하기 위한 기술로서 HMM을 이용하여 음성인식을 수행하였다.
상기 HMM을 이용한 음성인식은 크게 2가지 과정으로 나누어지는데 즉, 수렴되는 모델의 파라미터를 저장하는 것으로 훈련과정을 통해 각 음성의 기준모델을 만드는 과정과 인식과정을 통해 테스트할 음성을 기준모델과 비교하여 제일 확률값이 높은 모델을 음성으로 인식하는 과정으로 나뉘어 수행된다.
이러한 HMM을 이용한 음성인식은 상태의 수와 가지의 수를 정하여 훈련하게 되며, 특히 종래의 모델 훈련과정은 각 상태당 가지의 수를 미리 일정하게 정하여 훈련하도록 되어 있다.
여기서, 상태라는 것은 음성이 프레임으로 나뉘어졌을 때 어떤 특징들이 같게 나타나는 부분을 가리키고, 가지라는 것은 같은 단어를 발음하여 여러 음성 중에서 같은 상태내에서 임의의 프레임이 관측될 확률밀도 함수를 말한다.
그러나, 상기와 같은 종래의 기준모델의 훈련과정은 어떤 상태에 속한 프레임의 수가 많든 적든 상관없이 상태의 가지 수를 일정하게 함에 따라 프레임의 수가 많아져 다양한 음성의 특징들이 나타날 경우에도 그 특징들이 관측될 확률을 보다 정확하게 나타낼 수 없었다.
더욱이, 어떤 상태에 속한 프레임이 많아 그 프레임으로부터 구해지는 특징 벡터들이 많아져 관측될 확률분포가 다양해질 가능성이 있음에도 불구하고 각 상태마다 일정한 가지수로 훈련을 시킴에 따라 인식과정에 있어서 확률값에 영향을 미쳐 다른 단어로 오인식될 수도 있게 되는 커다란 문제점을 초래하였다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 그 목적은 HMM을 이용한 음성인식에서 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변시킴으로써 음성의 인식률을 높이고, 음성의 확률밀도 함수를 효과적으로 모델링할 수 있도록 한 HMM을 이용한 음성인식 방법을 제공하는 데에 있다.
이러한 목적을 달성하기 위한 본 발명의 HMM을 이용한 음성인식 방법은, 각 상태에 속한 프레임의 수가 일정값보다 많으면 관측될 확률밀도 함수를 나타내는 가지의 수를 많게 하여 보다 정확한 관측확률을 구할 수 있도록 하고, 상기 프레임의 수가 일정값보다 적으면 가지의 수를 작게하여 계산량을 줄일 수 있도록 한다.
이하, 첨부된 도면을 참조하여 본 발명의 HMM을 이용한 음성인식 방법을 상세히 설명한다.
도 1 은 일반적인 단순 좌우모델의 상태 천이도로서, HMM을 이용한 음성 인식에서는 여러 모델 중에서 음성을 모델링하기에 제일 적당한 좌우모델을 주로 사용한다.
상기 좌우모델의 파라미터는 A, B, Ⅱ로 나타낼 수 있으며, 이때 A는 도 1에 도시된 바와 같이 상태와 상태를 천이하는 상태천이 확률로 정의할 수 있고, B는 음성의 특징들이 관측될 확률을 나타내는 관측확률이며, Ⅱ는 초기에 모델이 어느 상태에 있는가를 나타내는 초기상태 확률이다.
도 2는 일반적인 HMM을 이용한 음성인식 중 음성인식 과정을 보인 도면으로서, 음성인식은 테스트할 음성들을 프레임으로 나누어 특징벡터를 추출하는 특징벡터 추출 단계(S1)와, 상기 단계(S1)에서 추출된 특징벡터로 저장되어 있는 기준모델의 음성에 대해 비터비 복호화(viterbi decoding)과정을 수행하는 비터비 복호화 단계(S2)와, 상기 비터비 복호화 단계(S2)를 수행한 후 각각의 프레임들이 해당 상태에서 발생될 확률을 구하는 것으로 모든 기준모델에 대해 확률값을 구하는 확률값 계산 단계(S3)와, 상기 단계(S3)에서 구한 기준모델의 확률값 중 가장 확률값이 높은 것을 단어로 인식하는 음성 인식 단계(S4)로 수행된다.
여기서, 상기 비터비 복호화(viterbi decoding)알고리즘은 모델이 주어졌을 때 테스트할 음성의 프레임들이 어느 상태에서 발생되었는지를 추정하여 최적의 상태 경로를 찾는 알고리즘이다.
도 3은 본 발명에 의한 기준모델의 훈련 과정을 보인 도면으로서, 기준모델의 훈련과정은 각 상태당 가지의 수를 결정하기 위해 비터비 알고리즘을 통해 그 상태에 속한 프레임의 수를 알아내는 과정과 이 과정에 의해 알아낸 프레임의 수에 따라 가지의 수를 결정하는 과정으로 크게 이루어진다.
특히, 상기 프레임 수를 알아내기 위해 비터비 알고리즘을 수행하는 경우, 모델의 파라미터가 원하는 만큼 근사적으로 수렴되어 더이상 비터비 알고리즘 과정을 수행하여 상태를 분할해도 그 상태에 속한 프레임의 수가 크게 변하지 않을 정도까지 비터비 알고리즘을 일정 회수만큼만(예를 들면, 약 5회 정도)반복 수행한다.
그리고 나서, 상기 비터비 알고리즘에 의해 알아낸 프레임 수를 이용하여 가지의 수를 결정하는 것은 다음 아래 식과 같이 구한다.
(아래 식)
2 ≤ nj≤ 7
.1 ≤ i≤ N
여기서,ni: i상태에 속한 가지의 수
.nji: i상태에 속한 j번째 음성데이터의 프레임 수
.N : 훈련시키는 모델의 상태수
즉, 상기 식은 상태에 속한 프레임의 개수가 전체 데이터의 프레임 개수를 상태 수로 나눈 값과 같으면 가지의 수를 5개로 할당하고, 상기 값보다 작으면 5개 보다 작게 할당하며, 상기 프레임의 개수가 상기 값보다 크면 비례하여 많게 할당하기 위한 식이다.
한편, 각 상태에 할당되는 가지의 수가 상기 식으로부터 2개보다 작게 구해지면 최소한 2개는 할당하고, 7개보다 많아도 최대 7개로 할당한다.
상기와 같이 프레임의 수에 따라 가지의 수를 변환한 후, 상태별로 각각 다른 가지로 상기 과정을 반복하고 모델의 수렴여부를 조사하여 수렴하는 경우 그 모델을 기준모델로 저장한다.
상기와 같은 기준모델의 훈련 과정을 도 3을 참조하여 단계별로 상세히 설명하면 다음과 같다.
우선, 모델 파라미터를 초기화시킨 후(S10), 데이터를 상태로 분할하고(S11), Baum-Welch 알고리즘을 이용하여 모델 파라미터를 재추정한다(S12).
이어, 상기 단계(S12)에서 재추정된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 알아낸 후(S13), 모델의 파라미터를 근사적으로 수렴시키기 위해 상기 비터비 알고리즘이 일정회수만큼(예를 들면, 약 5회 정도) 반복 수행되었는지를 판단하여(S14), 일정 회수만큼 반복 수행되었으면 가지 수 변환 알고리즘을 수행한다(S15).
상기 가지 수 변환 알고리즘은 상기 단계(S13)에서 알아낸 각 상태에 속한 프레임 수에 따라 상태당 가지의 개수를 결정하게 되는데, 즉 상기 프레임 수가 전체 음성 데이터의 프레임 개수를 훈련시키는 모델의 상태수로 나눈 값보다 작으면 가지의 수를 작게 배당하고, 상기 값보다 크면 가지의 수를 많게 배당한다.
이때, 상태당 프레임의 개수에 따라 가지의 수를 변환시킬 경우, 아무리 적어도 2개 이상은 배당하여 확률값을 구할 때 오차가 작게 발생하도록 하고, 또한 아무리 많아도 7개 이상은 배당하지 않게 하여 계산량을 너무 많게 하지 않도록 한다.
즉, 본 발명은 가지수 변환 알고리즘에 의해 프레임의 개수가 많으면 음성의 특징벡터인 심볼을 관측할 확률을 구함에 있어 확률밀도 함수를 많게 하여 자세히 관측확률을 구할 수 있고, 프레임의 개수가 적으면 가지의 수를 적게 배당하여 확률을 덜 세밀하게 구할 수 있다.
이어, 모델이 수렴하는지를 판단하여(S16), 모델이 수렴하지 않는 경우에는 데이터를 상태 분할하는 단계(S11)로 되돌아가 다시 상태별로 각각 다른 가지에 대해 이후 과정을 반복 수행하여 모델의 수렴여부를 조사하고, 만약 모델이 수렴하는 경우에는 그 모델 파라미터를 기준모델로 저장한다.(S17)
이상, 상기 상세한 설명에서와 같이 본 발명은 HMM을 이용하여 고립단어를 인식함에 있어서, 각 상태에 속한 프레임의 수에 따라 가지의 수를 달리함으로써 확률의 모델링을 좀 더 자세하고도 정확히 수행하여 인식과정에서 오인식이 발생되는 것을 방지할 수 있다.

Claims (2)

  1. 기준모델을 생성하는 훈련과정과 고확률값의 모델을 음성으로 인식하는 인식과정으로 이루어진 HMM을 이용한 음성인식 방법에 있어서,
    상기 훈련과정이, 모델 파라미터를 초기화하는 제 1 단계와, 음성 데이터를 상태로 분할하는 제 2 단계와, 모델 파라미터를 재추정하는 제 3 단계와, 상기 제 3 단계에서 재추정된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제 4 단계와, 상기 제 4 단계의 비터비 알고리즘이 일정 회수만큼 반복 수행된 경우 상기 제 4 단계에서 구한 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제 5 단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 상기 제 2 단계로 돌아가 그 이후 단계를 수행하는 제 6 단계로 이루어지는 것을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.
  2. 제 1 항에 있어서,
    상기 제 5 단계의 가지 수 변환 알고리즘은, 상기 제 4 단계에서 구한 각 상태에 속한 프레임 수가 전체 음성 데이터의 프레임 개수를 모델의 상태로 나누어 그 값보다 작은 경우에는 가지의 수를 적게 배당하고, 상기 나눈 값보다 큰 경우에는 가지의 수를 많게 배당하도록 함을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.
KR1019960055629A 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법 KR100289315B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Publications (2)

Publication Number Publication Date
KR19980036956A true KR19980036956A (ko) 1998-08-05
KR100289315B1 KR100289315B1 (ko) 2001-05-02

Family

ID=37517665

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100289315B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100775186B1 (ko) * 2001-06-14 2007-11-12 엘지전자 주식회사 학습된 모델을 이용한 상태 클러스터링 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082390A (ko) * 2001-04-12 2001-08-30 전화성 음성인식 속도향상을 위한 에이치엠엠모델의 대분류기법과이상적인 후보검출

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100775186B1 (ko) * 2001-06-14 2007-11-12 엘지전자 주식회사 학습된 모델을 이용한 상태 클러스터링 방법

Also Published As

Publication number Publication date
KR100289315B1 (ko) 2001-05-02

Similar Documents

Publication Publication Date Title
US4748670A (en) Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
CA1238978A (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
US4759068A (en) Constructing Markov models of words from multiple utterances
Rigoll Speaker adaptation for large vocabulary speech recognition systems using speaker Markov models
EP0238692B1 (en) Speech recognition method and system with efficient storage and rapid assembly of phonological graphs
EP0239016B1 (en) Speech recognition system
Odell The use of context in large vocabulary speech recognition
US5825978A (en) Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5072452A (en) Automatic determination of labels and Markov word models in a speech recognition system
EP0314908B1 (en) Automatic determination of labels and markov word models in a speech recognition system
WO1997008686A2 (en) Method and system for pattern recognition based on tree organised probability densities
Bacchiani et al. Design of a speech recognition system based on acoustically derived segmental units
Nishimura et al. HMM-based speech recognition using multi-dimensional multi-labeling
KR19980036956A (ko) 히든 마크오프 모델(hmm)을 이용한 음성인식 방법
JP3176210B2 (ja) 音声認識方法及び音声認識装置
EP0238697B1 (en) Method of constructing baseform models of words from multiple utterances for speech recognition
CA1246229A (en) Apparatus and method for producing a list of likely candidate words corresponding to a spoken input
Wu et al. Minimum generation error criterion for tree-based clustering of context dependent HMMs
EP0238695B1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
Gopalakrishnan et al. Fast match techniques
EP0238691B1 (en) Method and apparatus for determining a likely word sequence from labels generated by an acoustic processor
KR0170317B1 (ko) 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법
EP0238698B1 (en) Method and apparatus for generating word model baseforms for speech recognition
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置
JPH10149189A (ja) 音声認識のための単語モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee