KR100289315B1 - 히든 마크오프 모델을 이용한 음성인식 방법 - Google Patents

히든 마크오프 모델을 이용한 음성인식 방법 Download PDF

Info

Publication number
KR100289315B1
KR100289315B1 KR1019960055629A KR19960055629A KR100289315B1 KR 100289315 B1 KR100289315 B1 KR 100289315B1 KR 1019960055629 A KR1019960055629 A KR 1019960055629A KR 19960055629 A KR19960055629 A KR 19960055629A KR 100289315 B1 KR100289315 B1 KR 100289315B1
Authority
KR
South Korea
Prior art keywords
model
branches
state
frames
algorithm
Prior art date
Application number
KR1019960055629A
Other languages
English (en)
Other versions
KR19980036956A (ko
Inventor
이상헌
Original Assignee
박종섭
현대전자산업주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박종섭, 현대전자산업주식회사 filed Critical 박종섭
Priority to KR1019960055629A priority Critical patent/KR100289315B1/ko
Publication of KR19980036956A publication Critical patent/KR19980036956A/ko
Application granted granted Critical
Publication of KR100289315B1 publication Critical patent/KR100289315B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

[목적]
본 발명은 HMM을 이용한 음성인식에서, 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도 함수를 효과적으로 모델링하기 위한 히든 마크오프 모델을 이용한 음성인식 방법에 관한 것이다.
[구성]
본 발명은 HMM을 이용한 음성인식에서 기준모델을 생성하는 훈련 과정이, 모델 파라미터를 초기화하는 제1단계와, 음성 데이터를 상태로 분할하는 제2단계와, 모델 파라미터를 재추정하는 제3단계와, 제3단계의 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제4단계와, 제4단계의 비터비 알고리즘이 일정 회수 만큼 반복 수행된 경우 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제5단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 제2단계로 돌아가 그 이후 단계를 수행하는 제6단계로 이루어진다.

Description

히든 마크오프 모델을 이용한 음성인식 방법
제1도는 일반적인 단순 좌우모델의 상태 천이도.
제2도는 일반적인 음성인식 과정도.
제3도는 본 발명에 의한 기준모델의 훈련 과정도.
* 도면의 주요부분에 대한 부호의 설명
A : 상태천이 확률
본 발명은 히든 마크오프 모델(Hidden Markov Model; 이하 ‘HMM’이라 약칭함)을 이용한 음성인식 방법에 있어서, 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변하여 음성의 인식률을 높이고 음성의 확률밀도 함수를 효과적으로 모델링하기 위한 HMM을 이용한 음성인식 방법에 관한 것이다.
일반적으로 디지털 오디오 시스템의 음성인식 기술에서 고립단어를 인식하는 것은 매우 중요하며, 특히 연속음성을 인식하기 위해서는 무엇보다 고립단어의 인식률이 높아야 한다.
이에 따라, 종래에는 고립단어를 인식하기 위한 기술로서 HMM을 이용하여 음성인식을 수행하였다.
상기 HMM을 이용한 음성인식을 크게 2가지 과정으로 나누어지는데 즉, 수렴되는 모델의 파라미터를 저장하는 것으로 훈련과정을 통해 각 음성의 기준모델을 만드는 과정과 인식과정을 통해 테스트할 음성을 기준모델과 비교하여 제일 확률값이 높은 모델을 음성으로 인식하는 과정으로 나뉘어 수행된다.
이러한 HMM을 이용한 음성인식은 상태의 수와 가지의 수를 정하여 훈련하게 되며, 특히 종래의 모델 훈련과정은 각 상태당 가지의 수를 미리 일정하게 정하여 훈련도록 되어 있다.
여기서, 상태라는 것은 음성이 프레임으로 나뉘어졌을 때 어떤 특징들이 같게 나타나는 부분을 가리키고, 가지라는 것은 같은 단어를 발음한 여러 음성 중에서 같은 상태내에서 임의의 프레임이 관측될 확률밀도 함수를 말한다.
그러나, 상기와 같은 종래의 기준모델의 훈련과정은 어떤 상태에 속한 프레임의 수가 많든 적든 상관없이 상태의 가지 수를 일정하게 함에 따라 프레임의 수가 많아져 다양한 음성의 특징들이 나타날 경우에도 그 특징들이 관측될 확률을 보다 정확하게 나타낼 수 없었다.
더욱이, 어떤 상태에 속한 프레임이 많아 그 프레임으로부터 구해지는 특징 벡터들이 많아져 관측될 확률분포가 다양해질 가능성이 있음에도 불구하고 각 상태마다 일정한 가지 수로 훈련을 시킴에 따라 인식과정에 있어서 확률값에 영향을 미쳐 다른 단어로 오인식될 수도 있게 되는 커다란 문제점을 초래하였다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 그 목적은 HMM을 이용한 음성인식에서 모델을 훈련시킬 경우 상태당 가지 수를 그 상태에 속한 프레임 수에 따라 가변시킴으로써 음성의 인식률을 높이고, 음성의 확률밀도 함수를 효과적으로 모델링할 수 있도록 한 HMM을 이용한 음성인식 방법을 제공하는 데에 있다.
이러한 목적을 달성하기 위한 본 발명의 HMM을 이용한 음성인식 방법은, 각 상태에 속한 프레임의 수가 일정값보다 많으면 관측될 확률밀도 함수를 나타내는 가지의 수를 많게 하여 보다 정확한 관측확률을 구할 수 있도록 하고, 상기 프레임의 수가 일정값보다 적으면 가지의 수를 작게하여 계산량을 줄일 수 있도록 한다.
이하, 첨부된 도면을 참조하여 본 발명의 HMM을 이용한 음성인식 방법을 상세히 설명한다.
제1도는 일반적인 단순 좌우모델의 상태 천이도로서, HMM을 이용한 음성인식에서는 여러 모델 중에서 음성을 모델링하기에 제일 적당한 좌우모델을 주로 사용한다.
상기 좌우모델의 파라미터는 A,B, Ⅱ로 나타낼 수 있으며, 이때 A는 제1도에 도시된 바와같이 상태와 상태를 천이하는 상태천이 확률로 정의할 수 있고, B는 음성의 특징들이 관측될 확률을 나타내는 관측확률이며, Ⅱ는 초기에 모델이 어느 상태에 있는가를 나타내는 초기상태 확률이다.
제2도는 일반적인 HMM을 이용한 음성인식 중 음성인식 과정을 보인 도면으로서, 음성인식은 테스트할 음성들을 프레임으로 나누어 특징벡터를 추출하는 특징벡터 추출단계(S1)와, 상기 단계(S1)에서 추출된 특징벡터로 저장되어 있는 기준모델의 음성에 대한 비터비 복호화(viterbi decoding)과정을 수행하는 비터비 복호화 단계(S2)와, 상기 비터비 복호화 단계(S2)를 수행한 후 각각의 프레임들이 해당 상태에서 발생될 확률을 구하는 것으로 모든 기준모델에 대해 확률값을 구하는 확률값 계산 단계(S3)와, 상기 단계(S3)에서 구한 기준모델의 확률값 중 가장 확률값이 높은 것을 단어로 인식하는 음성 인식 단계(S4)로 수행된다.
여기서, 상기 비터비 복호화(viterbi decoding)알고리즘은 모델이 주어졌을 때 테스트할 음성의 프레임들이 어느 상태에서 발생되어지를 추정하여 최적의 상태경로를 찾는 알고리즘이다.
제3도는 본 발명에 의한 기준모델의 훈련 과정을 보인 도면으로서, 기준 모델의 훈련과정은 각 상태당 가지의 수를 결정하기 위해 비터비 알고리즘을 통해 그 상태에 속한 프레임의 수를 알아내는 과정과 이 과정에 이해 알아낸 프레임의 수를 따라 가지는 수를 결정하는 과정으로 크게 이루어진다.
특히, 상기 프레임 수를 알아내기 위해 비터비 일고리즘을 수행하는 경우, 모델의 파라미터가 원하는 만큼 근사적으로 수렴되어 더이상 비터비 알고리즘 과정을 수행하여 상태를 분할해도 그 상태에 속한 프레임의 수가 크게 변하지 않을 정도까지 비터비 알고리즘을 일정 회수만큼만(예를 들면, 약 5회 정도) 반복 수행한다.
그리고 나서, 상기 비터비 알고리즘에 의해 알아낸 프레임 수를 이용하여 가지의 수를 결정하는 것을 다음 아래 식과 같이 구한다.
[아래식]
여기서, ni: i 상태에 속한 가지의 수
nji: i상태에 속한 j번째 음성데이터의 프레임의 수
N : 훈련시키는 모델의 상태수
즉, 상기 식은 상태에 속한 프레임의 개수가 전체 데이터의 프레임 개수를 상태 수로 나눈 값과 같으면 가지의 수를 5개로 할당하고, 상기 값보다 작으면 5개 보다 작게 할당하며, 상기 프레임의 개수가 상기 값보다 크면 비례하여 많게 할당하기 위한 식이다.
한편, 각 상태에 할당되는 가지의 수가 상기 식으로부터 2개보다 작게 구해지면 최소한 2개는 할당하고, 7개보다 많아도 최대 7개로 할당한다.
상기와 같이 프레임의 수에 따라 가지의 수를 변환한 후, 상태별로 각각 다른 가지로 상기 과정을 반복하고 모델의 수렴여부를 조사하여 수렴하는 경우 그 모델의 기준모델로 저장한다.
상기와 같은 기준모델의 훈련과정을 제3도를 참조하여 단계별로 상세히 설명하면 다음과 같다.
우선 모델파라미터를 초기화시킨 후 (S10), 데이터를 상태로 분할하고(S11), Baum-Welch 알고리즘을 이용하여 모델 파라미터를 재추정한다.(S12)
이어, 상기 단계(S12)에서 재추정이된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 사태에 속한 프레임 수를 알아낸 후(S13), 모델의 파라미터를 근사적으로 수렴시키기 위해 상기 비터비 알고리즘이 일정 회수만큼(예를 들면, 약 5회정도) 반복 수행되었는지를 판단하여(S14), 일정 회수만큼 반복 수행되었으면 가지 수 변환 알고리즘을 수행한다.(S15)
상기 가지 수 변환 알고리즘은 상기 단계(S13)에서 알아낸 각 상태에 속한 프레임 수에 따라 상태당 가지의 개수를 결정하게 되는데, 즉 상기 프레임 수가 전체음성 데이터의 프레임 개수를 훈련시키는 모델의 상태수로 나눈 값보다 작으면 가지의 수를 작게 배당하고, 상기 값보다 크면 가지의 수를 많게 배당한다.
이때, 상태당 프레임의 개수에 따라 가지의 수를 변환시킬 경우, 아무리 적어도 2개 이상은 배당하여 확률값을 구할 때 오차가 작게 발생하도록하고, 또한 아무리 많아도 7개 이상은 배당하지 않게 하여 계산량을 너무 많게 하지 않도록 한다.
즉, 본 발명은 가지수 변환 알고리즘에 의해 프레임의 개수가 많으면 음성의 특징벡터인 심볼을 관측할 확률을 구함에 있어 확률밀도 함수를 많게 하여 자세히 관측확률을 구할 수 있고, 프레임의 개수가 적으면 가지의 수를 적게 배당하여 확률을 덜 세밀하게 구할 수 있다.
이어, 모델이 수렴하는지를 판단하여(S16), 모델이 수렴하지 않는 경우에는 데이터를 상태 분할하는 단계(S11)로 되돌아가 다시 상태별로 각각 다른 가지에 대해 이후 과정을 반복 수행하여 모델의 수렴여부를 조사하고, 만약 모델이 수렴하는 경우에는 그 모델 파라미터를 기준모델로 저장한다.(S17)
이상, 상기 상세한 설명에서와 같이 본 발명은 HMM을 이용하여 고립단어를 인식함에 있어서, 각 상태에 속한 프레임의 수에 따라 가지의 수를 달리함으로써 확률의 모델링을 좀 더 자세하고도 정확히 수행하여 인식과정에서 오인식 발생되는 것을 방지할 수 있다.

Claims (2)

  1. 기준모델을 생성하는 훈련과정과 고확률값의 모델을 음성으로 인식하는 인식과정으로 이루어진 HMM을 이용한 음성인식 방법에 있어서, 상기 훈련과정이, 모델 파라미터를 초기화하는 제1단계와, 음성 데이터를 상태로 분할하는 제2단계와, 모델 파라미터를 재추정하는 제3단계와, 상기 제3단계에서 재추정된 모델 파라미터를 이용하여 비터비 알고리즘을 수행하여 각 상태에 속한 프레임 수를 구하는 제4단게와, 상기 제4단계의 비터비 알고리즘이 일정 회수만큼 반복 수행된 경우 상기 제4단계에서 구한 프레임 수에 따라 상태당 가지의 수를 변환하도록 가지 수 변환 알고리즘을 수행하는 제5단계와, 모델이 수렴하는 경우 모델 파라미터를 저장하고, 수렴하지 않는 경우 상기 제2단계로 돌아가 그 이후 단계를 수행하는 제6단계로 이루어지는 것을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.
  2. 제1항에 있어서, 상기 제5단계의 가지 수 변환 알고리즘은, 상기 제4단계에서 구한 각 상태에 속한 프레임 수가 전체 음성 데이터의 프레임 개수를 모델의 상태로 나누어 그 값보다 작은 경우에는 가지의 수를 적게 배당하고, 상기 나눈 값보다 큰 경우에는 가지의 수를 많게 배당하도록 함을 특징으로 하는 히든 마크오프 모델(HMM)을 이용한 음성인식 방법.
KR1019960055629A 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법 KR100289315B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Publications (2)

Publication Number Publication Date
KR19980036956A KR19980036956A (ko) 1998-08-05
KR100289315B1 true KR100289315B1 (ko) 2001-05-02

Family

ID=37517665

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960055629A KR100289315B1 (ko) 1996-11-20 1996-11-20 히든 마크오프 모델을 이용한 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100289315B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082390A (ko) * 2001-04-12 2001-08-30 전화성 음성인식 속도향상을 위한 에이치엠엠모델의 대분류기법과이상적인 후보검출

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100775186B1 (ko) * 2001-06-14 2007-11-12 엘지전자 주식회사 학습된 모델을 이용한 상태 클러스터링 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082390A (ko) * 2001-04-12 2001-08-30 전화성 음성인식 속도향상을 위한 에이치엠엠모델의 대분류기법과이상적인 후보검출

Also Published As

Publication number Publication date
KR19980036956A (ko) 1998-08-05

Similar Documents

Publication Publication Date Title
EP0238692B1 (en) Speech recognition method and system with efficient storage and rapid assembly of phonological graphs
US4748670A (en) Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4759068A (en) Constructing Markov models of words from multiple utterances
Glass et al. A probabilistic framework for feature-based speech recognition
EP0240679B1 (en) Improving the training of markov models used in a speech recognition system
US5787396A (en) Speech recognition method
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US6725196B2 (en) Pattern matching method and apparatus
EP1178466B1 (en) Recognition system using lexical trees
NZ302748A (en) Speech recognition using a priori weighting values
JPH05333898A (ja) 時系列信号処理装置
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
Singh et al. Automatic clustering and generation of contextual questions for tied states in hidden Markov models
JPH10153999A (ja) 音声認識装置
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
KR100289315B1 (ko) 히든 마크오프 모델을 이용한 음성인식 방법
Bacchiani et al. Design of a speech recognition system based on acoustically derived segmental units
JP3176210B2 (ja) 音声認識方法及び音声認識装置
Hazen et al. Using aggregation to improve the performance of mixture Gaussian acoustic models
Bacchiani et al. Using automatically-derived acoustic sub-word units in large vocabulary speech recognition.
JPH11143875A (ja) 単語自動分類装置及び単語自動分類方法
CN113963690A (zh) 一种低内存消耗的高效离线命令词识别系统和建模方法
EP0238697B1 (en) Method of constructing baseform models of words from multiple utterances for speech recognition
JPH10254496A (ja) 音声認識方式
CA1246229A (en) Apparatus and method for producing a list of likely candidate words corresponding to a spoken input

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee