KR960030078A - Speech Recognition in Hidden Markov Modeling (HMM) Speech Recognition System - Google Patents

Speech Recognition in Hidden Markov Modeling (HMM) Speech Recognition System Download PDF

Info

Publication number
KR960030078A
KR960030078A KR1019950001401A KR19950001401A KR960030078A KR 960030078 A KR960030078 A KR 960030078A KR 1019950001401 A KR1019950001401 A KR 1019950001401A KR 19950001401 A KR19950001401 A KR 19950001401A KR 960030078 A KR960030078 A KR 960030078A
Authority
KR
South Korea
Prior art keywords
viterbi
speech recognition
calculation
word
subword
Prior art date
Application number
KR1019950001401A
Other languages
Korean (ko)
Other versions
KR0136426B1 (en
Inventor
구명완
Original Assignee
조백제
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조백제, 한국전기통신공사 filed Critical 조백제
Priority to KR1019950001401A priority Critical patent/KR0136426B1/en
Publication of KR960030078A publication Critical patent/KR960030078A/en
Application granted granted Critical
Publication of KR0136426B1 publication Critical patent/KR0136426B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식 과정에 필수적인 비터비(viterbi) 알고리즘을 구현할 때 반복 계산을 줄이는 히든 마르코프 모델링방식(HMM)의 음성인식 시스템에서의 음성 인식 방법에 관한 것으로, 서브워드 일차 계산 및 이차 계산을 나누어 수행함으로서 비터비(Viterbi) 계산량을 줄이는 음성 인식 방법을 제공하기 위하여, 초기화 후에 마지막 프레임인지를 판단하여마지막 프레임이면 인식 결과를 출력하고, 마지막 프레임이 아니면 서브워드 단위로 비터비(Viterbi) 일차 계산을 수행하는 제1단계(401 내지 404); 및 단어 단위로 비터비 이차 계산을 수행하여 비터비 값을 구한 후에 언어 처리 과정을 수행하고 상기 제1단계(401 내지 404)의 마지막 프레임 판단 과정을 반복 수행하는 제2단계(405,406)를 포함하여 비터비(Viterbi) 계산량을 획기적으로 줄일 수 있어 실시간으로 음성을 인식할 수 있는 효과가 있다.The present invention relates to a speech recognition method in a Hidden Markov Modeling (HMM) speech recognition system that reduces iterations when implementing the Viterbi algorithm, which is essential for speech recognition. In order to provide a speech recognition method which reduces the Viterbi calculation amount by performing, it is determined whether it is the last frame after initialization, and if the last frame is output, the recognition result is output, and if it is not the last frame, the Viterbi first calculation Performing a first step (401 to 404); And a second step (405, 406) of performing a linguistic processing after performing the Viterbi second calculation in word units, performing a language processing process, and repeating the last frame determination process of the first steps (401 to 404). Viterbi calculations can be significantly reduced, allowing voice recognition in real time.

Description

히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법Speech Recognition in Hidden Markov Modeling (HMM) Speech Recognition System

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음Since this is an open matter, no full text was included.

제3도는 본 발명이 적용되는 HMM 음성 인식 시스템의 구성도, 제4도는 본 발명에 따른 음성 인식 방법의 흐름도, 제5도는 본 발명에 따른 비터비(Viterbi) 일차 계산 방법의 상세 흐름도.3 is a configuration diagram of an HMM speech recognition system to which the present invention is applied, FIG. 4 is a flowchart of a speech recognition method according to the present invention, and FIG. 5 is a detailed flowchart of a Viterbi first calculation method according to the present invention.

Claims (7)

음성을 입력받아 특징을 추출하는 특정 추출 수단(301); 발음사전(305)의 정보에 따라서 서브워드 모델(304)을 이용하여 단어를 모델링하는 단어 모델링 수단(303); 상기 특징 추출 수단(301)의 음성 특징과 상기 단어 모델링수단(303)의 단어 모델 정보를 입력받아 비터비 계산을 수행하여 단어를 인식하는 단어 인식 수단(302); 상기 단어 인식수단(302)의 출력을 입력받아 언어 모델(309)의 정보에 따라서 문장을 인식하는 문장 인식 수단(306)을 구비하는 음성 인식 시스템에 적용되는 방법에 있어서, 초기화 후에 마지막 프레임인지를 판단하여 마지막 프레임이면 인식 결과를 출력하고, 마지막 프레임이 아니면 서브워드단위로 비터비(Viterbi) 일차 계산을 수행하는 제1단계(401 내지 404); 및 상기 제1단계(401 내지 404) 수행 후, 단어 단위로 비터비 이차 계산을 수행하여 비터비 값을 구한 후에 언어 처리 과정을 수행하고 상기 제1단계(401 내지 404)의 마지막 프레임 판단 과정을 반복수행하는 제2단계(405,406)를 포함하는 것을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.Specific extraction means 301 for receiving a voice and extracting a feature; Word modeling means (303) for modeling words using the subword model (304) according to the information in the pronunciation dictionary (305); Word recognition means (302) for receiving a voice feature of the feature extraction means (301) and word model information of the word modeling means (303) to perform a Viterbi calculation to recognize a word; In the method applied to the speech recognition system having a sentence recognition means 306 for receiving the output of the word recognition means 302 to recognize a sentence according to the information of the language model 309, whether the last frame after initialization A first step (401 to 404) of determining and outputting a recognition result if the last frame, and performing the Viterbi first calculation in units of subwords if not the last frame; And after performing the first steps (401 to 404), perform a Viterbi secondary calculation on a word-by-word basis to obtain a Viterbi value, and then perform a language processing process and determine the last frame determination process of the first steps (401 to 404). And a second step (405, 406) of repeating the speech recognition method in the HMM speech recognition system. 제1항에 있어서, 상기 제1단계(401 내지 404)의 비터비 일차 계산은, 매 프레임 t의 음성특징 출력값(Ot)과 해당 서브워드(sub)에만 영향을 받도록 구성한 것임을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.The method of claim 1, wherein the Viterbi first order calculations of the first steps 401 to 404 are configured such that only the voice feature output value Ot of each frame t and the corresponding subword sub are affected. Speech recognition method in speech recognition system of modeling method (HMM). 제1항 또는 제2항에 있어서, 상기 제1단계(401 내지 404)의 비터비 일차 계산은,The Viterbi first order calculation of claim 1, wherein the first step (401 to 404) is performed. (서브워드 sub, 프레임 t, 상태변화 ji, 프레임 t에서의 음성특징 Ot가 상태 j에서 상태 i로 변경될 때 나올 수 있는 관찰 확율 :, 상태 j에서 상태 i로 이동될 천이 확율 :)인 것임을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.(Observation probability that can come out when subword sub, frame t, state change ji, voice feature O t in frame t changes from state j to state i: , Probability of a transition from state j to state i: Speech recognition method in a Hidden Markov Modeling (HMM) speech recognition system, characterized in that 제1항에 있어서, 상기 제2단계(405, 406)의 비터비 이차 계산은, 상기 비터비 일차 계산의 결과에 이전 단계의 비터비 값을 합하여 구하는 것임을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.2. The Hidden Markov Modeling Method (HMM) according to claim 1, wherein the Viterbi secondary calculation of the second steps 405 and 406 is obtained by adding the Viterbi first value to the result of the Viterbi first calculation. Speech Recognition Method in Speech Recognition System. 제1항 또는 제4항에 있어서, 상기 제2단계(405, 406)의 비터비 이차 계산은,5. The Viterbi secondary calculation of claim 1, wherein the second step 405, 406 is performed. (서브워드 sub, 프레임 t, 상태 i에서 비터비 값 :, 상태변화 ji, 비터비 일차 계산의 결과 : First_)인 것임을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.(Viterbi value in subword sub, frame t, state i: , State change ji, result of Viterbi first order calculation: First_ Speech recognition method in a Hidden Markov Modeling (HMM) speech recognition system, characterized in that 제1항에 있어서, 상기 제1단계(401 내지 404)의 비터비 일차 계산은, 현 프레임에 해당하는 후보 단어중 첫 후보 단어를 구하는 제3단계(501); 상기 제3단계(501) 수행 후, 현 후보 단어에서 가능한 모든 서브워드에 대하여 순차적으로 현 프레임의 출력값을 근거로 일차 계산을 수행하여 현 서브워드에 저장하고 비터비 일차 계산 완료 플래그를 세트하는 제4단계(502 내지 506);및 상기 제4단계(502 내지 506) 수행 후, 마지막 후보 단어까지 상기 제4단계(502 내지 506)를 반복 수행하는 제5단계(508,509)를 포함하는 것을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의 음성인식 시스템에서의 음성 인식 방법.The Viterbi first calculation of the first step (401 to 404) comprises: a third step (501) of obtaining a first candidate word among candidate words corresponding to the current frame; After performing the third step 501, the first calculation is performed on all possible subwords of the current candidate word based on the output value of the current frame, stored in the current subword, and the Viterbi first calculation completion flag is set. Fourth step (502 to 506); and after performing the fourth step (502 to 506), the fifth step (508, 509) to repeat the fourth step (502 to 506) to the last candidate word, characterized in that it comprises Speech Recognition in Hidden Markov Modeling (HMM) Speech Recognition System. 제6항에 있어서, 상기 제4단계(502 내지 506)는, 현 후보 단어로 부터 첫 서브워드를 구한 후에 서브워드의 비터비일차 계산 수행 플래그(flag)를 체크하는 제6단계(502,503); 상기 제6단계(502, 503) 수행 후, 일차 계산이 이루어지지 않았으면 현 서브워드에 대하여 비터비 일차 계산을 수행하여 현 서브워드에 저장한 후에 현 서브워드의 비터비 일차 계산 수행 완료 플래그를 세트한 다음에 마지막 서브워드인지를 판단하는 제8단계(505 내지 507); 및 상기 제8단계(505 내지 507) 수행 후, 마지막 서브워드가 아니면 다음 서브워드를 구한 후에 상기 제6단계(502, 503)의 플래그 체크 과정을 반복 수행하는 제9단계(504)를 포함하는 것을 특징으로 하는 히든 마르코프 모델링 방식(HMM)의음성인식 시스템에서의 음성인식 방법.7. The method of claim 6, wherein the fourth steps (502 to 506) include: a sixth step (502, 503) of checking a subword Viterbi first calculation performing flag after obtaining the first subword from the current candidate word; After performing the sixth step (502, 503), if the first calculation has not been performed, the Viterbi first calculation is performed on the current subword and stored in the current subword, and then the Viterbi first calculation completion flag of the current subword is stored. An eighth step (505 to 507) of determining whether or not it is the last subword after setting; And a ninth step 504 of repeatedly performing the flag check process of the sixth steps 502 and 503 after obtaining the next sub word after performing the eighth step 505 to 507. A speech recognition method in a speech recognition system of the Hidden Markov Modeling Method (HMM). ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.※ Note: The disclosure is based on the initial application.
KR1019950001401A 1995-01-26 1995-01-26 Voice recognition method for hidden markov modeling method system KR0136426B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950001401A KR0136426B1 (en) 1995-01-26 1995-01-26 Voice recognition method for hidden markov modeling method system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950001401A KR0136426B1 (en) 1995-01-26 1995-01-26 Voice recognition method for hidden markov modeling method system

Publications (2)

Publication Number Publication Date
KR960030078A true KR960030078A (en) 1996-08-17
KR0136426B1 KR0136426B1 (en) 1998-05-15

Family

ID=19407293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950001401A KR0136426B1 (en) 1995-01-26 1995-01-26 Voice recognition method for hidden markov modeling method system

Country Status (1)

Country Link
KR (1) KR0136426B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100931786B1 (en) * 2002-06-20 2009-12-14 주식회사 케이티 Speech recognition method according to Korean spelling

Also Published As

Publication number Publication date
KR0136426B1 (en) 1998-05-15

Similar Documents

Publication Publication Date Title
CN110364171B (en) Voice recognition method, voice recognition system and storage medium
JP5968774B2 (en) Word identification method, word identification device, and computer-readable code
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
EP2405423B1 (en) Voice recognition device
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
US20040039570A1 (en) Method and system for multilingual voice recognition
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
WO2007097176A1 (en) Speech recognition dictionary making supporting system, speech recognition dictionary making supporting method, and speech recognition dictionary making supporting program
JP2000075895A (en) N best retrieval method for continuous speech recognition
Serrino et al. Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition.
KR20160098910A (en) Expansion method of speech recognition database and apparatus thereof
JP4595415B2 (en) Voice search system, method and program
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
KR960030078A (en) Speech Recognition in Hidden Markov Modeling (HMM) Speech Recognition System
JP2965529B2 (en) Voice recognition device
JP2938865B1 (en) Voice recognition device
Ju et al. Recognition of the continuous-speech russian phrases using their voiceless fragments
KR100511247B1 (en) Language Modeling Method of Speech Recognition System
Downey et al. A decision tree approach to task-independent speech recognition
JPH08314490A (en) Word spotting type method and device for recognizing voice
Masmoudi et al. Conditional Random Fields for the Tunisian Dialect Grapheme-to-Phoneme Conversion.
CN112997247A (en) Method for generating optimal language model using big data and apparatus therefor
KR20140051519A (en) Method for continuous speech recognition and apparatus thereof
Zgank Cross-lingual speech recognition between languages from the same language family
JP2001188556A (en) Method and device for voice recognition

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120106

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20130107

Year of fee payment: 16

LAPS Lapse due to unpaid annual fee