KR19980013825A - 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법 - Google Patents

언어모델 적응기능을 가진 음성인식장치 및 그 제어방법 Download PDF

Info

Publication number
KR19980013825A
KR19980013825A KR1019960032468A KR19960032468A KR19980013825A KR 19980013825 A KR19980013825 A KR 19980013825A KR 1019960032468 A KR1019960032468 A KR 1019960032468A KR 19960032468 A KR19960032468 A KR 19960032468A KR 19980013825 A KR19980013825 A KR 19980013825A
Authority
KR
South Korea
Prior art keywords
sentence
data
speech recognition
occurrence
occurrence frequency
Prior art date
Application number
KR1019960032468A
Other languages
English (en)
Other versions
KR100404852B1 (ko
Inventor
이승배
Original Assignee
구자홍
Lg전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, Lg전자 주식회사 filed Critical 구자홍
Priority to KR1019960032468A priority Critical patent/KR100404852B1/ko
Publication of KR19980013825A publication Critical patent/KR19980013825A/ko
Application granted granted Critical
Publication of KR100404852B1 publication Critical patent/KR100404852B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic

Abstract

본 발명은 언어학적 모델의 수정을 가능하게 하여 음성인식률 및 응답특성을 향상시킬 수 있는 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법에 관한 것이다.
상기 음성인식장치 및 그 제어방법은 적응문장 처리기를 이용하여 사용자로부터의 문장 및 그 문장에서의 단어 시퀀스에 대한 비중값을 입력하고 비중값에 의해 발생빈도 데이타부상의 발생빈도 데이타 및 발생확률 데이타부상의 발생확률 데이타를 수정한다.

Description

언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
제1도는 종래의 음성인식장치의 블럭도.
제2도는 본 발명의 제1 실시예에 따른 언어모델 적응기능을 갖는 음성인식장치의 블럭도
제3도는 본 발명의 제2 실시예에 따른 언어모델 적응기능을 갖는 음성인식 장치의 블럭도
제4도는 제3도에 도시된 메모리의 메모리 맵을 도시하는 도면
제5도는 본 발명의 실시예에 따른 언어모델 적응기능을 갖는 음성인식방법을 도시하는 흐름도
* 도면의 주요부분에 대한 부호의 설명 *
10 : 학습용 발성 데이타부 12, 24 : 제1 및 제2 특징 추출부
14 : 음향학적 모델부 16 : 학습용 문장데이타부
18 : 발생빈도 데이타부 20 : 발생확률 데이타부
22 : 발음사전 26 : 음성인식부
28 : 적응문장 처리부 30 : 키보드
32 : CPU 34: 롬
36 : 램 38 : 마이크
40 : A/D 변환기 42 : 모니터
본 발명은 음성인식장치에 있어서, 고정된 언어 모델을 수정하여 음성인식확률 및 시간을 향상시킬 수 있는 언어모델 적응기능을 갖는 음성인식장치 및 그 제어방법에 관한 것이다.
일반적으로 음성인식장치는 음성인식을 하기 위해서 언어학적 모델(Language Model), 음향학적 모델 및 발음사전을 이용한다. 언어학적 모델은 학습용 문장 데이타베이스에 구축된 단어와 단어간의 발생빈도 데이타 및 그를 이용하여 연산된 바이그램(Bigram) 또는 트라이그램(Trigram)의 확률인 발생확률데이타로 이루어진다. 바이그램은 두개의 단어쌍으로 이루어지는 단어 시퀀스를 표현하고 트라이그램은 3개의 단어들로 이루어진 단어 시퀀스를 나타낸다. 즉, 바이그램의 확률은 하나의 이전 단어에 대한 현재 단어의 발생확률이고, 트라이그램의 확률은 두개의 이전 단어들에 대한 현재 단어의 발생확률로서 이들은 각각 다음의 식1 및 식2와 같이 된다.
Pb(w2 |w1) = C(w1,w2) / C(w1) …………………… (식1)
Pb(w3 |w2, w3) = C(w1,w2,w3) / C(w1,w2) ……… (식2)
식1 및 식2에 있어서, C(,)는 발생빈도 수 이다. 이와 같이, 종래의 음성인식장치는 학습용 문장 데이타베이스에 구축된 문장상의 단어들에 대한 발생빈도 데이타 및 발생확률 데이타 만을 구비한다. 이로 인하여, 종래의 음성인식장치는 학습용 문장 데이타베이스에 구축된 문장들에 포함된 단어들에 대해서만 음성을 인식할 뿐 그 이외의 단어들에 대해서는 인식할 수 없었다. 이는 정보량의 비대화로 인하여 발생 가능한 모든 경우의 문장 패턴(Pattern)이 포함되도록 학습용 문장 데이타베이스를 구축할 수 없는 것에 기인한다. 이러한 문제점을 해결하기 위한 방안으로, 스므싱(Smoothing)기법을 사용한 음성인식장치가 제안되었다. 스므싱 기법은 학습용 텍스트 데이타베이스에 등록되지 않는 단어 시퀀스에 대한 확률값을 추정하고 추정하여 그 추정된 발생확률값에 의해 음성인식장치로 하여금 음성인식을 수행하도록 한다. 이 스므싱 기법의 일례를 들면, IEEE 1987년 3월호 번호3 볼륨 35의 Acoustics, Speech and Signal Processing 편의 페이지 400 및 401에 개시된 S.M.Katz의 논문 Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer을 들 수 있다. S.M.Katz의 논문은 현재의 단어 및 이전의 n개의 단어가 학습용 텍스트 데이타베이스에 등록되어 있을 경우에 식3에 의해 산출된 발생확률 데이타가 음성인식에 사용되도록 한다.
Ps(wn| w1 n-1) = P'(wn| w1 n-1) = dc·c(w1n) / c( w1 n-1) --- (식3)
이와는 달리, 학습용 텍스트 데이타베이스에 등록되지 않은 현재 단어 및 이전의 n개의 단어가 발생한 경우에 S.M.Katz의 논문은 다음의 식4에 의해 추정된 발생확률 데이타가 음성인식에 사용되도록 한다.
Ps(wn| w1 n-1) = αP(wn| w2 n-1)---------------------------(식4)
그러나, 스므싱 기법을 이용한 음성인식 장치는 단어 시퀀스에 대한 발생확률값을 연산하는 과정을 필요로 하여 음성인식의 응답특성을 저하시킴과 아울러 인식 불가능한 음성을 인식하여 엉뚱한 문장 출력을 발생한다. 이로 인하여, 스므싱 기법을 이용한 음성인식 장치는 음성인식률을 현저하게 저하시킴은 물론 음성인식 장치의 신뢰성을 떨어뜨리는 문제점을 안고 있었다. 참고로, 스므싱기법을 이용한 음성인식 장치의 문제점을 첨부한 제1도를 참조하여 상세히 살펴보기로 한다.
제1도를 참조하면, 학습용 발성데이타부(10)에 직렬 접속된 제1 특징추출부(12) 및 음향학적 모델부(14)와, 학습용 문장 데이타부(16)에 직렬 접속된 데이타부(18) 및 발생확률 데이타부(20)를 구비한 종래의 음성인식 장치가 도시되어 있다. 학습용 발성 데이타부(10)는 사용자가 미리 지정된 문장들을 발성한 음성 데이타들에 의해 구축된다. 제1특징추출부(12)은 학습용 발성 데이타부(10)으로부터의 음성 데이타들로부터 사용자가 갖는 특징 파라메이터들을 추출한다. 음향학적 모델부(14)는 제1 특징추출부(12)로부터으 특징 파라메터들을 이용하여 음소를 나타내는 HMM(Hidden Markov Models)와 같은 음향 모델들을 형성한다. 이들 음향 모델등은 음성의 인식과정에서 기준 모델로서 이용된다.
한편, 학습용 문장 데이타부(16)는 음성인식에 사용될 가능성이 있는 문장들에 의하여 구축된다. 학습용 문장 데이타부(16)에 구축된 학습용 문장들은 제작자에 의해 사용될 가능성 있다고 판단된 것들로서 그 양이 한정된다. 그리고 발생빈도 데이타부(18)는 연산과정에 의해 학습용 문장 데이타부(16)상의 문장들에서의 단어 시퀀스들에 대한 발생빈도 데이타를 보유한다. 발생확률 데이타부(20)는 발생빈도 데이타부(18)에 저장된 발생빈도 데이타를 이용하여 연산되어진 단어 시퀀스들(예를 들면, 바이그램 및 트라이그램)의 발생확율을 구비한다. 발생확률 데이타부(20)에 저장된 발생확률 데이타들은 상기 식3에 의해 연산된다.
그리고 종래의 음성인식장치는 사용자가 발성한 인식대상용 음성 데이타를 입력하는 제2 특징 추출부(24)와, 이 제2 특징 추출부(24)와 접속된 음성인식부(26)를 추가로 구비한다. 제2 특징 추출부(24)는 시료 음성데이타로부터 특징 파라메터들을 추출하고 추출된 특징 파라메터들을 음성인식부(26)에 공급한다. 음성인식부(26)은 제2 특징 추출부(24)로부터의 특징 파라메터들을 음향학적 모델부(14)에 구축된 음향학적 모델들과 음향적으로 대비하고 그 결과를 이용하여 단어의 시퀀스를 탐색한다. 단어 시퀀스의 탐색을 위하여, 음성인식부(26)는 발생빈도 데이타 및 발생확률 데이타를 참조하여 발음사전(22)에 수록된 단어들을 조합하여 문장을 구성한다. 이 때, 음향학적 대비 결과에 따른 발생빈도 데이타 및 발생확률 데이타가 존재하지 않으면 (즉, 학습용 문장 데이타부에 구축되지 않은 문장들에 대한 시료 음성이 입력되었을 경우), 음성인식부(26)는 상기 식4를 이용하여 음향학적 대비 결과에 따른 단어 시퀀스의 발생확률 데이타를 연산하고, 그 연산된 결과에 근거하여 발음사전(22)상의 단어들을 조합하여 문장을 구성한다. 그리고 음성인식부(26)는 구성된 문장을 음성인식의 결과로써 출력한다.
이와 같이 구성된 종래의 음성인식장치는 스므싱 기법을 이용하여 학습용 문장 데이타부에 구축되지 않은 문장들에 관한 단어 시퀀스의 발생확률 데이타를 연산하여 시료 음성 데이타를 인식할 수 있으나, 발생확률 데이타의 연산으로 인하여 음성입력으로부터 인식된 문장이 출력될 때까지의 응답속도를 현저하게 저하시키는 단점을 안고 있다. 그리고 종래의 음성인식장치는 시료 음성 데이타와는 전혀 다른 단어 시퀀스의 발생확률을 생성하여 발음사전상에 등록되지 않은 단어들을 포함하는 문장에 관한 시료 음성데이타를 인식함으로써 오류의 인식문장을 출력한다. 이로 인하여, 종래의 음성인식장치는 음성인식률을 저하시키는 것은 물론이며 나아가 그 신뢰성을 현저하게 떨어뜨리는 문제점을 야기시킨다.
따라서, 본 발명의 목적은 언어학적 모델의 수정을 가능하게 하여 음성인식률 및 응답특성을 향상시킬 수 있는 언어모델 적응기능을 가진 음성인식장치 및 그 방법을 제공함에 있다.
상기 목적을 달성하기 위하여, 본 발명에 따른 음성인식장치는 학습용 발성 데이타에 대한 음향학적 모델이 구축된 음향학적 모델링 수단과, 발음될 단어들이 수록된 발음사전과, 학습용 문장들에 의해 구축된 학습용 문장 데이타부와, 학습용 문장 데이타부에 수록된 문장들의 단어 시퀀스에 대한 발생빈도 데이타가 수록된 발생빈도 데이타부와, 발생빈도 데이타부에 수록된 발생빈도 데이타를 이용하여 산출된 단어 시퀀스들에 대한 발생확률 데이타를 갖는 발생확률 데이타부와, 음향학적 모델, 발생확률 데이타 및 발생빈도 데이타를 이용하여 입력 음성에 대한 인식과정을 수행하여 발음사전상의 단어들을 조합함으로써 인식된 문장을 발생하는 인식처리수단과, 사용자로부터의 문장 및 그 문장에서의 단어 시퀀스에 대한 비중값을 입력하고 비중값에 의해 발생빈도 데이타부상의 발생빈도 데이타 및 발생확률 데이타부상의 발생확률 데이타를 수정하는 적응문장 처리수단을 구비한다.
상기 목적을 달성하기 위하여, 본 발명에 따른 음성인식방법은 사용자가 음성인식에 적용하고자 하는 문장을 입력하는 과정과, 입력된 문장에 대한 단어 시퀀스에 대한 비중값을 입력하는 과정과, 비중값에 의해 언어학적 모델을 구성하는 단어 시퀀스의 발생빈도값 및 발생확률값을 수정하는 과정을 포함한다.
상기 목적외에 본 발명의 다른 목적 및 잇점들은 첨부 도면을 참조한 본 발명의 실시예들에 대한 상세한 설명을 통하여 명백하게 드러나게 될 것이다.
이하, 본 발명의 실시예들을 첨부한 제2도 내지 제5도를 참조하여 상세히 설명하기로 한다.
제2도에는 본 발명의 제1 실시예에 따른 언어모델 적응기능을 가진 음성인식이 도시되어 있다. 제2도에 있어서, 음성인식장치는 학습용 발성 데이타부(10)에 직렬 접속된 제1 특징추출부(12) 및 음향학적 모델부(14)와, 학습용 문장 데이타부(16)에 직렬 접속된 발생빈도 데이타부(18) 및 발생확률 데이타부(20)를 구비한 종래의 음성인식장치가 도시되어 있다. 학습용 발성 데이타부(10)는 사용자가 미리 지정된 문장들을 발성한 음성 데이타들에 의해 구축된다. 제1 특징추출부(12)은 학습용 발성 데이타부(10)으로부터의 음성 데이타들로부터 사용자가 갖는 특징 파라메터들을 추출한다. 음향학적 모델부(14)는 제1특징추출부(12)로부터의 특징 파라메터들을 이용하여 음소를 나타내는 HMM(Hidden Markov Models)와 같은 음향 모델들을 형성한다. 이들 음향모델등은 음성의 인식과정에서 기준 모델로서 이용된다.
한편, 학습용 문장 데이타부(16)는 음성인식에 사용될 가능성이 있는 문장들에 의하여 구축된다. 학습용 문장 데이타부(16)에 구축된 학습용 문장들은 제작자에 의해 사용될 가능성 있다고 판단된 것들로서 그 양이 한정된다. 그리고 발생빈도 데이타부(18)는 연산과정에 의해 학습용 문장 데이타부(16)상의 문장들에서의 단어 시퀀스들에 대한 발생빈도 데이타를 보유한다. 발생확률 데이타부(20)는 발생빈도 데이타부(18)에 저장된 발생빈도 데이타를 이용하여 연산되어진 단어 시퀀스들(예를 들면, 바이그램 및 트라이그램)의 발생확률을 구비한다. 발생확률 데이타부(20)에 저장된 발생확률 데이타들은 상기 식3에 의해 연산된 값들을 갖는다.
그리고 언어모델 적응기능을 가진 음성인식장치는 사용자가 발성한 인식 대상용 음성 데이타를 입력하는 제2 특징추출부(24)와, 이 제2 특징 추출부(24)와 접속된 음성인식부(26)를 추가로 구비한다. 제2 특징 추출부(24)는 시료 음성데이타로부터 특징 파라메터들을 추출하고 추출된 특징 파라메터들을 음성인식부(26)에 공급한다. 음성인식부(26)은 제2 특징 추출부(24)로부터의 특징 파라메터들을 음향학적 모델부(14)에 구축된 음향학적 모델들과 음향적으로 대비하고 그 결과를 이용하여 단어의 시퀀스를 탐색한다. 단어 시퀀스의 탐색을 위하여, 음성인식부(26)는 발생빈도 데이타 및 발생확률 데이타를 참조하여 발음사전(22)에 수록된 단어들을 조합하여 문장을 구성한다. 그리고 음성인식부(26)는 구성된 문장을 음성인식의 결과로써 출력한다.
또한, 상기 언어모델 적응기능을 가진 음성인식장치는 상기 발생빈도 데이타부(18), 발생확률 데이타부(20) 및 발음사전(22)에 접속된 적응문장 처리부(28)를 추가로 구비한다. 적응문장 처리부(28)는 사용자가 음성인식에 추가로 적용하기를 원하는 문장(이하적응문장이라 함)들을 입력하고 이 적응문장에 발음사전 (22)에 등록되지 않은 단어들이 포함되어 있는가 검사하여 등록되지 않은 단어를 발음사전(22)에 등록시킨다. 그리고 적응문장 처리부(28)는 입력된 적응문장이 인식 가능한 문장인가를 판단하여 그 결과를 사용자에게 통보한다.
또한, 적응문장 처리부(28)는 적응문장들에 해난 비중값들을 입력하여 발생빈도 데이타(18)상의 발생빈도 데이타 및 발생확률 데이타부(20)상의 발생확률 데이타를 수정함으로서 학습용 문장 데이타부(16)에 구축되지 않고 사용자가 희망하는 특정 문장이 인식될 수 있도록 한다. 제2도에 도시된 제1 및 제2 특징추출부(12,24), 음성인식부(26) 및 적응문장 처리부(28)는 연산기능을 가진 프로세서(예를 들면, CPU(Centural Process Unit))와 그에 의해 구동되는 음성 인식 프로그램 및 언어모델 적응 프로그램에 의해 구현될 수 있다. 그리고 음향학적 모델부(14), 발생빈도 데이타(18), 발생확률 데이타(20) 및 발음사전(22)은 메모리에 의해 구현될 수 있다.
제3도는 본 발명의 제2 실시예에 따른 음성인식장치의 블럭구성을 도시한다. 제3도에 있어서, 키보드(30)는 음성인식을 위한 각종 기능명령 및 적응문장과 같은 데이타를 발생하여 CPU(32)에 공급한다. 롬(ROM, 34)는 음성인식을 위한 음성인식 프로그램 및 본 발명의 따른 언어모델 적응 프로그램을 저장하고 있다. 램(RAM, 36)은 제4도에 도시된 바와 같이 단어들로 구성된 발음사전(22), 학습용 문장들을 포함하는 학습용 문장 데이타(16), 단어 시퀀스들에 대한 발생빈도값으로 구성된 발생빈도 데이타(18) 및 단어 시퀀스들의 발생확률값들을 포함하는 발생확률 데이타(20)을 저장한다. 그리고 램(36)은 사용자의 음성데이타로부터 추출된 특징 파라메터들을 포함하는 음향학적 모델(14)을 저장하고 마직막으로 CPU(32)의 연산과정에서 발생되는 작업용 데이타에 의해 발생된 연산 데이타들을 일시적으로 보관한다. 마이크(38)는 인식할 음성신호를 전기적신호로 변환한다. A/D변환기(40)는 전기적신호 변환된 음성신호를 디지탈 신호로 변환하여 CPU(32)로 인가한다. 모니터(42)는 CPU(32)의 제어에 의해 각종 데이타를 디스플레이한다.
CPU(32)는 A/D 변환기(40)로부터의 음성데이타로부터 특징 파라메터들을 추출하고 추출된 특징 파라메터들을 램(36)상의 언어학적 모델(14)들과 음향적으로 대비하고 그 결과를 이용하여 단어의 시퀀스를 탐색한다. 단어 시퀀스의 탐색을 위하여, CPU(32)는 램(36)상의 발생빈도 데이타(18)및 발생확률 데이타(20)를 참조하여 발음사전(22)에 수록된 단어들을 조합하여 문장을 구성한다. 그리고 CPU(32) 구성된 문장을 모니터(42)상에 음성인식의 결과로써 디스플레이 한다.
그리고 CPU(32)는 키보도(30)으로부터 사용자가 음성인식에 추가로 적용하기를 원하는 적응문장 입력하고 이 적응문장에 램(36)상의 발음사전(22)에 등록되지 않은 단어들이 포함되어 있는가 검사하여 등록되지 않은 단어를 발음사전(22)에 등록시킨다. CPU(32)는 적응문장이 인식 가능한 문장인가를 판단하여 그 결과를 모니터(42)상에 표시한다.
또한, CPU(32)는 적응문장들에 대한 비중값들을 입력하여 램(36)상의 발생빈도 데이타(18)및 발생확률 데이타(20)를 수정함으로서 학습용 문장 데이타(16)에 존재하지 않은 특정 문장들이 인식될 수 있도록 함과 아울러 수정된 언어학적 모델(즉, 발생빈도 데이타 및 발생확률 데이타)에 의해 연산과정 없이 음성인식을 수행함으로 음성입력 대한 응답특성을 향상시킬 수 있고, 더 나아가 음성인식의 정확도가 향상될 수 있도록 한다.
제5도는 본 발명의 실시예에 적용되는 언어학적 모델의 처리수순을 도시하는 흐름도이다. 제5도의 흐름도는 제3도에 도시된 CPU(32)에 의해 수행되며, 이를 상세히 기술하도록 한다.
CPU(32)는 키보드(30)로부터 사용자가 입력한 문장 데이타를 입력하고(제44 단계), 입력된 문장 데이타에 포함된 단어들과 램(36)의 발음사전(22)에 등록된 단어들과 비교하여 발음사전(22)에 등록되지 않은 단어가 있는가 검색한다 (제46 단계). 제46 단계에서 등록되지 않은 단어가 입력 문장 데이타에 포함되어 있을 경우, CPU(32)는 등록되지 않은 단어들을 램(36)상의 발음사정(22)에 등록한다.(제48 단계)
제48 단계의 수행 후나 또는 발음사전(22)에 등록되지 않은 단어가 입력된 문장 데이타에 존재하지 않을 경우에 CPU(32)는 입력된 문장 데이타의 단어 시퀀스에 대한 램(36)상의 발생빈도 데이타(18) 및 발생빈도 데이타(20)를 검색하여 음성인식 가능한 문장인가 판단한다 (제50 단계). 제50 단계에서 입력된 문장 데이타가 인식 불가능한 문장으로 판명된 경우, CPU(32)는 입력된 문장 데이타가 음성인식 불가능한 문장임을 모니터(42)에 표시하여 사용자가 인지할 수 있도록 한다 (제52 단계)
제50 단계에서 입력된 문장 데이타가 음성인식 가능한 문장으로 판명되었거나 또는 제52 단계의 수행 후, CPU(32)는 키보드(30)을 스캔하여 입력된 문장 데이타를 음성인식에 적용하라는 사용자의 적응명령이 입력되는가 검색한다(제54 단계). 제54 단계에서 사용자의 적응명령이 입력된 경우, CPU(32)는 키보드(30)로부터 사용자가 입력한 1 미만의 비중값을 입력한다(제56 단계). 그리고 CPU(32)는 입력된 비중값에 의해 입력된 문장 데이타의 단어 시퀀스들(바이그램 및 트라이그램)에 대한 램(36)상의 발생빈도 데이타(18) 및 발생확률 데이타(20)를 수정한다(제58 단계).
상술한 바와 같이, 본 발명에 따른 언어모델 적응기능을 음성인식 장치 및 그 제어방법은 사용자가 입력하는 문장에 따라 언어학적 모델을 수정하여 사용자가 음성인식에 적용하고자 하는 문장을 등록할 수 있다. 그리고 본 발명에 따른 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법은 수정된 언어학적 모델(즉, 발생빈도 및 발생확률 데이타)를 이용하여 별도의 연산과정없이 음성인식을 수행함으로써 음성입력에 대한 응답속도를 향상시킬 수 있고 음성인식의 정확도 및 신뢰성을 향상시킬 수 있다.

Claims (7)

  1. 학습용 발성 데이타에 대한 음향학적 모델이 구축된 음향학적 모델링 수단과,
    발음될 단어들이 수록된 발음사전과,
    학습용 문장들에 의해 구축된 학습용 문장 데이타부와,
    상기 학습용 문장 데이타부에 수록된 문장들의 단어 시퀀스에 대한 발생빈도 데이타가 수록된 발생빈도 데이타부와,
    상기 발생빈도 데이타부에 수록된 발생빈도 데이타를 이용하여 산출된 단어 시퀀스들에 대한 발생확률 데이타를 갖는 발생확률 데이타부와,
    상기 음향학적 모델, 발생확률 데이타 및 발생빈도 데이타를 이용하여 입력 음성에 대한 인식과정을 수행하여 상기 발음사전상의 단어들을 조합함으로써 인식된 문자을 발생하는 인식처리수단과,
    사용자로부터의 문장 및 그 문장에서의 단어 시퀀스에 대한 비중값을 입력하고, 비중값에 의해 상기 발생빈도 데이타부상의 발생빈도 데이타 및 상기 발생확률 데이타부상의 발생확률 데이타를 수정하는 적응문장 처리수단을 구비한 것을 특징으로 하는 언어모델 적응기능을 가진 음성인식장치.
  2. 제1항에 있어서,
    상기 적응문장 처리수단은, 상기 발음사전에 등록되지 않은 상기 입력 문장상의 단어를 상기 발음사전에 등록하도록 된 것을 특징으로 하는 언어 모델 적응기능을 가진 음성인식장치.
  3. 제1항 또는 제2항에 있어서,
    상기 적응문장 처리수단은, 상기 입력 문장의 음성인식 가능성을 검사하여 그 결과를 사용자에 통지하도록 된 것을 특징으로 하는 언어 모델 적응기능을 가진 음성인식장치.
  4. 음향학적 모델, 언어학적 모델 및 발음사전을 이용하여 입력음성을 인식하는 음성인식방법에 있어서,
    사용자가 음성인식에 적용하고자 하는 문장을 입력하는 과정과,
    상기 입력된 문장에 대한 단어 시퀀스에 대한 비중값을 입력하는 과정과,
    상기 비중값에 의해 상기 언어학적 모델을 구성하는 단어 시퀀스의 발생빈도값 및 발생확률값을 수정하는 과정을 포함하는 것을 특징으로 하는 언어모델 적응기능을 가진 음성인식 제어방법.
  5. 제4항에 있어서,
    기 입력문장에 상기 발음사전에 등록되지 않은 단어가 존재하는가 검사하는 과정과,
    상기 발음사전에 등록되지 않은 상기 입력문장상의 단어를 상기 발음사전에 등록하는 과정을 추가로 포함하는 것을 특징으로 하는 언어 모델 적응기능을 가진 음성인식 제어방법.
  6. 제4항 또는 5항에 있어서,
    상기 입력 문장의 단어 시퀀스들에 대한 발생빈도 및 발생확률값들이 상기 언어모델에 설정되어 있는가를 검사하여 음성인식 가능성을 판단하는 과정과,
    상기 입력문장의 음성인식 불가능한 문장임을 사용자에게 통지하는 과정을 추가로 포함하는 것을 특징으로 하는 언어 모델 적응기능을 가진 음성인식 제어방법.
  7. 사용자의 음성을 입력하기 위한 수단과,
    단어들로 구성된 발음사전, 학습용 문장들에 대한 단어 시퀀스들에 대한 발생빈도값들, 단어 시퀀스들의 발샐확률값들 및 음성을 모델링한 음향학적 모델이 저정된 메모리와,
    사용자로부터의 음성을 입력하는 음성입력수단과,
    사용자가 지정하는 문장, 명령 및 비중값을 입력하는 키보드와,
    음성입력수단으로부터의 음성을 상기 메모리에 저장된 음향학적 모델, 발생빈도 및 발생확률값들과 발음사전을 이용하여 음성인식을 수행하고, 키보드로부터 사용자가 음성인식에 추가로 적용하기를 원하는 문장 및 그 문장의 단어 시퀀스에 대한 비중값을 입력하여 상기 비중값에 의해 메모리상의 발생빈도 및 발생확률값들을 수정하는 제어수단을 구비한 것을 특징으로 하는 언어 모델 적응기능을 가진 음성인식장치.
KR1019960032468A 1996-08-03 1996-08-03 언어모델적응기능을가진음성인식장치및그제어방법 KR100404852B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960032468A KR100404852B1 (ko) 1996-08-03 1996-08-03 언어모델적응기능을가진음성인식장치및그제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960032468A KR100404852B1 (ko) 1996-08-03 1996-08-03 언어모델적응기능을가진음성인식장치및그제어방법

Publications (2)

Publication Number Publication Date
KR19980013825A true KR19980013825A (ko) 1998-05-15
KR100404852B1 KR100404852B1 (ko) 2004-02-25

Family

ID=37422618

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960032468A KR100404852B1 (ko) 1996-08-03 1996-08-03 언어모델적응기능을가진음성인식장치및그제어방법

Country Status (1)

Country Link
KR (1) KR100404852B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100352748B1 (ko) * 2001-01-05 2002-09-16 (주) 코아보이스 온라인 학습형 음성합성 장치 및 그 방법
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03274598A (ja) * 1990-03-26 1991-12-05 Ricoh Co Ltd 音声認識装置
JP3091648B2 (ja) * 1994-09-26 2000-09-25 沖電気工業株式会社 隠れマルコフモデルの学習方法
KR100355394B1 (ko) * 1995-06-29 2003-02-11 삼성전자 주식회사 가변정보율모델을이용한음성인식방법및정보율학습방법
JPH09258786A (ja) * 1996-03-21 1997-10-03 Fuji Xerox Co Ltd 調整機能を有する音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100352748B1 (ko) * 2001-01-05 2002-09-16 (주) 코아보이스 온라인 학습형 음성합성 장치 및 그 방법
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법

Also Published As

Publication number Publication date
KR100404852B1 (ko) 2004-02-25

Similar Documents

Publication Publication Date Title
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US6317711B1 (en) Speech segment detection and word recognition
KR100679044B1 (ko) 사용자 적응형 음성 인식 방법 및 장치
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6553342B1 (en) Tone based speech recognition
US7634401B2 (en) Speech recognition method for determining missing speech
CN111862954B (zh) 一种语音识别模型的获取方法及装置
US20110196678A1 (en) Speech recognition apparatus and speech recognition method
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
JPH0422276B2 (ko)
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US20070038453A1 (en) Speech recognition system
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2955297B2 (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Mŭller et al. Design of speech recognition engine
JP2745562B2 (ja) ノイズ適応形音声認識装置
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP3378547B2 (ja) 音声認識方法及び装置
JPH09114482A (ja) 音声認識のための話者適応化方法
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
Müller et al. Rejection and key-phrase spottin techniques using a mumble model in a czech telephone dialog system.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070918

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee