KR100298118B1

KR100298118B1 - Hmm모델의유사성을이용한음성인식장치및방법

Info

Publication number: KR100298118B1
Application number: KR1019980056231A
Authority: KR
Inventors: 봉 우 이; 오 일 권; 남 호 정
Original assignee: 윤장진; 주식회사 현대오토넷
Priority date: 1998-12-18
Filing date: 1998-12-18
Publication date: 2001-10-26
Also published as: KR20000040569A

Abstract

본 발명은 기존에 사용하던 백트렉킹(backtracking)의 방법을 사용하지 않고 입력 음성만의 단어 모델(model)을 구하여 기존 단어 모델과의 유클리디언(euclidean) 거리를 구함으로써 음성 신호를 인식하는 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법에 관한 것으로서, 마이크로폰(11)에서 출력되는 신호를 입력받아 저주파 신호의 성분만을 통과시키는 로우 패스 필터(13)와, 상기 로우 패스 필터(13)에서 출력된 신호를 디지탈 신호로 변환하는 아날로그 디지탈 변환부(15)와, 상기 아날로그 디지탈 변환부(15)에서 출력되는 디지탈 신호를 입력받아 구동부(21)를 제어하는 마이컴(17)과, 상기 마이컴(17)에서 출력되는 제어신호를 입력받아 사용자가 발음한 음성을 단어 모델끼리 비교함으로써 음성을 인식하는 음성 인식기(19)와, 상기 음성 인식기(19)에서 사용자가 발음한 음성을 인식한 후 다시 마이컴(17)에 제어신호를 출력함으로써 사용자의 발음에 따라 동작하는 구동부(21)로 구성되어 있어서, 종래의 데이터 계산량 보다 월등히 데이터 처리량을 감소시킬 수 있으며, 음성 인식에 있어서 정확도를 유지할 수 있는 발명이다.

Description

ＨＭＭ 모델의 유사성을 이용한 음성 인식 장치 및 방법

본 발명은 음성 인식방법에 관한 것으로, 특히 기존에 사용하던 백트렉킹(backtracking)의 방법을 사용하지 않고 입력 음성만의 단어 모델(model)을 구하여 기존 단어 모델과의 유클리디언(euclidean) 거리를 구함으로써 음성 신호를 인식하는 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법에 관한 것이다.

종래의 HMM(hidden markov model) 방법으로 음성인식을 하는 경우, Baum-Welch 재추정 알고리즘으로 각각의 단어 마다 모델을 구축한 후 입력음성이 들려오면 입력 음성 관찰열이 단어 모델과 비교하여 일어날 수 있는 확률이 가장 높은 값을 가지는 단어로 인식을 하였다.

그러나 이와 같은 단어 모델 구축시 N개의 스테이트(state)를 사용하였고, 입력 음성의 프레임 수가 T일 때에, 비터비(Viterbi) 알고리즘에서 한 모델과의 유사도 확률을 백트렉킹(backtracking)방법으로 계산한다면, 그 계산량은

2×N×T×N×T×T

가 되며, 여기서, 만약 모델의 종류가 W라면 전체 계산량은

2×N²×T³×W

이 되어 계산량이 지나치게 증가하게 되는 문제점이 있었다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 입력되는 음성 데이터에 대해서 종래의 비터비 알고리즘을 사용하지 않고 단어 모델끼리의 비교를 통해서 유사도를 구함으로써 처리 속도를 향상시킬 수 있는 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 HMM 모델의 유사성을 이용한 음성 인식 장치는, 음성 신호를 전기신호로 변환하는 마이크로폰과, 상기 마이크로폰에서 출력되는 신호를 입력받아 고주파 성분의 신호를 제거하고 저주파 신호의 성분만을 통과시키는 로우 패스 필터와, 상기 로우 패스 필터에서 출력된 저주파수 성분의 신호인 아날로그 신호를 디지탈 신호로 변환하여 마이컴에 입력되도록 변환하는 아날로그 디지탈 변환부와, 상기 아날로그 디지탈 변환부에서 출력되는 디지탈 신호를 입력받아 구동부를 제어하도록 제어신호를 출력하고 음성 인식기에 제어신호를 인가하여 시스템을 제어하는 마이컴과, 상기 마이컴에서 출력되는 제어신호를 입력받아 사용자가 발음한 음성을 단어 모델끼리 비교함으로써 음성을 인식하는 음성 인식기와, 상기 음성 인식기에서 사용자가 발음한 음성을 인식한 후 다시 마이컴에 제어신호를 출력함으로써 사용자가 최종적으로 구동하고자 하는 구동부로 구성되어 있는 것을 특징으로 한다.

상기와 같은 문제점을 해결하기 위한 본 발명의 HMM 모델의 유사성을 이용한 음성 인식 방법은, 외부로부터 일정한 음성데이터가 상기 마이크로폰에 입력되는 단계(S10)와, 음성신호가 디지탈 신호로 변환되고, 상기 디지탈 음성 신호에 포함되어 있는 파라미터 성분중에서 특징 파라미터를 추출하는 단계(S20)와, 테스트 모델 즉,

λ_t=(A_t,B_t,π_t)

을 구축하는 단계(S30)와, 상기 단계(S30)에서 테스트 모델을 구축한 후 테스트 모델의 첫번째의 모델을 최소라고 가정하는 단계(S40)와, 상기 단계(S40)를 수행한 후 두번째 모델과 상기 첫번째의 모델을 비교하여, 첫번째의 테스트 모델이 두번째 테스트 모델보다 큰가 작은가를 판단하는 단계(S50, S60)와, 상기 비교 판단 단계(S60)에서 첫번째 테스트 모델이 두번째 테스트 모델보다 작은 경우에는 첫번째 모델을 최소값으로 선정하고 다음 데스트 모델과 비교하게 되며, 만약 상기 비교 판단 단계(S60)에서 판단한 결과 첫번째 테스트 모델이 두번째 테스트 모델 보다 작은 경우에는 두번째 테스트 모델을 최소의 값으로 저장하게 되는 단계(S62, S64)와, 카운트 값을 1증가시킨 후 비교하고자 하는 테스트 모델의 순서가 전체의 테스트 모델의 종류 보다 적은 가를 판단하는 단계(S70, S80)와, 비교하고자 하는 테스트 모델의 순서가 전체의 테스트 모델 종류보다 적지 않은 경우에는 테스트 모델값을 최소값으로 인식하는 단계(S90)로 이루어져 있는 것을 특징으로 한다.

도 1은 본 발명의 HMM 모델의 유사성을 이용한 음성 인식 장치에 대한 개략적인 블록도이며,

도 2는 본 발명의 HMM 모델의 유사성을 이용한 음성 인식 방법에 대한 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

11 : 마이크로폰 13 : 로우 패스 필터

15 : 아날로그 디지탈 변환부 17 : 마이컴

19 : 음성인식기 21 : 구동부

본 발명의 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법에 대해서는 첨부한 도면을 참고로 상세히 기술하면 다음과 같다.

도 1은 본 발명의 음성 인식 장치에 대한 개략적인 블럭도로서, 사용자가 발음한 음성 신호를 전기신호로 변환하는 마이크로폰(microphone)(11)과, 상기 마이크로폰(11)에서 출력되는 신호를 입력받아 고주파 성분의 신호를 제거하고 저주파 신호의 성분만을 통과시키는 로우 패스 필터(low pass filter)(13)와, 상기 로우 패스 필터(13)에서 출력된 저주파수 성분의 신호인 아날로그 신호를 디지탈 신호로 변환하여 마이컴(MICOM)(17)에 입력되도록 변환하는 아날로그 디지탈 변환부(15)와, 상기 아날로그 디지탈 변환부(15)에서 출력되는 디지탈 신호를 입력받아 구동부(21)를 제어하도록 제어신호를 출력하고 음성 인식기(19)에 제어신호를 인가하여 시스템을 제어하는 마이컴(17)과, 상기 마이컴(17)에서 출력되는 제어신호를 입력받아 사용자가 발음한 음성을 종래에 사용하던 비터비 알고리즘을 사용하지 않고 단어 모델끼리 비교를 함으로써 음성을 인식하는 음성 인식기(19)와, 상기 음성 인식기(19)에서 사용자가 발음한 음성을 인식한 후 다시 마이컴(17)에 제어신호를 출력함으로써 사용자가 최종적으로 구동하고자하는 부분, 예를 들면 윈도우(window)의 개폐 등을 수행하는 구동부(21)로 구성되어 있다.

본원 발명의 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법은 단어 모델과의 유사도를 종래와 같은 백트렉킹의 방법인 비터비 알고리즘을 사용하지 않고 입력되는 음성만의 단어모델을 구한 후 기존 단어 모델과의 유클리디언(euclidean) 거리를 비교하여 구하는 방식이다.

즉, 입력 음성이 기존 단어 모델 중 하나를 발음한 것이라면 입력 음성의 모델도 기존 단어 모델과 유사하게 나올 것이라는 가정하에서 출발한 것이다. 입력 음성의 모델을 기존의 한 단어 모델과의 유사도를 유클리디언 거리를 측정하는 방식으로 구하게 되면, 스테이트 수가 N이고, 관찰 심볼의 수가 M일 때,

N×N+N×M

이 된다.

이 경우 종래에 계산되는 백트렉킹의 방식으로 계산한 계산량과 비교하기 위해서 간단히 예를 들어 보면, 일반적으로 스테이트 수를 8, 관찰 심볼을 64, 프레임의 수를 200으로 할 경우, 종래의 백트렉킹의 방법에 의한 계산량은

R1=2×8²×200³×W

이 되나, 본원 발명에 의한 경우에는

R2=(8×8+8×64)×W

가 된다.

즉, 상기와 같이, 종래의 백트렉킹에 의한 방법과 본원 발명과의 성능비교는 이 됨으로써, 계산량이 종래의 백트렉킹에 의한 방법보다 휠씬 감소됨을 알수 있다.

상기와 같이 구성된 본 발명의 작용, 효과를 첨부된 도면을 참고로 기술하면 다음과 같다.

먼저, 외부로부터 일정한 음성데이터가 상기 마이크로폰(11)에 입력되면(S10), 상기 마이크로폰(11)에 의해서 전기신호로 변환된 후 로우 패스 필터(13)에 의해서 고주파 성분의 신호를 제거하고 저주파 신호의 성분만을 통과시킨다.

이와 같이, 상기 로우 패스 필터(13)에서 출력된 저주파수 성분의 신호인 아날로그 신호는 아날로그 디지탈 변환부(15)에 의해서 디지탈 신호로 변환되며, 이와 같이 디지탈로 변환된 음성 신호는 상기 마이컴(17)에 입력되어 상기 디지탈 음성 신호에 포함되어 있는 파라미터(parameter) 성분중에서 특징 파라미터를 추출한다(S20).

이와 같이, 입력되는 음성 신호로부터 특징 파라미터를 추출한 후에는 HMM(hidden markov model) 방식에 의해 테스트하기 위해 일정한 테스트 모델 즉,

λ_t=(A_t,B_t,π_t)

(여기서, t = 1, 2,.........,w 이다.)을 구축한다(S30).

여기서, 상기 기존 음성 단어 모델은 레퍼런스 모델이라고 하며, 상기 입력 테스트 모델과의 유클리디언 거리를 테스트하기 위하여 음성 학습 단계에서 미리 구축해 놓는 기존의 음성 단어 모델로서, 하나의 테스트 모델에 대하여 복수개(예컨대, w개)로 존재할 수 있다.

상기와 같이 특정한 입력 음성 신호에 대한 테스트 모델이 구축되고 나면, 상기 음성 인식기(19)에서는 상기 테스트 모델과 상기 w개의 레퍼런스 모델 중에서 첫 번째 레퍼런스 모델 사이의 유클리디언 거리를 측정한 후, 그 거리값을 테스트 모델을 인식하기 위한 초기 기준값으로 설정한 후, 상기 첫 번째 레퍼런스 모델이 현재 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 가정한다(S40).

이와 같이, 상기 첫 번째 레퍼런스 모델이 현재 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 가정하고 나면, 다음으로 상기 음성 인식기(19)에서는 다음 번째 레퍼런스 모델 선택 계수(k)의 초기값을 2로 설정하여 두 번째 레퍼런스 모델을 선택한 후(S50), 상기 k번째(이때는 두 번째) 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 상기 기준값의 대소를 비교 판단한다(S60).

상기 비교 판단 단계(S60)에서 첫번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 기준값이 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값 이하일 경우에는 상기 레퍼런스 모델 선택 계수(k)값을 1 증가시켜 상기 레퍼런스 모델 선택 계수(k)를 k+1로 설정한 후(S70), k+1로 설정된 레퍼런스 모델 선택 계수(k)값이 복수개(w개)의 레퍼런스 모델 중 마지막 w번째 레퍼런스 모델에 해당하는가를 판별하여(S80), 상기 레퍼런스 모델 선택 계수(k)값이 마지막 레퍼런스 모델에 해당할 때까지 반복적으로 상기 k+1번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 상기 첫 번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 기준값의 대소를 비교 판단한 후, 마지막 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값이 상기 첫 번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 기준값보다 크면 상기 첫 번째 레퍼런스 모델을 테스트 모델로 인식한다(S90).

반면에, 상기 비교 판단 단계(S60)에서 첫 번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 기준값이 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값보다 클 경우, 상기 음성 인식기(19)는 상기 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값을 새로운 기준값으로 설정함과 동시에(S62), 상기 k번째 레퍼런스 모델이 현재 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 저장한다(S64).

또한, 상기와 같이 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값을 새로운 기준값으로 설정하고 k번째 레퍼런스 모델이 현재 테스트 모델 사이의 유클리디언 거리를 측정한 값을 새로운 기준값으로 설정하고 k번째 레퍼런스 모델을 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 저장하고 나면, 상기 음성 인식기(19)는 상기 레퍼런스 모델 선택 계수(k)값을 1 증가시켜 상기 레퍼런스 모델 선택 계수(k)를 k+1로 설정한 후(S70), k+1로 설정된 레퍼런스 모델 선택 계수(k)값이 복수개(w개)의 레퍼런스 모델 중 마지막 w번째 레퍼런스 모델에 해당하는가를 판별하여(S80), 상기 레퍼런스 모델 선택 계수(k)값이 마지막 레퍼런스 모델에 해당할 때까지 반복적으로 상기 k+1번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 상기 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정하여 새롭게 설정한 기준값의 대소를 비교 판단한 후, 마지막 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값이 상기 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 새로운 기준값보다 크면 상기 k번째 레퍼런스 모델을 테스트 모델로 인식하고, 작으면 마지막 레퍼런스 모델을 테스트 모델로 인식한다(S90).

이와 같이 음성 신호를 상기 음성 인식기(19)에서 인식된 후에는 상기 음성신호에 적합한 신호를 마이컴(17)에 출력하면 상기 마이컴(17)에서는 제어신호를 구동부(21)에 출력함으로써 음성 신호에 적합한 동작을 수행하게 된다.

상기에 기술한 바와 같이, 입력되는 음성 데이터로부터 특징 파라미터를 추출한 후 테스트하고자 하는 테스트 모델을 구축하여, 처음부터 모든 테스트 모델을 차례로 비교해가면서 유클리디언 거리의 최소값을 추정해가는 방법으로, 단어 모델끼리 비교함으로써 유사도를 구하는 방식이다.

상기와 같이 구성된 본 발명의 HMM 모델의 유사성을 이용한 음성 인식 장치 및 방법은, 입력되는 단어 모델을 구하여 기존의 단어 모델과의 유클리디언 거리를 비교하여 계산하는 방식으로, 입력음성이 기존의 단어 모델에 속한다면 입력 음성만의 단어 모델도 그 음성이 속하는 단어의 기존 모델과 유사할 것이라는 가정하에 단어 모델끼리 비교를 통해서 유사도를 구함으로써, 종래의 계산량 보다 월등히 처리량을 감소시킬 수 있으며, 음성 인식에 있어서 정확도를 유지하면서 인식 속도를 향상시킬 수 있는 발명이다.

Claims

외부로부터 일정한 음성데이터가 상기 마이크로폰에 입력되는 단계(S10)와,

음성신호가 디지탈 신호로 변환되고, 상기 디지탈 음성 신호에 포함되어 있는 파라미터 성분중에서 특징 파라미터를 추출하는 단계(S20)와,

테스트 모델을 구축하는 단계(S30)와,

상기 테스트 모델과 HMM(hidden markov model) 방식에 의해 미리 구축해 놓은 복수개(w개)의 레퍼런스 모델 중에서 첫 번째 레퍼런스 모델 사이의 유클리디언 거리를 측정한 값을 테스트 모델을 인식하기 위한 초기 기준값으로 설정한 후, 상기 첫 번째 레퍼런스 모델이 현재 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 가정하는 단계(S40)와,

다음 번째 레퍼런스 모델 선택 계수(k)의 초기값을 2로 설정하여 두 번째 레퍼런스 모델을 선택하는 단계(S50)와,

k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 기준값의 대소를 비교 판단하는 단계(S60)와,

기준값이 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값 이하일 경우에는 상기 레퍼런스 모델 선택 계수(k)값을 1 증가시켜 k+1로 설정한 후, k+1로 설정된 레퍼런스 모델 선택 계수(k)값이 복수개(w개)의 레퍼런스 모델 중 마지막(w번째) 레퍼런스 모델에 해당할 때까지 반복적으로 상기 k+1번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 상기 기준값의 대소를 비교 판단한 후, 마지막 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값이 상기 기준값보다 크면 상기 기준값 측정 대상이 된 레퍼런스 모델을 테스트 모델로 인식하는 단계(S60, S70, S80, S90), 및

기준값이 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값보다 클 경우에는, 상기 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값을 새로운 기준값으로 설정함과 동시에, 상기 k번째 레퍼런스 모델이 현대 테스트 모델과의 유클리디언 거리가 최소인 레퍼런스 모델로 저장한 다음, 상기 레퍼런스 모델 선택 계수(k)값을 1 증가시켜 k+1로 설정한 후, k+1로 설정된 레퍼런스 모델 선택 계수(k)값이 복수개(w개)의 레퍼런스 모델 중 마지막(w번째) 레퍼런스 모델에 해당할 때까지 반복적으로 상기 k+1번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값과 새롭게 설정한 기준값의 대소를 비교 판단한 후, 마지막 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 값이 상기 k번째 레퍼런스 모델과 테스트 모델 사이의 유클리디언 거리를 측정한 새로운 기준값보다 크면 상기 k번째 레퍼런스 모델을 테스트 모델로 인식하고, 작으면 마지막 레퍼런스 모델을 테스트 모델로 인식하는 단계(S60, S62, S64, S70, S80, S90).

로 이루어져 있는 것을 특징으로 하는 HMM 모델의 유사성을 이용한 음성 인식 방법.
제 1항에 있어서, 상기 비교 판단 단계(S60)는 입력 음성이 기존 단어 모델 중 하나를 발음한 것이라면 입력 음성의 모델도 기존 단어 모델과 유사하다는 특성을 이용한 것을 특징으로 하는 HMM 모델의 유사성을 이용한 음성 인식 방법.
제 2항에 있어서, 상기 비교 판단 단계(S60)는 입력 음성의 모델을 기존의 한 단어 모델과의 유사도를 유클리디언 거리를 측정함으로써 구해지며, 스테이트 수가 N이고, 관찰 심볼의 수가 M일 때, N×N+N×M 이 되는 것을 특징으로 하는 HMM 모델의 유사성을 이용한 음성 인식 방법.