KR19990056312A

KR19990056312A - 음성인식시스템에서의 단어 학습 및 인식 방법

Info

Publication number: KR19990056312A
Application number: KR1019970076306A
Authority: KR
Inventors: 정남호; 권오일; 박성희
Original assignee: 김영환; 현대전자산업 주식회사
Priority date: 1997-12-29
Filing date: 1997-12-29
Publication date: 1999-07-15
Also published as: JPH11352982A; KR100301596B1

Abstract

본 발명은 인간의 음성을 인식하기 위한 음성인식시스템에 있어서, 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, 이 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법에 관한 것으로, 학습 데이터의 섹션을 등분할한 후 코드북과 각 섹션의 평균길이를 이용하여 단어 모델을 만들고, 이 단어 모델이 이전의 모델과 동일할 때까지 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 섹션길이가 가변적인 단어 모델을 데이터 베이스에 저장하도록 하며, 이후 DP와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ기법을 이용하여 입력되는 음성 패턴과 데이터 베이스에 저장된 단어 모델과의 최적경로를 계산하여, 최적경로가 가장 짧은 단어 모델로 입력되는 음성을 인식할 수 있도록 함으로써 화자독립시스템과 화자종속시스템에서 음성 인식율을 높일 수 있게 되는 효과가 있다.

Description

음성인식시스템에서의 단어 학습 및 인식 방법

본 발명은 인간의 음성을 인식하기 위한 음성인식시스템에 있어서, 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, 이 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법에 관한 것이다.

일반적으로, 인간의 음성과 같은 자연음을 인식하고자 하는 음성인식시스템은 도 1에 도시된 바와 같이 입력되는 신호로부터 음성구간을 검출하는 음성구간 검출부(1)와, MFCC 계수를 사용하여 상기 음성구간 검출부(1)에서 검출된 음성구간으로부터 그 특징을 추출하는 특징계수 추출부(2)와, HMM(Hidden Markov Model) 등의 알고리즘을 이용하여 음성신호를 인식하는 음성 인식부(3)와, 음성신호에 의해 학습된 단어 모델이 저장되어 있는 데이터 베이스(4)와, 상기 음성 인식부(3)에서 인식된 음성신호에 대해 실효성을 판단하여 인식되는 단어를 출력하는 후처리부(5)로 구성된다.

상기와 같이 구성된 음성인식시스템에 있어서, 음성인식 부분은 음성인식시스템의 핵심이라 할 수 있으며, 대표적인 음성인식 알고리즘으로는 HMM, VQ(Vector Quantization), DTW(Dynamic Time Warpng), 신경망(Neural Network) 등이 있다.

이중에서 가장 널리 쓰이고 있는 HMM은 화자독립 음성인식에서 가장 좋은 결과를 보이고 있으나, 그 특성상 많은 양의 학습 데이터를 필요로 하기 때문에 화자종속시스템에는 적용하기 어렵다.

반면, DTW의 경우 화자종속시스템에서는 어느 정도 성능을 나타내지만 화자독립으로까지는 발전하지 못하였으며, 음성구간을 고정된 크기의 섹션으로 강제 분할하는 VQ나 신경망은 독자적으로 쓰이기 보다는 다른 알고리즘과 결합되어 사용된다.

상기와 같이, 종래 음성인식 알고리즘은 화자독립시스템과 화자종속시스템 모두에서 효과적이지 못한 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 그 목적은 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, DP(Dynamic Programing)와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ(Variable Multi-Section Vector Quantization)기법을 이용하여 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 하여 화자독립시스템과 화자종속시스템에서의 음성 인식율을 높일 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법을 제공하는 데에 있다.

이러한 목적을 달성하기 위한 본 발명의 음성인식시스템에서의 단어 학습 및 인식 방법은, 학습 데이터의 섹션을 등분할한 후 코드북과 각 섹션의 평균길이를 이용하여 단어 모델을 만들고, 이 단어 모델이 이전의 모델과 동일할 때까지 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 섹션 길이가 다른 단어 모델을 데이터 베이스에 저장하도록 하며, 이후 DP와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ기법을 이용하여 입력되는 음성 패턴과 데이터 베이스에 저장된 단어 모델과의 최적경로를 계산하여, 최적경로가 가장 짧은 단어 모델로 입력되는 음성을 인식할 수 있도록 하는 것을 특징으로 한다.

도 1은 일반적인 음성인식시스템의 블록 구성도,

도 2는 본 발명에 의한 단어 학습 방법을 보인 흐름도,

도 3은 본 발명에 의한 단어 학습에 따라 만들어진 단어 모델을 보인 도면,

도 4는 본 발명에 의한 단어 인식 방법을 보인 흐름도.

<도면의 주요부분에 대한 부호의 설명>

1 : 음성구간 검출부 2 : 특징계수 추출부

3 : 음성 인식부 4 : 데이터 베이스

5 : 후처리부

이하, 첨부된 도면을 참고하여 본 발명에 의한 음성인식시스템에서의 단어 학습 및 인식 방법을 상세히 설명한다.

먼저, 도 2의 흐름도를 참조하여 본 발명에 의한 단어 학습 방법을 설명하면, 우선 학습하고자 하는 데이터를 N개의 섹션으로 등분할한다(S10).

이어, 각 섹션에 대해 동일한 섹션의 벡터들을 한 공간에 순서없이 넣고 집단화하고(S11), 코드워드를 계산하여 코드북을 작성하고 각 섹션의 평균 길이를 계산하여 단어 모델을 만는다(S12).

이때, 상기 단계(S12)에서 만들어진 단어 모델(W_i)은 도 3에 도시된 바와 같이 다수의 섹션(C_i1,C_i2,C_i3…C_iN)으로 구성되며, 하나의 섹션(a)은 각 섹션을 대표하는 값(C₁ ⁱ³,C₂ ⁱ³,…C_S ⁱ³)인 코드워드(b)와 섹션길이(l_ij)(c)로 구성된다.

즉, 본 발명에서는 한 섹션의 길이가 가변적으로 설정되므로 각 섹션에 섹션길이 정보를 함께 두어 단어 모델을 표현한다.

그리고 나서, 상기 단계(S12)에서 만들어진 단어 모델이 이전의 모델과 동일한지를 비교하여(S13) 이전의 모델과 동일하다면 만들어진 단어 모델을 데이터 베이스에 저장하고(S14), 이전의 모델과 동일하지 않다면 새모델 학습 패턴간에 패턴매칭을 수행하고(S16) 학습 패턴의 섹션을 재분할하여(S17) 이전의 단어 모델과 동일해질 때까지 반복 수행하도록 하여(S16) 이전의 모델과 동일해진 단어 모델을 데이터 베이스에 저장한다.

그러나, 임계값 이상으로 패턴매칭과 섹션 재분할을 수행하였는데도 이전의 단어 모델과 더 이상 동일하지 않게 되면 단어 모델을 그대로 데이터 베이스에 저장한다.

상기와 같은 학습 방법을 통해 섹션의 길이가 서로 다른 단어 모델을 만들어 데이터 베이스에 저장하게 되면, 입력되는 음성 패턴을 상기 데이터 베이스에 저장된 단어 모델과 비교하여 가장 유사한 단어 모델을 통해 인식할 수 있게 된다.

즉, 본 발명에 의한 단어 인식 방법을 도 4의 흐름도를 참조하여 설명하면 다음과 같다.

임의의 음성 패턴을 입력하여(S20), 아래 수학식 1을 이용하여 입력 음성 패턴(I는 프레임수)에 대한 단어 모델()과의 최적거리를 계산한다(S21).

여기서,는 입력 음성 벡터의 섹션 경계로서,이고,이다.

입력 음성의번째 섹션 구간은부터사이의 벡터이다.

이때, 상기는 입력 음성 패턴의 j 번째 섹션 벡터들과 단어 모델 j 번째 섹션의 코드워드와의 최소거리로서, 아래 수학식 2와 같이 표현된다.

여기서,는 벡터거리이다.

그리고, 상기는 입력 음성 벡터의번째 세그먼트 길이와 단어 모델번째 섹션길이와의 거리로서, 아래 수학식 3과 같이 표현된다.

여기서,는 스칼라거리이고,는 섹션의 0 또는 양의 무게 상수이다.

한편, 상기를 효과적으로 계산하기 위해 DP 기법을 이용하여 단어 모델의 첫 번째 섹션과 입력 음성의 첫 번째 벡터로부터 단어 모델의번째 섹션과 입력 음성의번째 벡터까지의 최적 경로에 대한 누적거리를 아래 수학식 4에 의해 계산한다.

이후, 상기 수학식들에 의해 구해진 입력 음성 패턴과 단어 모델과의 최적경로에서 거리가 가장 짧은 최적경로를 갖는 단어 모델을 이용하여 입력되는 음성을 인식하도록 한다(S22).

이상, 상기 설명에서와 같이 본 발명은 VMS VQ 기법을 이용하여 가변의 섹션길이를 갖는 단어 모델과 입력 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있어 화자독립시스템과 화자종속시스템에서의 음성 인식율을 높일 수 있게 되는 효과가 있다.

Claims

학습 데이터를 섹션으로 등분할하는 제1단계와, 상기 제1단계에서 분할된 각 섹션에 대해 동일한 섹션의 벡터들을 집단화하는 제2단계와, 상기 제2단계 수행 후, 코드워드를 계산하여 코드북을 작성하고 각 섹션의 평균 길이를 계산하여 단어 모델을 만드는 제3단계와, 상기 제3단계에서 만들어진 단어 모델이 이전의 모델과 동일한지를 비교하여 이전의 모델과 동일할 때까지 새모델 학습 패턴간에 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 단어 모델을 데이터 베이스에 저장하는 제4단계로 이루어지는 것을 특징으로 하는 음성인식시스템에서의 단어 학습 방법.
제1항에 있어서, 상기 단어 모델이 코드워드와 섹션길이로 이루어진 다수의 섹션으로 구성되는 것을 특징으로 하는 음성인식시스템에서의 단어 학습 방법.
입력되는 음성 패턴에 대해 데이터 베이스에 저장된 단어 모델과의 최적경로를 구하는 단계와, 상기 단계에서 구한 입력 음성 패턴과 단어 모델과의 최적경로에서 거리가 가장 짧은 최적경로를 갖는 단어 모델로 입력 음성을 인식하는 단계로 이루어지는 것을 특징으로 하는 음성인식시스템에서의 단어 인식 방법.