KR100319237B1

KR100319237B1 - 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템

Info

Publication number: KR100319237B1
Application number: KR1019990054255A
Authority: KR
Inventors: 최민석; 한민수; 한현배; 김일천
Original assignee: 안병엽; 학교법인 한국정보통신학원; 김일천; 주식회사 팍스브이알
Priority date: 1999-12-01
Filing date: 1999-12-01
Publication date: 2002-01-09
Also published as: KR20010000054A

Abstract

본 발명은 고립단어 인식 시스템에 관한 것으로, 종래의 음성 인식에 사용되는 동적 시간정합 알고리즘의 계산량 부담을 감축시키기 위하여 유성음/무성음/묵음 정보를 이용한다. 먼저, 유성음/무성음/묵음 분류기를 통해 입력 음성으로부터 유성음/무성음/묵음 코드워드와, 각 코드에 해당하는 구간별 경계 정보를 추출하고, 데이터베이스내의 표준 패턴들중에서 입력 음성 신호에 대하여 구성된 유성음/무성음/묵음 코드워드와 동일한 코드워드를 갖는 표준 패턴들을 선택한다. 패턴 정합부는 원 음성 신호의 구간별 경계 정보를 이용하여 데이터베이스로부터 선택된 표준 패턴과 입력 음성 신호 패턴과의 유사성 비교를 수행함으로써 정확한 인식 결과를 출력한다.

따라서, 일차적으로 원 입력 음성에 대응하는 코드워드를 갖는 표준 패턴만을 비교 대상으로 하고, 이차적으로 구간별로 패턴 정합이 수행되기 때문에 종래 기술에 비하여 상당한 계산량 감축 효과가 있다.

Description

유성음/무성음/묵음 정보를 이용한 동적 시간정합 고립단어 인식 시스템{DTW BASED ISOLATED-WORD RECOGNIZATION SYSTEM EMPLOYING VOICED/UNVOICED/SILENCE INFORMATION}

본 발명은 음성인식 분야에 관한 것으로, 보다 상세하게는 인식 대상 음성신호로부터 추출한 유성음/무성음/묵음 정보를 이용하여 동적 시간정합 알고리즘을 수행함으로써 패턴정합에 소요되는 계산량을 감축시킬 수 있는 음성 인식 시스템에 관한 것이다.

현재, 대부분의 고립단어 인식 시스템은 소어휘를 대상으로 하며, 고립단어 인식 시스템에 사용되는 인식기는 기본적으로 음성 검출기를 이용하여 음성 구간을 검출한 후 검출된 음성 구간에 대하여 데이터베이스내의 표준 패턴과 비교함으로써 인식을 수행하게 된다. 음성 검출기는 입력 신호에서 음성 신호를 분리해 내는 역할을 하며 패턴 정합 시에는 동적 시간정합(dynamic time-warping : DTW)을 이용하여 입력 음성 패턴과 표준 패턴간의 유사도를 측정하게 된다.

동적 시간정합은 구현이 쉽고 간단하며, 고립단어 인식에 있어서 가장 좋은 성능을 보이기 때문에 현재에도 음성 인식 분야에서 가장 널리 사용되고 있는 알고리즘이다. 종래의 동적 시간정합 알고리즘을 이용한 음성 인식기는 음성 검출기를 통해 검출된 음성 구간 전체에 대해 데이터베이스내의 모든 표준 패턴과 비교하게 된다. 이러한 방법으로 패턴 정합을 하게되면, 인식 대상 어휘의 수가 증가함에 따라, 증가된 인식 대상 어휘의 수에 비례하여 인식기의 계산량이 현저히 증가하게 된다. 이것은 동적 시간 정합을 이용한 인식기가 하나의 입력 패턴에 대한 인식 결과를 출력하기 위해서는 입력된 음성 패턴에 대하여 데이터베이스내의 모든 표준 패턴과의 정합 누적 거리를 계산하여 최소의 누적 정합 거리를 가지는 표준 패턴을 인식 결과로 출력하기 때문이다. 따라서 이러한 동적 시간정합 알고리즘을 이용한음성인식의 계산량 부담 때문에 동적 시간정합 알고리즘의 응용범위가 주로 소어휘 대상의 음성인식 시스템에 국한되고 있다.

이와 같이 동적시간정합을 이용한 음성인식은 현재까지 고립단어 인식에서 가장 우수한 인식률을 보이고 있으나, 인식 대상 어휘가 증가하면 비교 대상 어휘의 증가로 인하여 계산량이 비례하여 증가할 뿐만 아니라 인식률도 상대적으로 감소한다는 단점이 있다. 이러한 동적 시간정합의 계산량 부담은 동적 시간정합 고립단어 인식기의 적용범위를 제한하여 응용범위가 소어휘(small-vacabulary) 수준의 인식시스템에 국한되고 있는 실정이다.

그러므로, 본 발명은 상술한 문제를 해결하고자 안출된 것으로, 동적 시간정합 알고리즘의 계산량 부담을 감축시킬 수 있는 고립단어 인식 시스템을 제공하는 것을 그 목적으로 한다.

도 1은 본 발명에 따른 동적 시간정합 고립단어 인식 시스템의 블록 구성도,

도 2는 입력 음성 신호로부터 구성된 유성음/무성음/묵음 코드워드 패턴에 따른 데이터베이스의 선택을 도시하는 도면,

도 3은 도 1에 도시된 코드워드 분류기의 구현예를 도시하는 도면,

도 4는 유성음/무성음/묵음 구간으로 분류된 음성들간의 부분적 동적 시간정합을 수행하는 과정을 설명하는 도면,

도 5a 및 도 5b는 각기 종래기술과 본 발명에 따른 동적 시간정합을 수행한 계산량을 비교하는 도면.

<도면의 주요부분에 대한 부호의 설명>

10 : 전처리부 20 : 데이터베이스

30 : 코드워드 분류기 50 : 패턴 정합부

상술한 목적을 달성하기위한 본 발명에 따른 고립단어 인식 시스템은 각각의 인식 대상 단어의 음성에 대하여 시간축상에서 유성음, 무성음, 묵음의 코드 구간으로 분리하고, 분리된 코드 구간의 조합으로 이루어진 코드워드 패턴별로 상기 단어의 음성들을 표준 음성 패턴으로서 분류하여 저장한 데이터베이스; 입력되는 원 음성 신호로부터 제 1 특징 변수들을 추출하고, 상기 원 음성을 전처리하여 제 2 특징 변수들을 추출하여 상기 추출된 제 1 및 제 2 특징 변수들을 이용하여 원 음성 신호의 테스트 패턴을 생성하고, 상기 원 음성 신호로부터 유성음, 무성음, 묵음 코드의 구간별 경계 정보를 추출하는 전처리 수단; 상기 제 1 및 제 2 특징 변수들을 이용하여 유성음, 무성음, 묵음 구간으로 구분되는 코드워드를 형성하고 상기 형성된 코드워드에 대응하는 코드워드 패턴을 갖는 표준 음성 패턴들을 상기 데이터베이스로부터 선택하는 코드워드 분류 수단; 상기 원 음성 신호의 테스트 패턴과 상기 데이터베이스로부터 선택된 표준 음성의 패턴을 상기 구간별 경계 정보를 이용하여 구간별로 부분적으로 동적 시간정합 알고리즘을 적용하여 패턴 정합을 수행하여 인식 결과를 생성하는 패턴 정합 수단을 포함하는 것을 특징으로 한다.

이하 본 발명은 첨부된 도면을 참조하여 다음과 같이 상세히 설명될 것이다.

일반적으로 음성 신호는 주기적인 성대의 떨림으로 발성되는 유성음(voiced), 'ㅋ', 'ㅌ', 'ㅎ' 등과 같이 성도내의 난기류 형성으로 발성되는 무성음(unvoiced) 및 발성이 없는 묵음(silence)으로 분류될 수 있다. 예로, 도 4에는 사람의 입에서 발성되는 '컴퓨터'라는 고립단어가 시간축상에서 유성음(V), 무성음(U) 및 묵음(S)으로 구분될 수 있는 것을 예시한다. 본 발명은 유성음, 무성음 및 묵음의 정보를 단어 인식을 위한 패턴 정합에 사용한다.

이제 도 1을 참조하면, 본 발명에 따라서 유성음, 무성음 및 묵음의 정보를 이용하는 동적 시간정합 고립단어 인식 시스템의 블록구성도가 도시된다. 본 발명의 동적 시간정합 고립단어 인식 시스템은 코드워드 데이터베이스(10), 전처리부(20), 코드워드 분류기(30), 패턴 정합부(50)를 포함한다.

먼저, 도 2에 도시된 데이터베이스(10)는 사람의 입에서 발성되는 고립단어들에 대하여 각기 시간축상에서 유성음 구간, 무성음 구간, 묵음 구간으로 구분하고(도 4 참조), 각각의 구간마다 (V), (U), (S)의 코드를 할당하여 할당된 코드들의 조합으로 이루어진 코드워드 패턴들을 동일한 패턴별로 분류하여 저장하고 있다. 예를 들면, 도 2에 도시된 바와 같이, 데이터베이스(10)의 제 1 패턴 영역(12)에는 '하나', '둘', '셋' 등과 같은 한 그룹의 고립단어가 UV 코드워드 패턴으로 분류되어 저장되고, 제 2 패턴 영역(14)에는 UVU 코드워드 패턴을 갖는 '다섯' 등과 같은 고립단어가 저장되고, 제 3 패턴 영역(16)에는 V 코드워드 패턴을 갖는 '넷', '일곱', '여덟', '열' 등과 같은 한 그룹의 고립단어가 저장되고, 제 4 패턴 영역(18)에는 VUV 코드워드 패턴을 갖는 '여섯', '아홉' 등과 같은 한 그룹의 고립단어가 저장되어 있다.

또한, 다시 도 4를 참조하면, 음성 신호의 시작점과 끝점 정보 뿐만 아니라 각각의 코드 변환 시점을 구간별 경계정보로서 추출하여, 대응하는 고립단어와 함께 데이터베이스(10)내의 해당하는 코드워드 패턴 영역(12, 14, 16, 18)에 저장된다.

이와 달리, 본 발명의 데이터베이스(10)에는 화자의 발성 습관에 따른 변이를 고려하여 이중의 표준 패턴을 생성하여 저장할 수도 있다. 즉, 하나의 단어가 두 개의 V/U/S 코드워드 데이터베이스(10)에 저장될 수도 있는데, 이것은 각 코드의 구간별 경계 정보를 상이하게 하여 저장함으로써 가능하다. 예를 들면, '편안한'을 발성할 때, 화자에 따라 '펴난한'으로 발성하는 경우가 있고, 혹자는 '펴나난'으로 'ㅎ' 음소를 발성하지 않는 경향 등이 있으므로, V/U/S 코드워드를 데이터베이스(10)에 저장할 때, 'UVUV'와 'UV'의 코드워드를 갖는 데이터베이스(10)에 구간별 경계 정보를 달리하여 동시에 저장할 수 있다. 이렇게 함으로써 화자의 발성 습관에 따른 변이로 인한 오인식의 가능성을 배제할 수 있다.

전처리부(20)는 입력 음성 신호로부터 에너지, 영 교차율 및 레벨 교차율과 같은 특징변수, 또는 특징 벡터들을 추출하여 음성 패턴 정합에 사용되는 테스트 음성 패턴을 만드는 기능을 수행한다. 보다 상세히 말해서, 전처리부(20)는 입력되는 원 음성 신호로부터 에너지, 영 교차율 및 레벨 교차율과 같은 제 1 특징 변수들을 추출하고, 원 음성신호를 전처리(pre-emphasis)하여 그로부터 에너지, 영 교차율 및 레벨 교차율과 같은 제 2 특징 변수들을 추출한다. 전처리부(20)에 의해 생성된 특징 변수들은 모두 시계열(time domain) 특징 변수들로서 추출된 것이며, 이것은 다음에 설명되는 바와 같이 전체 고립단어 인식 시스템내에서 음성 신호로부터 유성음, 무성음 및 묵음을 분류하는데 소요되는 계산량 비중을 줄이는데 기여한다.

또한, 전처리부(20)는 데이터베이스(10)에 저장된 기준 패턴과의 정합을 위하여 도 4를 참조하여 설명된 바와 같이, 원 음성 신호로부터 유성음, 무성음 및 묵음 코드의 변환 시점을 구간별 경계 정보로서 추출하며, 추출된 구간별 경계 정보는 테스트 음성 패턴들과 함께 패턴 정합부(50)로 제공되며, 특징변수들은 코드워드 분류기(20)로 제공된다.

한편, 코드워드 분류기(30)는 전처리부(10)로부터 제공된 6가지의 제 1 및 제 2 특징 변수들을 이용하여 입력된 음성 신호를 유성음, 무성음 및 묵음 구간으로 구분되는 코드워드(VUS)로서 생성한다. 이러한 코드워드 분류기(30)는 도 3에도시된 바와 같이, 제 1 및 제 2 특징 변수들을 수신하는 입력층, 두 개의 은닉층 및 유성음, 무성음 및 묵음으로 분류된 결과를 생성하는 출력층을 갖는 신경회로망(40)으로 구현될 수 있다.

신경회로망(40)의 음성 특징 변수 입력은 코드워드 분류기의 계산량 부담을 가중시키지 않는 범위에서 주파수 계열 특징 변수들(주파수 대역 대비 에너지 비율 등)을 포함하여 V/U/S 분류의 신뢰도를 향상시킬 수 있다. 입력된 음성 신호는 신경회로망(40)을 통해 프레임 단위로 유성음/무성음/묵음으로 분류되고, 신경회로망(40)에서 분류된 결과는 후처리(post-processing)되어 유성음, 무성음 및 묵음 구간의 조합으로 구성된 코드워드(VUS)로서 형성된다.

이후, 코드워드 분류기(40)에 의해 구성된 코드워드 패턴은 데이터베이스(10)로 제공되어, 데이터베이스(10)의 각각의 코드워드 패턴 영역(12, 14, 16, 18)내에서 그와 동일한 코드워드 패턴과 비교된다. 도 2에는 코드워드 분류기(40)에 의해 분류된 인식대상의 고립단어 '아홉'에 대응하는 'VUV'라는 코드워드 패턴이 데이터베이스(10)의 제 4의 VUV 패턴 영역(18)과 매칭되고, 그 영역(18)내에 저장된 기준 단어들, 즉 한 그룹의 '여섯, 아홉'이라는 기준 음성 신호가 선택되는 것이 도시된다. 이러한 비교동작에 의해 지정된 어느 하나의 코드워드 영역내에 존재하는 음성 신호는 테스트 음성신호 패턴과의 정합을 위한 기준 음성 신호 패턴으로서 검색되어 패턴 정합부(50)로 제공된다.

이와 같이, 코드워드 분류기(30)에 의해 형성된 코드워드 패턴의 비교 대상 어휘를 데이터베이스(10)내에 저장된 동일한 표준 패턴만으로 제한함으로써, 데이터베이스(10)에 저장된 모든 표준 패턴을 비교대상으로 하는 종래기술에 비하여 코드워드 분류기(30)의 계산량을 대폭 감축시킬 수 있다.

한편, 패턴 정합부(50)는 전처리부(20)로부터 제공된 구간 경계 정보를 갖는 원 음성 신호, 예로 '여섯'의 테스트 음성 패턴과 데이터베이스(10)로부터 제공된 예로 '여섯' 및 '아홉'이라는 기준 음성 패턴을 구간별로 부분적(piecewise)으로 동적 시간정합 알고리즘(DTW)을 적용하여 패턴 정합을 수행한다. 예를 들어, 도 4를 참조하면, '컴퓨터'라는 음성에 대하여 데이터베이스(10)에 저장된 기준 음성 패턴과 전처리부(20)에 의해 생성된 테스트 음성 패턴을 본 발명의 부분적 동적 시간 정합 알고리즘을 수행하는 과정을 도시한다.

본 발명에 있어서, 기준 음성 패턴과 테스트 음성 패턴간의 유사도 측정을 위해 사용하는 음성 특징 변수는 12차 LPC(Linear Predictive Coding) 켑스트럼 계수를 사용한다. LPC 켑스트럼을 사용함으로써 음성 신호의 스펙트럼 포락 정보를 추출하여 패턴 정합에 이용한다. 이와 달리, 음성 특징 변수의 다른 예로써 인간의 청각 특성을 고려한 PLP(Perceptual Linear Predictive) 켑스트럼 또는 MFCC(Mel-Frequency Cepstral Coefficient)를 사용할 수도 있다. 부분적 동적 시간 알고리즘(DTW)에 따르면, 구간별 경계 정보를 이용하여 데이터베이스로부터 선택된 표준 음성 패턴과 입력 음성간의 LPC 켑스트럼의 누적거리 값을 계산하고, 누적거리가 가장 작은 값을 갖는 표준 패턴이 인식 결과로서 출력된다.

상술한 바와 같이, 본 발명에 따라 구간별로 패턴정합이 수행됨으로써 종래 기술에서와 같이 기준 및 비교 음성 전체 구간에 대하여 패턴정합을 수행하는 기존의 동적 시간 정합방식에 비하여 패턴 정합의 계산량이 감축될 수 있다.

도 5a 및 도 5b는 각기 종래 기술의 동적 시간정합 알고리즘과 본 발명의 부분적 동적 시간정합 알고리즘을 수행한 결과를 예시한다. 종래 기술은 도 5a에 도시된 실선부분, 즉 음성신호의 시작점과 끝점사이의 전구간에 대해 누적거리를 계산하게 되지만, 본 발명은 도 5b에 도시된 바와 같이, 점선부분, 즉 각 코드에 해당하는 구간끼리만 누적 거리를 계산함으로써 계산량이 감축되는 효과가 있음을 알 수 있다.

그러므로, 본 발명에 따른 음성 인식 시스템은 유성음/무성음/묵음 정보를 이용한 동적 시간정합 알고리즘을 이용하여 기존의 동적 시간정합 인식기에 비하여 감축된 계산량 부담으로 인해 동적 시간정합 알고리즘을 다양한 음성 인식 시스템에 적용이 가능하다. 예를 들면, 인식 대상 어휘수를 늘려 인식 기능을 강화한 저가형 상용 음성 인식 시스템이나 대어휘 음성 인식 시스템에 적용 가능하다.

본 발명이 바람직한 실시예를 참조하여 설명되고 기술되었지만, 본 기술분야에서 통상의 지식을 가진 자라면, 하기 청구된 특허청구범위의 범주를 벗어나지 않는 범위에서 본 발명의 변경 및 변화가 가능할 것이다.

Claims

고립단어 인식 시스템에 있어서,

각각의 인식 대상 단어의 음성에 대하여 유성음, 무성음, 묵음의 코드 구간으로 분리하고, 분리된 코드 구간의 조합으로 이루어진 코드워드 패턴별로 상기 단어의 음성들을 표준 음성 패턴으로서 분류하여 저장한 데이터베이스;

입력되는 원 음성 신호로부터 제 1 특징 변수들을 추출하고, 상기 원 음성을 전처리하여 제 2 특징 변수들을 추출하여 상기 추출된 제 1 및 제 2 특징 변수들을 이용하여 원 음성 신호의 테스트 음성 패턴을 생성하고, 상기 원 음성 신호로부터 유성음, 무성음, 묵음 코드의 구간별 경계 정보를 추출하는 전처리 수단;

상기 제 1 및 제 2 특징 변수들을 이용하여 유성음, 무성음, 묵음 구간으로 구분되는 코드워드를 형성하고 상기 형성된 코드워드에 대응하는 코드워드 패턴을 갖는 표준 음성 패턴들을 상기 데이터베이스로부터 검색하는 코드워드 분류 수단;

상기 원 음성 신호의 테스트 패턴과 상기 데이터베이스로부터 검색된 표준 음성의 패턴을 각각의 구간 경계 정보를 이용하여 구간별로 부분적으로 동적 시간정합 알고리즘을 적용하여 패턴 정합을 수행하여 인식 결과를 생성하는 패턴 정합 수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 코드워드 분류 수단은 상기 제 1 및 제 2 음성 특징 변수를 입력으로 하여 그의 출력으로서 상기 유성음, 무성음, 묵음을 분류하는 신경회로망을 구비하는 것을 특징으로 하는 음성 인식 시스템.
제 2 항에 있어서, 상기 제 1 및 제 2 음성특징 변수는 각기 에너지, 영 교차율, 레벨 교차율인 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 데이터베이스는 화자의 발성 습관에 따라 다르게 분류되는 음성 신호의 유성음, 무성음, 묵음 코드워드 패턴을 상기 기준 음성 패턴과 별개의 기준 음성 패턴으로 저장하는 것을 특징으로 하는 음성 인식 시스템.