KR101068120B1

KR101068120B1 - 다중 탐색 기반의 음성 인식 장치 및 그 방법

Info

Publication number: KR101068120B1
Application number: KR1020080126244A
Authority: KR
Inventors: 전형배; 조훈영; 김승희; 황규웅; 이일빈; 박준; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2008-12-12
Filing date: 2008-12-12
Publication date: 2011-09-28
Anticipated expiration: 2028-12-12
Also published as: KR20100067727A

Abstract

본 발명은 입력된 음성 신호에 대한 다중 탐색을 통해 음성 인식을 수행하는 기법에 관한 것으로, 이를 위하여 본 발명은, FSN 방식, N-gram 방식 등의 기법을 이용하여 입력된 음성 신호를 인식하는 종래 방법과는 달리, FSN 방식 및 N-gram 방식을 이용한 음성 탐색을 병렬 처리한 후, 이에 따라 출력되는 제 1 단어 격자와 제 2 단어 격자를 통해 통합 탐색 네트워크를 생성하고, 생성된 통합 탐색 네트워크를 통해 음성 탐색을 재수행하여 음성 인식 결과를 출력함으로써, FSN 방식 및 N-gram 방식의 다중 탐색을 통해 입력된 음성 신호에 대한 음성 인식률을 향상시킬 수 있는 것이다.

음성 인식 기법(speech recognition), FSN(Finite State Network) 방식, N-gram 언어 모델 방식

Description

다중 탐색 기반의 음성 인식 장치 및 그 방법{MULTI-SEARCH BASED SPEECH RECOGNITION APPARATUS AND ITS METHOD}

본 발명은 음성 인식 기법에 관한 것으로, 더욱 상세하게는 입력 음성 신호에 대한 다중 탐색을 통해 음성 인식을 수행하는데 적합한 다중 탐색 기반의 음성 인식 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].

잘 알려진 바와 같이, 음성 인식 기법(speech recognition)은 인식하고자 하는 대상 영역을 하나의 탐색 네트워크로 표현하고, 해당 탐색 네트워크 조건 내에서 입력 음성 신호(음성 데이터)와 가장 유사한 단어열을 찾는 탐색 과정을 수행한다.

이러한 음성 인식의 탐색 네트워크로는 여러 종류가 있는데 그 중에서 FSN(Finite State Network, 이하 ‘FSN’이라 함) 방식, N-gram 언어 모델 방식 등 이 가장 많이 사용된다.

여기에서, FSN 방식의 탐색 네트워크는 인식하고자 하는 대상 영역을 전형적인 문장 표현들로 정의하고, 이러한 전형적인 문장 표현들을 문형으로 정의하며, 이로부터 단어 네트워크로 기술하는 방식으로서, 인식하고자 하는 영역이 제한적인 경우 많이 사용되고, 정의된 문장만을 발성할 경우 인식 성능이 우수한 장점을 갖는다.

예를 들면, 항공 예약과 같은 서비스의 경우 “서울에서 제주도까지 예약하려고 합니다”, “내일 오후 3시 이후가 좋겠어요” 등과 같은 항공 예약 상황에 나타나는 문장들이 전형적인 경우 관련 문장들을 모두 문형으로 정의하고, 이를 FSN 방식의 탐색네트워크로 표현할 수 있으며, 이를 통해 입력된 음성 신호를 인식하게 된다.

한편, N-gram 언어 모델 방식은 상술한 바와 같은 FSN 방식보다 인식하고자 하는 영역이 상대적으로 방대하고 다양한 표현이 가능하여 문장 패턴을 정의하기 힘든 경우 많이 사용되는데, 인식하고자 하는 영역을 표현하는 문장 코퍼스를 구축하고, 문장 코퍼스에서의 정의된 개수의 단어에 대해 출현할 확률을 계산하여 저장해 둔 상태에서 기 산출된 각 단어의 확률을 입력된 음성 신호에 대한 관측 확률에 추가하여 총 문장의 확률을 정의한다.

여기에서, 각 단어의 확률을 언어모델 확률 값이라고 하며, N-gram 방식에서의 입력 음성 신호에 대한 출력 단어의 확률은 아래의 수학식 1 및 수학식 2와 같이 정의된다.

이 때, 상기 수학식 1에서 출력 단어열인 L은 Pr(A|L)Pr(L)이 가장 큰 단어열로 결정되며, Pr(A|L)은 입력된 음성 신호가 특정 단어의 일반적인 음향 특성과 얼마나 유사한지를 나타내는 관측 확률을 의미하고, 일반적인 음향 특성은 훈련 음성 데이터베이스로 미리 학습하여 HMM(Hidden Markov Model) 등을 통해 훈련한 음향 모델로 모델링된다.

또한, Pr(L)은 언어 모델 확률로서, 인식 대상 영역의 대량의 문장 코퍼스로부터 각 단어가 출현할 확률값을 의미하며, 각 단어의 출현 확률은 이전의 나타난 단어들이 제약 조건이 되어 모델링되는데, 일반적으로 앞의 2 단어까지를 고정하고, 현재 단어가 나타날 확률을 모델링하는 Tri-gram 언어 모델이 상대적으로 많이 사용된다.

이와 같이, 인식 대상 영역이 작은 경우는 FSN 방식이, 인식 대상 영역이 큰 경우는 N-gram 방식이 일반적으로 사용되며, N-gram 방식과 FSN 방식을 비교해 보면, FSN 방식의 탐색 네트워크에서는 특정 단어 다음에 나타날 수 있는 단어가 정의된 문형에 의해 제한되는 반면 N-gram 방식에서는 특정 단어 다음에 나타날 수 있는 단어는 모든 단어가 가능하고, 대신 2 단어가 연속해서 나타날 확률의 차이가 존재하는 특성으로 인해 N-gram 방식이 FSN 방식보다 상대적으로 자연스럽고, 다양한 문장 표현이 가능하다.

하지만, 종래에 음성 인식 기법으로 이용되는 FSN 방식의 경우 정의되지 않은 문형 또는 정의된 문형과 일부 다르게 표현한 문장(변형된 문장)들에 대해서는 정확하게 인식해 내지 못하는 문제가 있으며, N-gram 방식의 경우 그에 대응하는 탐색 네트워크가 표현하는 공간이 방대하기 때문에 음성 인식 성능은 제한된 대상 영역에 대해 FSN 탐색 방식보다 상대적으로 낮은 문제점이 있었다.

이에 따라, 본 발명은 FSN 방식과 N-gram 방식을 이용하여 병렬 탐색한 후에 이를 통해 생성된 통합 탐색 네트워크에 대한 재탐색을 수행함으로써, 음성 신호에 대한 음성 인식 성능을 향상시킬 수 있는 다중 탐색 기반의 음성 인식 장치 및 그 방법을 제공하고자 한다.

일 관점에서 본 발명은, 입력된 음성 신호를 인식하는 음성 인식 장치로서, 상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 음성 특징 추출 블록과, 음소들을 통계적으로 모델링한 음향 모델을 저장하는 음향 모델 데이터베이스와, FSN(Finite State Network) 언어 모델 및 N-gram 언어 모델을 저장하는 언어 모델 데이터베이스와, 상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 제 1 음성 탐색과 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하고, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하고, 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 상기 제 3 음성 탐색에 따른 음성 인식 결과를 출력하는 다중 탐색 블록을 포함하는 다중 탐색 기반의 음성 인식 장치를 제공한다.

다른 관점에서 본 발명은, 입력된 음성 신호를 인식하는 음성 인식 방법으로서, 상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 단계와, 상기 추출된 특징 데이터에 대해 음향 모델 및 FSN(Finite State Network) 언어 모델을 이용한 제 1 음성 탐색과 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하는 단계와, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하는 단계와, 상기 특징 데이터에 대해 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 그에 따른 음성 인식 결과를 출력하는 단계를 포함하는 다중 탐색 기반의 음성 인식 방법을 제공한다.

본 발명은, FSN 방식, N-gram 방식 등의 기법을 이용하여 입력된 음성 신호를 인식하는 종래 방법과는 달리, FSN 방식 및 N-gram 방식을 이용한 음성 탐색을 병렬 처리한 후, 이에 따라 출력되는 제 1 단어 격자와 제 2 단어 격자를 통해 통합 탐색 네트워크를 생성하고, 생성된 통합 탐색 네트워크를 통해 음성 탐색을 재수행하여 음성 인식 결과를 출력함으로써, FSN 방식 및 N-gram 방식의 다중 탐색을 통해 입력된 음성 신호에 대한 음성 인식률을 향상시킬 수 있다.

본 발명의 기술 요지는, 다중 탐색을 수행하는 음성 인식 장치를 이용하여 입력된 음성 신호의 특징 데이터를 추출하고, 추출된 특징 데이터를 이용하여 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색을 병렬로 수행한 후, 이로부터 출력되는 각 단어 격자를 이용하여 통합 탐색 네트워크를 생성하며, 생성된 통합 탐색 네트워크와 특징 데이터를 이용하여 음성 탐색을 재수행하고, 이에 따른 음성 인식 결과를 출력한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명의 바람직한 실시 예에 따라 다중 탐색기를 이용하여 입력된 음성 신호를 인식하는데 적합한 음성 인식 장치의 블록 구성도로서, 음성 특징 추출 블록(102), 다중 탐색 블록(104), 음향 모델 데이터베이스(106) 및 언어 모델 데이터베이스(108)를 포함한다.

도 1을 참조하면, 음성 특징 추출 블록(102)은 음성 탐색을 위한 특징 벡터를 추출하는 것으로, 인식하고자 하는 음성 신호가 입력되면, 입력되는 음성 신호에 대한 MFCC(Mel-Frequency Cepstrum Coefficients, 이하‘MFCC’라 함), LPCC(Linear Prediction Cepstral Coefficients, 이하‘LPCC’라 함), EIH(Ensemble Interval Histogram, 이하‘EIH’라 함), SMC (Short-time Modified Coherence, 이하‘SMC’라 함), PLP(Perceptual Linear Prediction, 이하‘PLP’ 라 함) 등의 분석 기법으로 특징 벡터를 추출한 후에, 이러한 음성 신호의 특징 벡터를 다중 탐색 블록(104)으로 전달한다.

그리고, 다중 탐색 블록(104)은 음성 특징 추출 블록(102)으로부터 전달되는 음성 신호의 특징 벡터(특징 데이터)를 이용하여 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색을 병렬적으로 수행하는데, 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 FSN 언어 모델(즉, FSN 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색하는 방식으로 FSN 방식의 음성 탐색이 수행되며, FSN 방식의 음성 탐색에 따른 음성 인식 결과를 단어 격자 형식으로 출력함과 동시에 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 N-gram 언어 모델(즉, N-gram 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색하는 방식으로 N-gram 방식의 음성 탐색이 수행되며, N-gram 방식의 음성 탐색에 따른 음성 인식 결과를 단어 격자 형식으로 출력한다.

여기에서, 단어 격자 형식으로 출력하는 것은 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색을 통해 관측 확률, 언어 모델 확률 등이 가장 높은 우선 순위 단어열과 함께 기 설정된 확률값보다 상대적으로 높은(즉, 가능성이 높은) 다수의 차순위 단어열을 함께 출력하는 것을 의미한다.

또한, 다중 탐색 블록(104)은 FSN 방식의 음성 인식 결과와 N-gram 방식의 음성 인식 결과에 따라 각각의 단어 격자를 포함하는 FSN 방식의 통합 탐색 네트워크를 생성한 후에, 생성된 통합 탐색 네트워크(즉, 통합 언어 모델)와 음향 모델 데이터베이스(106)로부터 추출된 음향 모델을 기반으로 음성 특징 추출 블록(102)으로부터 전달된 특징 데이터(특징 벡터)를 이용하여 음성 탐색을 재수행함으로써, 관측 확률, 언어 모델 확률 등이 가장 높은 음성 인식 결과를 출력한다.

한편, 음향 모델 데이터베이스(106)는 음성 데이터베이스로부터 한국어 음소들의 통계적 현상을 HMM(Hidden Markov Model, 이하‘HMM’이라 함) 등의 기법으로 모델링한 후, 그에 대응하는 음향 모델 정보를 데이터베이스화하여 저장해 두고, 이러한 음향 모델 정보들이 필요에 따라 추출되어 다중 탐색 블록(104)으로 제공된다.

또한, 언어 모델 데이터베이스(108)는 FSN 방식의 언어 모델 정보, N-gram 방식의 언어 모델 정보 등이 데이터베이스화하여 저장되어 있으며, 이러한 각 언어 모델 정보들은 필요에 따라 추출되어 다중 탐색 블록(104)으로 제공된다.

다음에, 상술한 바와 같은 구성을 갖는 다중 탐색 기반의 음성 인식 장치에서 FSN 방식의 음성 탐색 및 N-gram 방식의 음성 탐색을 병렬적으로 수행한 후에 이에 따라 생성된 통합 탐색 네트워크를 기반으로 음성 탐색을 재수행하여 음성 인식 결과를 출력하는 다중 탐색 블록에 대해 설명한다.

도 2는 본 발명에 따라 FSN 방식과 N-gram 방식을 포함하는 다중 탐색을 통해 음성 인식을 수행하는데 적합한 다중 탐색 블록의 구성도로서, 다중 탐색 블록(104)은 제 1 음성 탐색부(202), 제 2 음성 탐색부(204), 통합 탐색 네트워크 생성부(206) 및 제 3 음성 탐색부(208)를 포함한다.

도 2를 참조하면, 제 1 음성 탐색부(202)는 FSN 방식의 음성 탐색 모듈을 포함하는 것으로, 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 FSN 언어 모델(즉, FSN 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색하고, FSN 방식의 음성 탐색에 따른 음성 인식 결과를 제 1 단어 격자로 출력한다.

또한, 제 2 음성 탐색부(204)는 N-gram 방식의 음성 탐색 모듈을 포함하는 것으로, 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 N-gram 언어 모델(즉, N-gram 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색하며, N-gram 방식의 음성 탐색에 따른 음성 인식 결과를 제 2 단어 격자로 출력한다.

다음에, 통합 탐색 네트워크 생성부(206)는 제 1 음성 탐색부(202)로부터 출력된 FSN 방식의 음성 인식 결과(제 1 단어 격자)와 제 2 음성 탐색부(204)로부터 출력되는 N-gram 방식의 음성 인식 결과(제 2 단어 격자)에 따라 각각의 단어 격자를 포함하는 FSN 방식의 통합 탐색 네트워크를 생성하여 제 3 음성 탐색부(208)로 전달한다. 여기에서, 통합 탐색 네트워크는 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색을 통해 관측 확률, 언어 모델 확률 등이 가장 높은 우선 순위 단어열과 함께 기 설정된 확률값보다 상대적으로 높은(즉, 가능성이 높은) 다수의 차순위 단어열을 포함하는 제 1 단어 격자와 제 2 단어 격자로 구성된다.

이어서, 제 3 음성 탐색부(208)는 통합 탐색 네트워크 생성부(206)로부터 전달되는 통합 탐색 네트워크(즉, 통합 언어 모델)와 음향 모델 데이터베이스(106)로부터 추출된 음향 모델을 기반으로 음성 특징 추출 블록(102)으로부터 전달된 특징 데이터(특징 벡터)를 이용하여 음성 탐색을 재수행하며, 재수행된 음성 탐색에 따라 관측 확률, 언어 모델 확률 등이 가장 높은 음성 인식 결과를 출력한다.

다음에, 상술한 바와 같이 다중 탐색을 수행하는 음성 인식 장치를 이용하여 입력된 음성 신호의 특징 데이터를 추출하고, 추출된 특징 데이터를 이용하여 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색을 병렬로 수행한 후, 이로부터 출력되는 각 단어 격자를 이용하여 통합 탐색 네트워크를 생성하며, 생성된 통합 탐색 네트워크와 특징 데이터를 이용하여 음성 탐색을 재수행하고, 이에 따른 음성 인식 결과를 출력하는 과정에 대해 설명한다.

도 3은 본 발명의 일 실시 예에 따라 FSN 방식과 N-gram 방식을 포함하는 다중 탐색을 통해 음성 인식을 수행하는 과정을 도시한 플로우차트이다.

도 3을 참조하면, 다중 탐색 기반의 음성 인식 장치에 인식하고자 하는 음성 신호가 입력되면(단계302), 음성 특징 추출 블록(102)에서는 입력되는 음성 신호에 대한 특징 벡터(특징 데이터)를 추출한 후에, 이러한 음성 신호의 특징 벡터를 다 중 탐색 블록(104)으로 전달한다(단계304). 여기에서, 특징 벡터는, 예를 들어 MFCC, LPCC, EIH, SMC 및 PLP 중 어느 하나의 기법을 이용하여 추출될 수 있다.

그리고, 다중 탐색 블록(104)의 제 1 음성 탐색부(202)에서는 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 FSN 언어 모델(FSN 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색한다(단계306).

이에 따라, 제 1 음성 탐색부(202)에서는 FSN 방식의 음성 탐색에 따른 음성 인식 결과를 단어 격자 형식에 따라 제 1 단어 격자로 출력한다(단계308).

이와 함께, 다중 탐색 블록(104)의 제 2 음성 탐색부(204)에서는 음향 모델 데이터베이스(106)로부터 추출된 음향 모델과 언어 모델 데이터베이스(108)로부터 추출된 N-gram 언어 모델(N-gram 탐색 네트워크)을 이용하여 음성 신호의 특징 데이터를 탐색한다(단계310).

이에 따라, 제 2 음성 탐색부(204)에서는 N-gram 방식의 음성 탐색에 따른 음성 인식 결과를 단어 격자 형식에 따라 제 2 단어 격자로 출력한다(단계312).

다음에, 다중 탐색 블록(104)의 통합 탐색 네트워크 생성부(206)에서는 제 1 음성 탐색부(202)로부터 출력된 FSN 방식의 제 1 단어 격자와 제 2 음성 탐색부(204)로부터 출력되는 N-gram 방식의 제 2 단어 격자에 따라 각각의 단어 격자를 포함하는 FSN 방식의 통합 탐색 네트워크를 생성하여 제 3 음성 탐색부(208)로 전달한다(단계314).

그리고, 다중 탐색 블록(104)의 제 3 음성 탐색부(208)에서는 통합 탐색 네 트워크 생성부(206)로부터 전달되는 통합 탐색 네트워크와 음향 모델 데이터베이스(106)로부터 추출된 음향 모델을 기반으로 음성 특징 추출 블록(102)으로부터 전달된 특징 데이터(특징 벡터)를 이용하여 음성 탐색(단어열 탐색)을 최종적으로 수행한다(단계316).

이어서, 제 3 음성 탐색부(208)에서는 최종적으로 수행된 통합 탐색 네트워크에서의 음성 탐색에 따라 확률이 가장 높은 단어열을 포함하는 음성 인식 결과를 출력한다(단계318).

예를 들면, 도 4a 및 도 4b는 본 발명에 따라 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색에 따른 각각의 음성 인식 결과를 나타낸 제 1 예를 예시한 도면으로,“그런데, 어느 분으로 예약 을 해 드릴까요?”라는 음성 신호가 입력될 경우 FSN 방식의 음성 탐색에 따른 제 1 단어 격자는 도 4a와 같이 나타나고, N-gram 방식의 음성 탐색에 따른 제 2 단어 격자는 도 4b와 같이 나타날 수 있는데, 이는 입력된 음성 신호에 대응하는 문장의 단어열이 FSN 탐색 네트워크(FSN 언어 모델)에 정의되어 있지 않거나 혼돈을 일으키는 유사한 단어열이 많고, N-gram 탐색 네트워크(N-gram 언어 모델)에서 해당 음성 신호에 대응하는 문장의 단어열이 나타날 확률이 높은 경우(파란색 화살표가 연결된 단어열이 음성 인식 정답에 가까운 단어열을 의미함)로, 제 1 단어 격자와 제 2 단어 격자를 포함하는 통합 탐색 네트워크를 통해 최종적인 음성 탐색을 수행하면, 그 음성 인식 결과로서 제 2 단어 격자 중“그런데 어느 분으로 예약 해 드릴까요”를 출력할 수 있다.

또한, 도 5a 및 도 5b는 본 발명에 따라 FSN 방식의 음성 탐색과 N-gram 방 식의 음성 탐색에 따른 각각의 음성 인식 결과를 나타낸 제 2 예를 예시한 도면으로,“네 언제 예약 하실 건가요?”라는 음성 신호가 입력될 경우 FSN 방식의 음성 탐색에 따른 제 1 단어 격자는 도 5a와 같이 나타나고, N-gram 방식의 음성 탐색에 따른 제 2 단어 격자는 도 5b와 같이 나타날 수 있는데, 이는 FSN 탐색 네트워크(FSN 언어 모델)에 입력된 음성 신호에 대응하는 문장의 단어열이 정의(파란색 화살표가 연결된 단어열이 음성 인식 정답에 가까운 단어열을 의미함)되어 있고, N-gram 탐색 네트워크(N-gram 언어 모델)에서 해당 음성 신호에 대응하는 문장의 단어열이 나타날 확률이 경쟁 단어열인“네 언제 이용 하실 건가요”보다 낮은 경우로, 제 1 단어 격자와 제 2 단어 격자를 포함하는 통합 탐색 네트워크를 통해 최종적인 음성 탐색을 수행하면, 그 음성 인식 결과로서 제 1 단어 격자 중“네 언제 예약 하실 건가요”를 출력할 수 있다.

따라서, 입력된 음성 신호에 대해 FSN 방식의 음성 탐색 및 N-gram 방식의 음성 탐색을 병렬적으로 수행한 후에 이에 따라 생성된 통합 탐색 네트워크를 기반으로 음성 탐색을 재수행하여 음성 인식 결과를 출력함으로써, 인식하고자 하는 음성 신호에 대한 음성 인식 결과의 정확성을 더욱 향상시킬 수 있다.

이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

도 1은 본 발명의 바람직한 실시 예에 따라 다중 탐색기를 이용하여 입력된 음성 신호를 인식하는데 적합한 음성 인식 장치의 블록 구성도,

도 2는 본 발명에 따라 FSN 방식과 N-gram 방식을 포함하는 다중 탐색을 통해 음성 인식을 수행하는데 적합한 다중 탐색 블록의 구성도,

도 3은 본 발명의 일 실시 예에 따라 FSN 방식과 N-gram 방식을 포함하는 다중 탐색을 통해 음성 인식을 수행하는 과정을 도시한 플로우차트,

도 4a 및 도 4b는 본 발명에 따라 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색에 따른 각각의 음성 인식 결과를 나타낸 제 1 예를 예시한 도면,

도 5a 및 도 5b는 본 발명에 따라 FSN 방식의 음성 탐색과 N-gram 방식의 음성 탐색에 따른 각각의 음성 인식 결과를 나타낸 제 2 예를 예시한 도면.

<도면의 주요부분에 대한 부호의 설명>

102 : 음성 특징 추출 블록 104 : 다중 탐색 블록

106 : 음향 모델 데이터베이스 108 : 언어 모델 데이터베이스

202 : 제 1 음성 탐색부 204 : 제 2 음성 탐색부

206 : 통합 탐색 네트워크 생성부 208 : 제 3 음성 탐색부

Claims

입력된 음성 신호를 인식하는 음성 인식 장치로서,

상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 음성 특징 추출 블록과,

음소들을 통계적으로 모델링한 음향 모델을 저장하는 음향 모델 데이터베이스와,

FSN(Finite State Network) 언어 모델 및 N-gram 언어 모델을 저장하는 언어 모델 데이터베이스와,

상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 제 1 음성 탐색과 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하고, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하고, 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 상기 제 3 음성 탐색에 따른 음성 인식 결과를 출력하는 다중 탐색 블록

을 포함하는 다중 탐색 기반의 음성 인식 장치.
제 1 항에 있어서,

상기 다중 탐색 블록은,

상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 상기 제 1 음성 탐색을 수행하여 제 1 단어 격자를 출력하는 제 1 음성 탐색부와,

상기 추출된 특징 데이터에 대해 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 수행하여 제 2 단어 격자를 출력하는 제 2 음성 탐색부와,

상기 제 1 단어 격자 및 제 2 단어 격자를 통합하여 FSN 방식의 상기 통합 탐색 네트워크를 생성하는 통합 탐색 네트워크 생성부와,

상기 특징 데이터에 대해 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 그에 따른 음성 인식 결과를 출력하는 제 3 음성 탐색부

를 포함하는 다중 탐색 기반의 음성 인식 장치.
제 1 항 또는 제 2 항에 있어서,

상기 특징 데이터는, MFCC(Mel-Frequency Cepstrum Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 및 PLP(Perceptual Linear Prediction) 중 어느 하나의 기법으로 추출된 특징 벡터인 다중 탐색 기반의 음성 인식 장치.
제 1 항 또는 제 2 항에 있어서,

상기 음향 모델은, HMM(Hidden Markov Model) 기법으로 모델링된 다중 탐색 기반의 음성 인식 장치.
제 2 항에 있어서,

상기 제 1 단어 격자 및 제 2 단어 격자는, 상기 FSN 방식 및 N-gram 방식의 각 음성 탐색을 수행하여 관측 확률 및 언어 모델 확률이 가장 높은 우선 순위 단어열과, 기 설정된 확률값보다 상대적으로 높은 다수의 차순위 단어열을 포함하여 출력되는 다중 탐색 기반의 음성 인식 장치.
입력된 음성 신호를 인식하는 음성 인식 방법으로서,

상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 단계와,

상기 추출된 특징 데이터에 대해 음향 모델 및 FSN(Finite State Network) 언어 모델을 이용한 제 1 음성 탐색과 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하는 단계와,

병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하는 단계와,

상기 특징 데이터에 대해 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 그에 따른 음성 인식 결과를 출력하는 단계

를 포함하는 다중 탐색 기반의 음성 인식 방법.
제 6 항에 있어서,

상기 특징 데이터를 추출하는 단계는, MFCC(Mel-Frequency Cepstrum Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 및 PLP(Perceptual Linear Prediction) 중 어느 하나의 기법으로 상기 음성 신호에 대응하는 특징 벡터를 추출하는 다중 탐색 기반의 음성 인식 방법.
제 6 항에 있어서,

상기 병렬 수행하는 단계는,

상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 상기 제 1 음성 탐색을 수행하여 제 1 단어 격자를 출력하는 단계와,

상기 추출된 특징 데이터에 대해 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 수행하여 제 2 단어 격자를 출력하는 단계

를 포함하는 다중 탐색 기반의 음성 인식 방법.
제 6 항에 있어서,

상기 통합 탐색 네트워크를 생성하는 단계는, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따라 관측 확률 및 언어 모델 확률이 가장 높은 우선 순위 단어열과 기 설정된 확률값보다 상대적으로 높은 다수의 차순위 단어열을 포함하여 FSN 방식으로 상기 통합 탐색 네트워크를 생성하는 다중 탐색 기반의 음성 인식 방법.
제 7 항 내지 제 9 항 중 어느 한 항에 있어서,

상기 음향 모델은, HMM(Hidden Markov Model) 기법으로 모델링된 다중 탐색 기반의 음성 인식 방법.