KR20140082157A

KR20140082157A - 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법

Info

Publication number: KR20140082157A
Application number: KR1020120151688A
Authority: KR
Inventors: 김동현
Original assignee: 한국전자통신연구원
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2014-07-02
Also published as: US9378742B2; US20140180689A1

Abstract

본 발명에 의한 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법이 개시된다.
본 발명에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database); 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단을 포함한다.

Description

다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법{APPARATUS FOR SPEECH RECOGNITION USING MULTIPLE ACOUSTIC MODEL AND METHOD THEREOF}

본 발명은 음성 인식 방법에 관한 것으로, 특히, 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 그 병렬 인식을 수행한 결과로 선택된 단어열을 출력하도록 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법에 관한 것이다.

음성인식이 핸드폰 모바일 네트웍을 이용한 온라인 서비스로 확대 됨에 따라, 음성인식 서버의 구성에 대한 연구도 많이 진행되고 있다. 특히 Google은 모바일 음성인식 검색 서비스를 도입하면서 Clustered 음향 모델 방법을 제안하였다. Google의 모델 분류 기준은 모델 state의 여러 Gaussian들이 실제 환경에서 점유된 가중치(weight)가 변한다는 가정에 있다. 그래서 수집한 음성 데이터를 먼저 인식을 통해 모델열로 변환하고, 모델 state의 Gaussian 가중치와 분류된 centroid들에 있는 모델 state의 Gaussian 가중치와의 거리값을 KL-divergence로 계산하여 가까운 centroid로 분류시키는 방법이다. 이를 vector quantization(VQ) 방법으로 반복하여 Clustered 음향 모델을 생성한다. 이 방법은 음향학적 조건에 따라 Gaussian 가중치가 달라진다는 점을 활용하는데, 인식과정에서 Clustered 음향모델을 활용하기 위해 먼저 인식을 하여 모델 state열을 결정하는 2-pass 시스템을 구성해야 하고, 상대적으로 화자 변이를 잘 표현하지 못하며, 데이터를 분류하여 Clustered 모델을 많이 생성할수록 모델링에 이용되는 데이터 양이 줄어드는 단점이 있다.

그리고 MS(Microsoft)에서도 음향모델을 분류하는 방법을 제안하였는데, 화자 적응 및 화자 인식에 사용되던 기술인 eigenVoice 벡터와 eigenChannel 벡터를 하나의 수식으로 통합하여 i-vector로 표현하였으며 화자 및 channel에 대한 분류를 하나의 행렬로 혼합하여 나타낼 수 있다고 제안하였다. 각 발화 별로 다르게 생성되는 i-vector 간의 차이를 이용하여 계층적으로 음향학적 특성을 분류하였는데, 화자 요인, 환경 요인, channel 특성 등을 한번의 수식으로 포괄하여 다루기에는 무리가 있고, Clustered 음향모델 효과가 단순 음향학적 차이를 구해서 나타난 것인지, 화자나 환경 잡음 등에 강인하게 나타난 것인지 등을 알아내기가 불분명하다. 그리고 이 방법 역시 분류모델을 선정하기 위해서는 i-vector 값을 구해야 하기 때문에 2-pass 인식 시스템을 구성해야 한다는 단점이 있다.

따라서 이러한 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 트리기반 Gaussian mixture model(GMM) 유사도 검색을 빠르게 수행하여 GMM에 대응하는 hidden Markov model(HMM) 기반인 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법을 제공하는데 있다.

그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적들을 달성하기 위하여, 본 발명의 한 관점에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database); 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단을 포함할 수 있다.

바람직하게, 상기 모델생성 수단은 수집된 상기 음성 데이터로부터 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성부; 추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류부; 생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류부; 및 생성된 상기 환경분류 데이터 그룹을 상기 화자분류 HMM 그룹에 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델인 음향모델 생성부를 포함하는 것을 특징으로 한다.

바람직하게, 상기 화자 분류부는 추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며, 추출된 상기 스펙트럴 데이터를 같은 음성데이터에 대응하는 켑스트럴 화자분류 데이터 그룹에 따라 스펙트럴 화자분류 데이터 그룹을 생성하고, 생성된 상기 화자독립 HMM에 켑스트럴 화자분류 데이터 그룹으로 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고, 켑스트럴 화자분류 데이터 그룹으로 이진 트리 기반의 켑스트럴 화자분류 GMM 그룹을 생성하는 것을 특징으로 한다.

바람직하게, 상기 환경 분류부는 생성된 상기 캡스트럴 화자분류 HMM 그룹을 도메인 변환 연산을 통해 스펙트럴 화자분류 HMM 그룹으로 변환하고 상기 스펙트럴 화자분류 데이터 그룹을 같은 화자 분류로 대응하는 상기 스펙트럴 화자분류 HMM 그룹에 스펙트럴 환경적응하여 각 데이터 마다 변환 매개변수를 생성하고, 생성된 상기 변환 매개변수를 환경 기준으로 분류하여 그 분류한 결과로 같은 음성데이터에 대응하는 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 한다.

바람직하게, 상기 음향모델 생성부는 생성된 상기 화자분류 각각의 캡스트럴 환경분류 데이터 그룹을 같은 화자분류로 대응하는 캡스트럴 화자분류 HMM에 캡스트럴 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 한다.

바람직하게, 상기 음성인식 수단은 사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출부; 추출된 상기 특징 데이터와 기 저장된 상기 트리기반의 GMM 간의 유사도를 계산하여 그 계산한 결과에 따라 GMM에 대응하는 HMM 기반의 다중 모델을 선택하는 모델 선택부; 선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식부; 및 수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택부를 포함하는 것을 특징으로 한다.

바람직하게, 상기 모델 선택부는 상기 이진 트리 기반의 GMM인 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하여 대응하는 HMM 다중 모델을 선택하는 것을 특징으로 한다.

본 발명의 다른 한 관점에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법은 다양한 잡음 환경에서 수집된 음성 데이터를 음성 데이터 DB(Database)에 저장하는 단계; 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 단계; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 단계를 포함할 수 있다.

바람직하게, 상기 모델생성 단계는 수집된 상기 음성 데이터로부터 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성단계; 추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류단계; 생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류단계; 및 생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성단계를 포함하는 것을 특징으로 한다.

바람직하게, 상기 화자 분류단계는 추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며, 추출된 상기 스펙트럴 데이터를 같은 음성데이터에 대응하는 켑스트럴 화자분류 데이터 그룹에 따라 스펙트럴 화자분류 데이터 그룹을 생성하고, 생성된 상기 화자독립 HMM에 켑스트럴 화자분류 데이터 그룹으로 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고, 켑스트럴 화자분류 데이터 그룹으로 이진 트리 기반의 켑스트럴 화자분류 GMM 그룹을 생성하는 것을 특징으로 한다.

바람직하게, 상기 환경 분류단계는 생성된 상기 캡스트럴 화자분류 HMM 그룹을 도메인 변환 연산을 통해 스펙트럴 화자분류 HMM 그룹으로 변환하고 상기 스펙트럴 화자분류 데이터 그룹을 같은 화자 분류로 대응하는 상기 스펙트럴 화자분류 HMM 그룹에 스펙트럴 환경적응하여 각 데이터 마다 변환 매개변수를 생성하고, 생성된 상기 변환 매개변수를 환경 기준으로 분류하여 그 분류한 결과로 같은 음성데이터에 대응하는 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 한다.

바람직하게, 상기 음향모델 생성단계는 생성된 상기 화자분류 각각의 캡스트럴 환경분류 데이터 그룹을 같은 화자분류로 대응하는 캡스트럴 화자분류 HMM 에 캡스트럴 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 한다.

바람직하게, 상기 음성인식 단계는 사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출단계; 추출된 상기 특징 데이터와 기 저장된 상기 트리기반의 GMM 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택단계; 선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식단계; 및 수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택단계를 포함하는 것을 특징으로 한다.

바람직하게, 상기 모델 선택단계는 상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하여 대응하는 HMM 다중 모델을 선택하는 것을 특징으로 한다.

이를 통해, 본 발명은 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 함으로써, 기존에 하나의 모델을 이용하여 수행해야 했던 실시간 전처리와 적응 기법의 한계를 넘는 성능 향상을 기대할 수 있는 효과가 있다.

또한, 본 발명은 빠르게 다중 모델을 선택하여 병렬 인식 처리가 가능한 구성이기 때문에 현재 서비스 되는 모든 온라인 음성인식 시스템에 적용될 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 화자 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 환경 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 이진 트리로 구성된 음향 모델을 나타낸다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면을 나타낸다.
도 6은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법을 나타낸다.

이하에서는, 본 발명의 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법을 첨부한 도 1 내지 도 6을 참조하여 설명한다. 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 상세히 설명한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.

특히, 본 발명에서는 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 하는 새로운 음성 인식 방안을 제안한다.

도 1은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치를 나타낸다.

도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 음성을 인식하기 위한 장치는 모델생성 수단(110), 음성 데이터 DB(database)(120), 음성인식 수단(130), 발음 모델 DB(140), 및 언어 모델 DB(150) 등을 포함하여 구성될 수 있다.

모델생성 수단(110)은 수집된 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 다중 음향 모델 예컨대, 화자 음향 모델과 환경 음향 모델 등을 생성할 수 있다. 여기서, 수집된 음성 데이터는 다양한 화자에 다양한 조건의 환경 잡음이 섞여 있는 데이터일 수 있다.

이러한 모델생성 수단(110)은 데이터 구성부(111), 화자 분류부(112), 환경 분류부(113), 음향모델 생성부(114) 등으로 이루어질 수 있는데, 도 2 내지 도3을 참조하여 설명한다.

도 2는 본 발명의 일 실시예에 따른 화자 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.

도 2에 도시한 바와 같이, 데이터 구성부(111)는 수집된 음성 데이터에서 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 특징 벡터 데이터를 추출할 수 있다.

화자 분류부(112)는 추출된 특징 벡터 데이터를 화자 기준으로 분류하여 화자 중심의 계층적 모델 즉, 이진 트리 기반의 화자분류 HMM(hidden Markov model) 그룹, 화자분류 GMM(hidden Markov model) 그룹, 및 화자분류 데이터 그룹을 생성할 수 있다.

구체적으로 설명하면 다음과 같다. 먼저 화자 분류부(112)는 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 생성된 화자독립 HMM에 켑스트럴 데이터를 화자 분류기로 분류한 화자분류 데이터 그룹으로 화자 적응을 수행하여 이진 트리 기반의 화자분류 HMM 그룹을 생성한다. 그리고, 켑스트럴 화자분류 데이터 그룹을 각각 직접 학습하여 이진 트리 기반의 화자분류 GMM 그룹을 생성하게 된다.

화자 분류부(112)는 캡스트럴 데이터를 기반으로 화자를 분류하여 화자분류 GMM 그룹을 생성하게 된다. 여기서 화자 분류부(112)는 예컨대, eigenVoice 기법 또는 GMM 화자 분류 기법 등을 이용하여 화자를 분류할 수 있다.

이때, 잘 알려진 eigenVoice 기법은 음성 데이터를 인덱스에 정의된 화자별로 화자 독립 모델을 이용하여 화자 적응된 HMM들을 생성한 뒤에, 각 HMM의 mean vector를 차수와 mixture 수, state 수를 곱한 supervector들의 행렬로 만들고 이 행렬의 co-variance 행렬을 이용한 PCA(Primary Component Analysis) 분석법으로 eigenvector 들을 도출할 수 있다.

이 eigenvector 들을 eigenVoice로 호칭하는데, 다음의 [수식 1]처럼 특정 화자의 s state, g 번째 Gaussian인 평균벡터

는 화자 독립 모델의 평균벡터 μ _s,g와 K개의 eigenVoice e _s _,g,k들의 가중치 w_k 합으로 표현할 수 있다고 가정하는 방법이다.

[수학식 1]

여기서 모든 발화에 대한 가중치는 eigenVoice Decomposition 방법을 이용하여 구할 수 있는데, 다음의 [수학식 2]처럼 t 프레임 길이를 갖는 발화문의 특징벡터 x ^t를 화자 독립 모델의 평균 μ _s,g 및 분산 Σ_s,g 값과 함께 표현된 보조함수

에 입력하여 가중치로 편미분한 수식으로부터 얻는다.

[수학식 2]

여기서,

는 t 프레임에서 s state, g 가우시안의 사후확률을 나타낸다.

이러한 가중치 분포 공간을 이진 분류 기법으로 나눠 화자 분류 데이터 트리를 형성하고, 각각 트리에 분류된 데이터를 화자 독립 모델에 적응하여 화자분류 HMM을 생성하고, 분류된 데이터로 화자분류 GMM을 생성한다. 이진 트리로 분류된 켑스트럴 데이터와 같은 음성데이터 인덱스인 스펙트럴 데이터의 이진 분류 트리도 생성한다.

도 3은 본 발명의 일 실시예에 따른 환경 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.

도 3에 도시한 바와 같이, 환경 분류부(113)는 캡스트럴 화자분류 HMM 그룹, 및 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 캡스트럴 환경분류 데이터 그룹을 생성할 수 있다.

음향모델 생성부(114)는 생성된 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 이진 트리 기반의 환경 중심의 계층적 모델 즉, 캡스트럴 환경분류 GMM 그룹, 캡스트럴 환경분류 HMM 그룹을 생성하게 된다.

구체적으로 설명하면 다음과 같다. 먼저 환경 분류부(113)는 이진 트리로 분류된 켑스트럴 화자분류 HMM을 DCT^-1(Inverse Discrete Cosine Transform) 역변환과 exponential(exp) 연산을 통해 스펙트럴 화자분류 HMM으로 생성하게 된다.

환경 분류부(113)는 생성된 스펙트럴 화자분류 HMM과 각 발화문인 스펙트럴 화자분류 데이터를 기반으로 스펙트럴 도메인에서 MLLR(Maximum Likelihood Linear Regression) 환경 적응을 수행하여 변환 매개변수를 생성하게 된다.

다음의 [수학식 3]처럼 스펙트럴 화자분류 HMM의 평균벡터 μ ^spec는 channel 잡음 요소 성분 A 행렬과 additive 잡음 요소 성분 b 벡터의 조합으로 잡음섞인 평균벡터

를 만드는 수식으로 표현할 수 있다. 이때 잡음섞인 평균벡터

는 잡음 요소 변환 행렬 W과 확장된 평균벡터 ξ의 수식으로 바꿔서 정리할 수 있다.

[수학식 3]

이와 같이 입력된 데이터의 잡음 특성을 알기 위해 입력 데이터와 가깝도록 모델의 변환 매개변수를 잡음 성분으로 설정하여 수식을 정리할 수 있다. 이 변환 매개변수를 구하기 위해서 다음의 [수학식 4]처럼 스펙트럴 도메인에서 likelihood가 꺼지는 방법과 유사하도록 이차함수인 보조함수

를 정의하여 사용할 수 있다. 모델의 평균값에만 영향을 준다는 가정을 하면 다음의 [수학식 4]와 같은 보조함수로 정리하여 변환 매개변수 W의 편미분을 통해 잡음 성분을 구할 수 있다.

[수학식 4]

또한 모델의 평균값과 분산값에 동시에 영향을 준다고 가정하면 다음의 [수학식 5]와 같이 정리하여 변환 매개변수의 편미분에 의해 잡음 성분을 구할 수 있다.

[수학식 5]

음향모델 생성부(114)는 이렇게 구한 잡음 성분으로 설정된 변환 매개변수로 하나의 긴 슈퍼벡터(super vector)를 구성하며, 그 구성된 슈퍼벡터를 기반으로 유클리디안 거리값과 이진분류 방식으로 트리 형태의 환경분류 데이터 그룹을 생성하게 된다.

이때, 기본적인 이진 분류는 다음과 같은 과정으로 진행되게 된다.

1)그룹 벡터들의 평균과 표준 편차를 구하고 평균에서 표준 편차만큼 두 centroid를 생성한다.

2)두 centroid를 기준으로 각 벡터들과의 유클리디안 거리값을 계산하여 가까운 쪽으로 그룹을 분류한다.

3)두 개의 그룹에서 각각 평균값을 구해 새로운 centroid로 정하고 새로운 centroid와 이전 centroid 차이가 기준값 이하일 때까지 앞의 2)항목의 과정을 반복한다.

4)이전 분류가 끝났으면 각각의 새로 생긴 그룹의 원소 개수가 분산분포에 대한 기준값보다 적을 때는 분류를 멈추고 그렇지 않을 때는 앞의 1)항목의 과정으로 넘어가 새로운 시작이다.

음향모델 생성부(114)는 트리 형태의 켑스트럴 환경분류 데이터 그룹과 켑스트럴 화자분류 HMM을 기반으로 환경 적응을 수행하여 켑스트럴 환경분류 HMM을 생성하고 환경분류 데이터 그룹을 직접 학습시켜 켑스트럴 환경분류 GMM을 생성하게 된다.

이때, 음향모델 생성부(114)는 MAP(Maximum A Posteriori) 또는 MAPLR(Maximum A Posteriori Linear Regression)을 이용하여 환경 적응을 수행하게 된다.

도 4는 본 발명의 일 실시예에 따른 이진 트리로 구성된 음향 모델을 나타낸다.

도 4에 도시한 바와 같이, 음향모델 생성부(114)는 이렇게 생성된 Clustered 음향 모델을 이진 트리로 구성하게 되는데, 루트 노드(root node)가 화자독립 모델이 된다.

그리고 하부 노드는 화자 분류 모델로 이진 분류되고, 화자분류 모델이 분류 기준값에 따라 더 이상 분류되지 않으면 환경 분류 모델로 이진 분류되어 하부 노드로 생성된다.

중간 노드에서 하부 노드로 분류되는 깊이는 분류 기준값에 따라 개별적으로 결정된다.

음성 데이터 DB(120)는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하고 이렇게 수집된 음성 데이터를 기반으로 생성된 Clustered 음향 모델도 저장할 수 있다.

음성인식 수단(130)은 사용자로부터 음성 데이터를 입력 받으면 입력 받은 음성 데이터의 특징 데이터 추출하고 추출된 특징 데이터와 기 저장된 음향 모델을 기반으로 다중 모델을 선택하여 선택된 다중 모델을 기반으로 음성 데이터를 병렬 인식하며, 그 인식한 결과로 음성 데이터에 상응하는 단어열을 출력할 수 있다.

이러한 음성인식 수단(130)은 특징 추출부(131), 모델 선택부(132), 병렬 인식부(133), 인식 선택부(134) 등으로 이루어질 수 있는데, 도 5를 참조하여 설명한다.

도 5는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면을 나타낸다.

도 5에 도시한 바와 같이, 특징 추출부(131)는 사용자로부터 음성 신호 또는 음성 데이터를 입력 받으면 그 입력 받은 음성 데이터의 특징 데이터를 추출할 수 있다.

모델 선택부(132)는 추출된 특징 데이터와 기 저장된 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 N 개의 다중 모델을 선택할 수 있다.

구체적으로 설명하면 다음과 같다. 먼저 모델 선택부(132)는 사용자로부터 입력된 데이터를 인식 처리하기 위해 적합한 N개의 다중 HMM 모델들을 선택하려면, HMM과 쌍을 이루는 트리 기반 GMM 모델들과 유사도 연산을 수행해야 한다. 본 발명에서는 이러한 인식 처리에 필요한 시간을 줄이기 위해 빠른 유사도 계산 방법을 제안한다.

유사도 계산 방법은 크게 두 가지가 있다. Top-down 방식은 도 4에서 보여지는 것처럼 다음과 같은 방법으로 진행된다.

1)루트 노드에서 시작하고, 중심 노드와 하부 두 노드의 유사도 계산을 동시에 진행하여 유사도가 높은 순으로 N-best 리스트에 올린다.

2)N-best 리스트가 부족하면 하부 노드에서 상기 1)의 과정을 반복한다. N-best리스트가 부족하지 않고 유사도 계산시 중심 노드가 유사도가 더 높으면 이후의 진행을 멈춘다. 반면 N-best 리스트가 부족하지 않고 하부 노드가 유사도가 더 높다면, N-best 리스트에 포함되는 하부 노드에서만 상기 1)의 과정을 반복하게 된다.

N-best 방법은 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 하부 노드로 탐색하면서 낮은 유사도의 모델은 빼고 높은 유사도 모델은 새로 집어 넣는 방법으로 진행된다. 이 Top-down 방법은 입력데이터의 전체 프레임을 이용하여 계산한다.

다른 방법인 Bottom-up 방식은 화자독립 모델을 포함한 트리 분류모델의 전체 모델들을 기준으로 매 프레임 마다 전체 모델에 대한 유사도를 계산하고 N-best 리스트에 올리고, N번째 리스트의 유사도값에서 일정 간격으로 낮춘 기준값 이하의 낮은 유사도 모델들을 버린다. 매 프레임에서 N-best 리스트를 갱신하며 기준값을 점차 N번째 유사도값 가까이 올린다. 그렇게 하여 최종 프레임에서 N-best 모델을 선택하는 방법이다.

병렬 인식부(133)는 선택된 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행할 수 있다.

인식 선택부(134)는 수행한 결과로 인식된 다중 단어열에서 비교 점수가 높은 단어열을 출력할 수 있다. 즉, 인식 선택부(134)는 언어모델 네트워크 즉, 발음 모델과 언어 모델을 기반으로 하는 병렬 인식에서 아크(arc)별 누적 비터비 점수를 비교하고 그 비교한 결과로 비터비 점수가 가장 높은 점수의 단어열을 출력하게 된다.

발음 모델 DB(140)는 발음 모델을, 언어 모델 DB(150)는 언어 모델을 저장할 수 있다.

도 6은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법을 나타낸다.

도 6에 도시한 바와 같이, 본 발명에 따른 음성을 인식하기 위한 장치(이하 음성인식 장치라고 한다)는 사용자로부터 음성 데이터를 입력 받으면 입력 받은 음성 데이터의 특징 데이터 추출할 수 있다(S610).

다음으로, 음성인식 장치는 추출된 특징 데이터와 기 저장된 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 N 개의 다중 모델을 선택할 수 있다(S620).

다음으로, 음성인식 장치는 선택된 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행할 수 있다(S630).

다음으로, 음성인식 장치는 수행한 결과로 인식된 다중 단어열 각각의 비터비 점수를 비교하여 그 비교한 결과로 비터비 점수가 높은 단어열을 출력할 수 있다(S640).

한편, 이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

이상에서 설명한 실시예들은 그 일 예로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110: 모델생성 수단
111: 데이터 구성부
112: 화자 분류부
113: 환경 분류부
114: 음향모델 생성부
120: 음성 데이터 DB
130: 음성인식 수단
131: 특징 추출부
132: 모델 선택부
133: 병렬 인식부
134: 인식 선택부
140: 발음 모델 DB
150: 언어 모델 DB

Claims

다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database);
수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및
사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단;
을 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제1 항에 있어서,
상기 모델생성 수단은,
수집된 상기 음성 데이터로부터 스펙트럴 데이터(spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성부;
추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류부;
생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류부; 및
생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성부;
를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제2 항에 있어서,
상기 화자 분류부는,
추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고 생성된 상기 화자독립 GMM, 상기 화자독립 HMM을 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고,
상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며,
생성된 상기 켑스트럴 화자분류 데이터 그룹과 같은 음성데이터에서 추출한 스펙트럴 데이터로 대응 분류한 스펙트럴 화자분류 데이터 그룹을 생성하고, 화자분류 데이터 그룹을 직접 학습하여 켑스트럴 화자분류 GMM 그룹을 생성하고, 화자독립 모델에 켑스트럴 화자분류 데이터를 화자 적응하여 켑스트럴 화자분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제3 항에 있어서,
상기 환경 분류부는,
생성된 상기 캡스트럴 화자분류 HMM 그룹과 상기 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제4 항에 있어서,
상기 음향모델 생성부는,
생성된 상기 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제1 항에 있어서,
상기 음성인식 수단은,
사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출부;
추출된 상기 특징 데이터와 기 저장된 상기 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택부;
선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식부; 및
수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택부;
를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
제6 항에 있어서,
상기 모델 선택부는,
상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
다양한 잡음 환경에서 수집된 음성 데이터를 음성 데이터 DB(Database)에 저장하는 단계;
수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 단계; 및
사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 단계;
를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제8 항에 있어서,
상기 모델생성 단계는,
수집된 상기 음성 데이터로부터 스펙트럴 데이터(spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성단계;
추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류단계;
생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류단계; 및
생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성단계;
를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제9 항에 있어서,
상기 화자 분류단계는,
추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고 생성된 상기 화자독립 GMM, 상기 화자독립 HMM을 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고,
상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며,
생성된 상기 켑스트럴 화자분류 데이터 그룹과 같은 음성데이터에서 추출한 스펙트럴 데이터로 대응 분류한 스펙트럴 화자분류 데이터 그룹을 생성하고, 화자 분류 데이터 그룹을 직접 학습하여 켑스트럴 화자분류 GMM 그룹을 생성하고, 화자독립 모델에 켑스트럴 화자분류 데이터를 화자 적응하여 켑스트럴 화자분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제10 항에 있어서,
상기 환경 분류단계는,
생성된 상기 캡스트럴 화자분류 HMM 그룹과 상기 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제11 항에 있어서,
상기 음향모델 생성단계는,
생성된 상기 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제8 항에 있어서,
상기 음성인식 단계는,
사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출단계;
추출된 상기 특징 데이터와 기 저장된 상기 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택단계;
선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식단계; 및
수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택단계;
를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
제13 항에 있어서,
상기 모델 선택단계는,
상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.