KR20130068251A

KR20130068251A - 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법

Info

Publication number: KR20130068251A
Application number: KR1020110135230A
Authority: KR
Inventors: 강병옥; 박기영; 이윤근; 전형배; 정호영
Original assignee: 한국전자통신연구원
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-26

Abstract

본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 한다.

Description

최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법{APPARATUS FOR CREATING OPTIMUM ACOUSTIC MODEL BASED ON MAXIMUM LOG LIKELIHOOD AND METHOD THEREOF}

본 발명은 음성인식(speech recognition)에 관한 것으로, 특히 최대 로그 우도법(maximum log likelihood)을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어(gaussian mixture)를 갖는 음향모델(acoustic model)을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법에 관한 것이다.

일반적으로, 음향모델링 기술은 음성인식을 위해 불특정 다수 화자의 다양한 발음특성을 모델링 하는 것을 목적으로, 대용량의 음성데이터로부터 통계적 방식으로 모델 파라메터(parameter) 형태의 참조패턴을 생성하는 기술이다.

음성인식 단계에서는 입력 음성신호를 대상으로 각 참조패턴을 구성하는 모델 파라메터의 스코어(score)를 계산하여 가장 가까운 참조패턴을 찾게 된다. 대용량 어휘 음성인식을 위해서는 다양한 화자, 환경 등을 반영하는 수백 ∼ 수천 시간 단위의 음성 데이터베이스(voice data base)를 필요로 하고, 이 음성데이터 베이스를 모델링 하기 위해서는 많은 수의 모델 파라메터를 갖는 참조패턴을 필요로 한다.

이때, 대개 각 참조패턴을 구성하는 모델 파라메터는 가우시안 분포의 모델 파라메터로 모델링 되고, 앞서 기술한 음향모델 스코어 계산을 위해서는 많은 양의 계산을 필요로 한다. 따라서 각 참조패턴을 구성하는 모델 파라메터의 수가 적을수록 적은 계산량으로 음향모델 스코어를 계산 할 수 있고, 음성인식 수행속도를 줄일 수 있을 것이다.

대한민국 공개특허번호 10-2006-0066483호 공개일자 2006년 06월 16일에는 음성인식을 위한 특징 벡터 추출방법에 관한 기술이 개시되어 있다.

그러나, 종래의 음향모델링 기술에서는 참조 패턴을 구성하는 가우시안 분포의 믹스튜어를 매핑함에 있어서 가우시안 믹스튜어의 수를 음향모델링에 최적화된 수로 결정하지 않고 있어 음향모델링을 위한 계산량이 많아져 음성인식의 속도가 저하되는 문제점이 있었다.

따라서, 본 발명은 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법을 제공하고자 한다.

상술한 본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성 장치로서, 음성 데이터 베이스에 저장된 음성 데이터를 입력받아 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하는 믹스튜어 증가부와, 상기 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 가우시안 믹스튜어를 수렴시키는 반복 훈련부와, 각 트라이폰 유닛 상태에서의 점유 확률을 계산하는 상태 점유 확률 계산부와, 상기 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산하는 상태 로그 우도 계산부와, 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상기 상태 로그 우도 계산부에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑하는 상태별 최대 로그 우도 믹스튜어 판단부와, 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상기매핑된 믹스튜어의 상태 모델을 선택하여 음향모델을 생성하는 최적 음향 모델 생성부를 포함한다.

본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있는 이점이 있다.

도 1은 본 발명의 실시예에 따른 최대 로그 우도법 기반의 최적 음향모델 생성 장치의 블록 구성도,
도 2는 본 발명의 실시예에 따른 최대 로그 우도법 기반의 최적 음향모델 생성 동작 제어 흐름도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

도 1은 본 발명의 실시예에 따른 최대 로그 우드법 기반의 음향 모델 생성장치의 블록 구성을 도시한 것으로, 본 발명의 음향 모델 생성장치는 믹스튜어 증가부(100), 반복 훈련부(102), 상태 점유 확률 계산부(104), 상태 로그 우도 계산부(106), 믹스튜어 증가 판단부(108), 상태별 최대 로그 우도 믹스튜어 판단부(110), 최적 음향모델 생성부(112) 등을 포함한다.

이하, 도 1을 참조하여 음향모델 생성장치 각 구성요소에서의 동작을 상세히 설명하기로 한다.

먼저, 믹스튜어 증가부(100)는 음향모델 생성을 위한 과정 중 하나로 음성 데이터 베이스에 저장된 음성 데이터에 대해 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하고, 믹스튜어 증가 판단부(108)로부터의 제어에 따라 가우시안 믹스튜어의 수를 증가시킨다.

반복 훈련부(102)는 믹스튜어 증가부(100)에 설정된 현재 상태의 가우시안 믹스튜어(gaussian mixture)에 대해 n차례 반복 훈련을 통해 음성 데이터에 보다 적합하게 되는 모델링의 형태로 가우시안 믹스튜어의 평균과 분산이 조정되도록 하여 가우시안 믹스튜어를 수렴시킨다.

상태 점유 확률 계산부(104)는 각 트라이폰 유닛 상태에서의 점유 확률을 계산한다. 이때 점유 확률의 계산값은 상태 로그 우도 계산부(106)에서 계산되는 로그 우도의 계산시 참조될 수 있다.

상태 로그 우도 계산부(106)는 믹스튜어 증가부(100)에 설정된 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산한다. 이때, 상태 로그 우도 계산부(106)는 상태 점유 확률 계산부(104)에서 계산된 점유 확률을 이용하여 로그 우도를 계산하며, 이와 같이 계산된 로그 우도 값은 현재의 음향 모델이 어느 정도 최적화가 이루어졌는지를 판단하는 근거로 활용된다.

믹스튜어 증가 판단부(108)는 음성 데이터의 음향 모델링 훈련 과정 중 믹스튜어 증가부(100)에서 생성되는 가우시안 믹스튜어의 수를 더 증가시킬지를 판단하여 더 증가시켜야 하는 경우 믹스튜어 증가부(100)로 믹스튜어의 수를 증가시키도록 제어한다.

상태별 최대 로그 우도 믹스튜어 판단부(110)는 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상태 로그 우도 계산부(106)에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑(mapping)한다. 예를 들어, 각 트라이폰 유닛에 대해 4개, 8개 또는 10개 등의 믹스튜어가 생성되어 모델링이 수행되고 이에 따른 로그 우도 값이 각각 계산될 수 있는데, 상태별 최대 로그 우도 믹스튜어 판단부(110)는 위 계산된 로그 우도 값 중 가장 높은 로그 우도를 갖는 믹스튜어의 수를 해당 트라이폰 유닛에 매핑시킴으로서, 불필요하게 높은 수의 믹스튜어가 사용되어 계산량이 복잡해지는 것을 방지시키게 된다.

최적 음향 모델 생성부(112)는 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 얻어진 최적 믹스튜어의 상태 모델을 선택하여 최적 음향모델을 생성한다.

도 2는 본 발명의 실시예에 따른 최대 로그 우드법 기반의 음향 모델 생성장치에서 최적의 음향모델을 생성하는 동작 제어 흐름을 도시한 것이다. 이하, 도 1 및 도 2를 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.

먼저, 음향모델 생성 과정이 시작되는 경우, 믹스튜어 증가부(100)는 음성 데이터 베이스에 저장된 음성 데이터를 입력받아(S200) 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하고, 믹스튜어 증가 판단부(108)로부터의 제어에 따라 가우시안 믹스튜어의 수를 증가시킨다(S202).

위와 같이, 각 트라이폰 유닛 상태에 대한 가우시간 믹스튜어가 생성되는 경우, 반복 훈련부(102)는 믹스튜어 증가부(100)에 설정된 현재 상태의 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 음성 데이터에 보다 적합하게 되는 모델링의 형태로 가우시안 믹스튜어의 평균과 분산이 조정되도록 하여 가우시안 믹스튜어를 수렴시킨다(S204).

반복 훈련부(102)로부터 가우시안 믹스튜어가 반복 훈련을 통해 수렴되는 경우, 상태 점유 확률 계산부(104)는 각 트라이폰 유닛 상태에서의 점유 확률을 계산한다(S206). 이때 점유 확률의 계산값은 상태 로그 우도 계산부(106)에서 계산되는 로그 우도의 계산시 참조될 수 있다.

그러면, 상태 로그 우도 계산부(106)는 상태 점유 확률 계산부(104)에서 계산된 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산한다(S208). 이와 같이 계산된 로그 우도 값은 현재의 음향 모델이 어느 정도 최적화가 이루어졌는지를 판단하는 근거로 활용된다.

이어, 상태별 최대 로그 우도 믹스튜어 판단부(110)는 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상태 로그 우도 계산부(106)에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑한다(S210). 예를 들어, 각 트라이폰 유닛에 대해 4개, 8개 또는 10개 등의 믹스튜어가 생성되어 모델링이 수행되고 이에 따른 로그 우도 값이 각각 계산될 수 있는데, 상태별 최대 로그 우도 믹스튜어 판단부는 위 계산된 로그 우도 값 중 가장 높은 로그 우도를 갖는 믹스튜어의 수를 해당 트라이폰 유닛에 매핑시킴으로서, 불필요하게 높은 수의 믹스튜어가 사용되어 계산량이 복잡해지는 것을 방지시키게 된다.

위와 같이, 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 믹스튜어 수가 매핑되는 경우, 최적 음향 모델 생성부(112)는 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 얻어진 최적 믹스튜어의 상태 모델을 선택하여 최적 음향모델을 생성한다(S212).

상기한 바와 같이, 본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 한다.

한편 상술한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

100 : 믹스튜어 증가부 102 : 반복 훈련부
104 : 상태점유 확률 계산부 106 : 상태 로그우도 계산부
108 : 믹스튜어 증가 판단부
110 : 상태별 최대 로그우도 믹스튜어 판단부
112 : 최적 음향모델 생성부

Claims

음성 데이터 베이스에 저장된 음성 데이터를 입력받아 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하는 믹스튜어 증가부와,
상기 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 가우시안 믹스튜어를 수렴시키는 반복 훈련부와,
각 트라이폰 유닛 상태에서의 점유 확률을 계산하는 상태 점유 확률 계산부와,
상기 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산하는 상태 로그 우도 계산부와,
각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상기 상태 로그 우도 계산부에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑하는 상태별 최대 로그 우도 믹스튜어 판단부와,
여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상기매핑된 믹스튜어의 상태 모델을 선택하여 음향모델을 생성하는 최적 음향 모델 생성부
를 포함하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치.