KR20130067854A

KR20130067854A - 코퍼스 기반 언어모델 변별학습 방법 및 그 장치

Info

Publication number: KR20130067854A
Application number: KR1020110134848A
Authority: KR
Inventors: 전형배; 정의석; 정호영; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2011-12-14
Filing date: 2011-12-14
Publication date: 2013-06-25

Abstract

본 발명은 코퍼스 기반 언어모델 변별학습 방법 및 그 장치에 관한 것으로, 언어모델의 변별학습을 훈련하기 위한 코퍼스 DB로부터 음성 특징 벡터를 추출하여 언어모델 변별학습용 DB를 구축하는 단계; 상기 추출된 음성 특징 벡터를 입력받아, 연속어 음성인식을 수행하는 단계; 상기 연속어 음성 인식 수행을 통해 출력되는 음성인식 결과(n-best) 및 정답 문장 점수를 이용하여 언어모델 변별학습을 수행하는 단계; 및 상기 언어모델 변별학습 수행을 통해 훈련된 변별적 언어모델을 생성하는 단계;를 포함한다.

Description

코퍼스 기반 언어모델 변별학습 방법 및 그 장치{APPARATUS AND METHOD FOR LANGUAGE MODEL DISCRIMINATION TRAINING BASED ON CORPUS}

본 발명은 코퍼스 기반 언어모델 변별학습 방법 및 그 장치에 관한 것으로, 보다 상세하게는 언어모델 성능향상을 위한 방법 중 변별 학습을 수행하고, 언어모델 학습용 텍스트 코퍼스로부터 변별학습 훈련용 코퍼스 DB를 구축하는 코퍼스 기반 언어모델 변별학습 방법 및 그 장치에 관한 것이다.

연속어 음성인식 시스템은 딕테이션, 메일 작성, 모바일 문자 작성, 모바일 질의 등에 사용되고 있으며 ngram 방식의 언어모델을 많이 사용한다.

연속어 음성인식은 사용자가 발성한 음성신호를 음향모델과 언어모델을 사용하여 구성한 탐색공간에서 가장 가까운 단어 열을 찾아간다.

상기와 같은 연속어 음성인식에서 중요한 역할을 수행하는 언어모델의 성능 향상을 위하여 다양한 방법이 있는데, 그 중 대표적인 방법이 언어모델 적응학습 방법과 언어모델 변별학습 방법이다.

언어모델 적응학습 방법은 언어모델 학습에 사용한 텍스트 코퍼스가 실제 서비스되는 도메인의 성격을 충분히 반영하지 못하고 있을 때 사용된다. 즉, 언어모델 적응학습 방법은 실제 서비스되는 도메인의 코퍼스를 추가로 수집하여 기존의 언어모델을 도메인 코퍼스의 통계적 특성에 맞게 조정하는 방법이다.

한편, 언어모델 변별학습 방법은 실제 음성인식을 수행하고 이때, 발생한 오류데이터를 최소화하는 방향으로 학습을 수행하는 방법이다. 즉, 언어모델 변별학습 방법은 변별학습을 위한 음성 DB를 미리 구축한 뒤 음성인식을 수행하고, 수행 결과 생성된 오인식 결과들을 예상되었던 정답과 비교하여 오인식 단어들이 나타날 가능성을 낮추는 방법으로 언어모델 값들을 훈련한다.

그러나 상기와 같은 언어모델 변별학습 방법에서 사용되는 일반적인 음향모델 학습용 DB는 음향학적인 특징과 분포를 반영하여 설계되기 때문에 타겟 서비스 도메인의 통계적 특징을 반영하기 쉽지 않다. 따라서, 언어모델 변별학습을 수행하기 위해 추가로 타겟 도메인이 음성 DB를 수집하여 학습에 사용하게 되는데, 방대한 크기의 언어모델에 대해서 충분히 변별력을 키우기 위한 학습 데이터를 수집하는 것은 상당한 시간과 비용이 수반되는 어려움이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로, 언어모델 학습에 사용한 텍스트 코퍼스로부터 변별학습 훈련용 코퍼스 DB를 구축함으로써, 타겟 도메인에 해당하는 상당량의 학습 DB를 손쉽게 구축할 수 있도록 하는 코퍼스 기반 언어모델 변별학습 방법 및 그 장치를 제공하는데 그 목적이 있다.

또한, 본 발명은 변별학습 훈련용 코퍼스 DB를 구축하여 변별 학습을 반복적으로 수행함으로써, 훈련된 변별적 언어모델의 일반화 성능을 높일 수 있도록 하는 코퍼스 기반 언어모델 변별학습 방법 및 그 장치를 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명의 실시예에 따른, 코퍼스 기반 언어모델 변별학습 방법은 언어모델의 변별학습을 훈련하기 위한 코퍼스 DB로부터 음성 특징 벡터를 추출하여 언어모델 변별학습용 DB를 구축하는 단계; 상기 음성 특징 벡터를 입력받아 연속어 음성인식을 수행하는 단계: 상기 연속어 음성 인식 수행을 통해 출력되는 음성인식 결과(n-best) 및 정답 문장 점수를 이용하여 언어모델 변별학습을 수행하는 단계; 및 상기 언어모델 변별학습수행을 통해 훈련된 변별적 언어모델을 생성하는 단계;를 포함한다.

상기와 같은 구성을 갖는 본 발명에 의하면 언어모델 학습에 사용한 텍스트 코퍼스로부터 변별학습 훈련용 코퍼스 DB를 구축함으로써, 타겟 도메인에 해당하는 상당량의 학습 DB를 손쉽게 구축하고 활용할 수 있는 효과가 있다.

또한, 본 발명은 변별학습 훈련용 코퍼스 DB를 구축하여 변별 학습을 반복적으로 수행함으로써, 언어모델 전체에 대하여 전반적으로 변별력을 개선시켜 언어모델의 일반화 성능 향상을 기대할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 코퍼스 기반 언어모델 변별학습 장치를 설명하기 위한 개략적인 구성도이다.
도 2는 본 발명의 실시예에 따른 연속어 음성 인식부를 설명하기 위한 개략적인 세부 구성도이다.
도 3은 본 발명의 실시예에 따른 코퍼스 기반 언어모델 변별학습 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따른 언어모델 변별학습용 DB 구축 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 가상 특징 벡터 생성 방법을 설명하기 위한 흐름도이다.
도 6은 도 5에 설명된 가상 특징 벡터 생성 방법의 이해를 돕기 위한 도면이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선, 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하에서는, 본 발명의 실시예에 따른 코퍼스 기반 언어모델 변별학습 방법 및 그 장치에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.

도 1은 코퍼스 기반 언어모델 변별학습 장치를 설명하기 위한 개략적인 구성도이고, 도 2는 연속어 음성 인식부를 설명하기 위한 개략적인 세부 구성도이다.

도 1 및 도 2를 참조하면, 코퍼스 기반 언어모델 변별학습 장치는 크게 코퍼스 DB부(110), 음성 특징 벡터 추출부(120), 연속어 음성 인식부(130), 언어모델 변별 학습부(140), 변별적 언어모델부(150)를 포함하여 구성된다.

코퍼스 DB부(110)는 언어모델의 변별학습을 훈련하기 위한 즉, 자연어 문장의 사용례들과 이들 사용례에 대한 부속 정보들이 저장되어 있으며, 이를 각각의 사용 용도에 따라 카테고리별로 분류가능한 대규모 언어 DB이다.

코퍼스 DB부(110)는 텍스트 코퍼스 DB(텍스트 코퍼스 DB는 언어모델 학습에 사용한 텍스트 코퍼스이거나 타겟 서비스 도메인 적용을 위한 도메인 코퍼스일 수 있으나, 본 발명에서는 텍스트 코퍼스로 설명한다.)로부터 선정된 변별학습 훈련용 문장을 가상 특징 벡터 형태로 변형 및 생성하여 이를 기반으로 언어모델 변별학습용 DB를 구축한다. 코퍼스 DB로부터 언어모델 변별학습용 DB 구축방법에 대한 구체적인 설명은 후술하기로 한다.

음성 특징 벡터 추출부(120)는 코퍼스 DB부(110)로부터 음성 인식을 위한 음성 특징 벡터를 추출한다.

연속어 음성 인식부(130)는 추출된 음성 특징 벡터를 입력받아 연속어 음성인식을 수행하여, 음성인식 결과(n-best) 및 정답 문장 점수를 출력한다.

이를 위하여 연속어 음성 인식부(130)는 음향 모델부(131), 언어 모델부(132), 특징 벡터 입력부(133), 인식결과(n-best)부(134), 정답 문장 점수부(135)를 포함한다.

음향 모델부(131)와 언어 모델부(132)는 실제 타켓 서비스에서 사용하는 모델을 사용한다. 이때, 언어 모델부(132)는 n-gram 언어모델을 사용한다. n-gram 언어모델은 확률적 언어 모델의 대표적인 것으로, 문자열 등에서 n개의 연속된 (어휘, 음절 등의) 구성요소를 가리키며 자연언어처리 (NLP) 등의 분야에서 통계적인 방법을 사용할 때 쓰인다.

특징 벡터 입력부(133)는 음성 특징 벡터 추출부(120)로부터 특징 벡터를 입력받는다.

인식 결과(n-best)부(134)는 음향 모델부(131), 언어 모델부(132)를 적용하여 연속어 음성 인식으로 n-best 인식 결과를 출력한다. 이때, n-best 인식 결과는 가장 가능성이 높은 n개의 문장을 말한다.

그리고 인식 결과(n-best)부(134)는 n-gram 언어모델을 사용하여 연속어 음성인식을 수행하여 단어격자(Word Lattice) 생성단계와 높은 차수의 언어모델인 n+1 gram 언어모델을 사용하여 rescoring을 수행하여 n-best 인식결과를 생성하는 단계로 나누어 볼 수 있다. N-gram 언어모델을 사용하는 결과를 예를 들면, 먼저 연속어 음성 인식부(130)가 음성신호를 음성특징으로 변환하는 전처리 단에서 음성 특징 벡터를 입력받는다. 이때, 연속어 음성인식(102)을 수행하기 위하여 n-gram 언어모델, 음향모델, 발음사전을 필요로 한다. 연속어 음성 인식부(130)는 n-gram 언어모델을 적용하여 가능성이 높은 인식결과 단어 열을 word lattice (단어 격자) 형태로 출력한다. 이때, word lattice는 가능한 단어 조합을 단어 간 연결 정보로 정의하며, 각 단어의 시작점, 끝점 정보와 각 단어의 acoustic score, 각 단어의 이전 path에 따른 언어모델 score 정보를 모두 포함하고 있다. 다음으로, rescoring 단계에서 n+1 gram 언어모델을 사용하여 word lattice에서 가능성이 높은 N 개의 문장을 선정하게 된다.

정답 문장 점수부(135)는 특징 벡터 입력부(133)로부터 주어진 특징 데이터에 대하여 정답 문장의 단어열의 음성인식 점수를 출력한다. 이때, 정답 문장 점수부(135)는 음향 모델부(131), 언어 모델부(132)를 적용하여 최적의 음향 모델 스테이트(state) 경계, 음소 경계, 단어 경계 및 음성 인식 점수를 찾는 force alignment 방법을 사용하여 음성인식 점수를 출력한다.

언어모델 변별학습부(140)는 상기와 같이 출력되는 음성인식 결과(n-best) 및 정답 문장 점수를 이용하여 언어모델 변별학습을 수행한다. 이때, 언어모델 변별학습은 기존에 몇 가지 방법이 제안되어 있으며 본 발명에서는 구체적인 변별학습 방법을 제안하지 않도록 하겠다.

변별적 언어모델부(150)는 언어모델 변별학습을 통해 새로 훈련된 언어 모델이다.

이하, 코퍼스 기반 언어모델 변별학습 방법을 도 3을 참조하여 상세하게 설명한다. 도 3은 코퍼스 기반 언어모델 변별학습 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 먼저 코퍼스 기반 언어모델 변별학습 장치는 언어모델의 변별학습을 훈련하기 위한 언어모델 변별학습용 DB를 구축한다.(S301)

다음, 구축된 언어모델 변별학습용 DB로부터 음성 인식을 위한 음성 특징 벡터를 추출한다.(S302)

다음, 추출된 음성 특징 벡터를 입력받아, 연속어 음성인식을 수행한다.(S303) 이때, 코퍼스 기반 언어모델 변별학습 장치는 주어진 특징 벡터 데이터에 대하여 음향 모델부, 언어 모델부를 적용하여 출력되는 n-best 인식 결과와 정답 문장의 단어열에 대한 음향 모델부, 언어 모델부를 적용하여 최적의 음향 모델 스테이트(state) 경계, 음소 경계, 단어 경계 및 음성 인식 점수를 출력한다.

다음, 연속어 음성인식 수행을 통해 출력되는 음성인식 결과(n-best) 및 정답 문장 점수를 이용하여 언어모델 변별학습을 수행한다.(S304)

다음, 언어모델 변별학습을 통해 훈련된 변별적 언어모델을 생성한다.(S305)

이하, 언어모델 변별학습용 DB 구축 방법을 도 4를 참조하여 상세하게 설명한다, 도 4는 언어모델 변별학습용 DB 구축 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 먼저 코퍼스 기반 언어모델 변별학습 장치는 텍스트 코퍼스 DB를 준비한다.(S401)

다음, 텍스트 코퍼스 DB에 대하여 변별학습을 수행하는 대신에 우선적으로 변별학습 훈련용 문장 선정을 수행한다.(S402) 여기서, 변별학습 훈령용 문장은 언어모델 학습을 위해 언어모델에서 정의되어 있지 않은 단어(Out-of-vocabulary, OOV)가 포함된 문장을 제외한다. 이는 Out-of-vocabulary 단어가 포함된 문장은 음성인식기가 해당 단어 부분을 정확히 인식하는 것이 불가능하기 때문에 해당 단어를 오인식하고, 해당 OOV 단어 앞/뒤 단어의 오인식을 유발하기 때문이다.

다음, 가상 특징 벡터 생성한다.(S403) 상기와 같이 선정된 변별학습 훈련용 문장을 가상 특징 벡터 생성을 통해 특징 벡터 형태로 변형한다. 이때, 가상 특징 벡터 생성은 변별학습 훈련용 문장과 음향모델에 기반하여 수행한다. 가상 특징 벡터 생성방법에 대한 구체적인 설명은 후술하기로 한다.

다음, 상기와 같이 생성된 특징 벡터들로 언어모델 변별학습용 DB를 구축한다.(S404)

이하, 가상 특징 벡터 추출 방법을 도 5 및 도 6을 참조하여 상세하게 설명한다. 도 5는 가상 특징 벡터 추출 방법을 설명하기 위한 흐름도이고, 도 6은 도 5에 설명된 가상 특징 벡터 추출 방법의 이해를 돕기 위한 도면이다.

도 5 및 도 6을 참조하면, 먼저 코퍼스 기반 언어모델 변별학습 장치는 선정된 변별학습 훈련용 문장을 구성하는 단어 열을 선정한다.(S501, S601)

다음, 단어 열을 발음사전에서 정의되어 있는 모노폰 음소 열로 변환한다.(S502, S602) 이때, 문장의 시작과 끝 부분에 silence 음소를 추가한다.

다음, 모노폰 음소 열을 모노폰의 앞뒤 음소를 고려한 트라이폰 음소열으로 변환한다.(S503, S603)

다음, 트라이폰 음소열을 각 음소를 구성하는 스테이트(state)열로 변환된다.(S504, S604) 이때 각 음소별 평균 길이에 따라 해당 state에 머무른다고 가정한다. 이때, 음향모델에는 state별 GMM 모델이 정의되어 있으며, 아래의 수학식1을 통해 GMM 평균과 분산으로 가상 특징 벡터(MFCC)를 생성한다.(S505, S605)

MFCC(t, i) 는 시간 t에서의 MFCC 벡터의 i 번째 요소를 의미한다.

즉, 특징벡터의 i 번째 요소는 Gaussian 분포 가정하의 random 값으로 결정되며 이때 Gaussian 분포의 평균과 분산은 GMM의 평균(m(i)) 과 분산(v(i))을 사용한다. 이와 같은 과정을 통해 각 문장별 특징벡터 열을 정의한다.

이처럼, 본 발명에 의하면 언어모델 학습에 사용한 텍스트 코퍼스로부터 변별학습 훈련용 코퍼스 DB를 구축함으로써, 타겟 도메인에 해당하는 상당량의 학습 DB를 손쉽게 구축하고 활용할 수 있다. 또한, 본 발명은 변별학습 훈련용 코퍼스 DB를 구축하여 변별 학습을 수행함으로써, 언어모델 전체에 대하여 전반적으로 변별력을 개선시켜 언어모델의 일반화 성능 향상을 기대할 수 있다.

이상에서, 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

110 : 코퍼스 DB부 120 : 음성 특징 벡터 추출부
130 : 연속어 음성인식부 140 : 언어모델 변별학습부
150 : 변별적 언어모델부

Claims

언어모델의 변별학습을 훈련하기 위한 코퍼스 DB로부터 음성 특징 벡터를 추출하여 언어모델 변별학습용 DB를 구축하는 단계;
상기 음성 특징 벡터를 입력받아 연속어 음성인식을 수행하는 단계:
상기 연속어 음성 인식 수행을 통해 출력되는 음성인식 결과(n-best) 및 정답 문장 점수를 이용하여 언어모델 변별학습을 수행하는 단계; 및
상기 언어모델 변별학습 수행으로 훈련된 변별적 언어모델을 생성하는 단계;
를 포함하는 것을 특징으로 하는 코퍼스 기반 언어모델 변별학습 방법.