KR20140077774A

KR20140077774A - 문서 클러스터링 기반 언어모델 적응 장치 및 방법

Info

Publication number: KR20140077774A
Application number: KR1020120146899A
Authority: KR
Inventors: 전형배; 정의석; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2014-06-24

Abstract

본 발명은 문서 클러스터링 기반 언어모델 적응 장치 및 방법에 관한 것이다. 본 발명의 언어 모델 적응 장치는 분야가 유사한 문서끼리 그룹화되도록 전체 문서 코퍼스 집합을 적어도 하나의 클러스터로 클러스터링하는 클러스터링부; 입력 음성에 대해 음성 인식을 수행하여 음성인식 결과 및 단어 격자를 생성하는 음성 인식부; 음성인식 결과와 클러스터 모두의 중심과의 거리 값을 계산하고, 계산된 거리 값을 기초로 적어도 하나의 유사 클러스터를 선정하는 클러스터 선정부; 적어도 하나의 유사 클러스터의 거리 값을 기초로 적어도 하나의 유사 클러스터의 언어 모델의 가중치를 산출하는 가중치 산출부; 가중치 및 언어 모델을 기초로 보간 언어 모델을 생성하는 언어 모델 보간부; 및 보간 언어 모델을 통해 단어 격자를 리스코어링하는 리스코어링부를 포함하는 것을 특징으로 한다.

Description

문서 클러스터링 기반 언어모델 적응 장치 및 방법{APPARATUS AND METHOD FOR ADAPTING LANGUAGE MODEL BASED ON DOCUMENT CLUSTERING}

본 발명은 문서 클러스터링 기반 언어모델 적응 장치 및 방법에 관한 것이고, 보다 상세하게 연속어 음성인식을 수행할 때, 인식된 음성이 음성 내용에 해당하는 도메인으로 언어모델 적응을 수행하는 방법 및 장치에 관한 것이다.

현재 다양한 분야에서 음성인식을 통한 응용들이 사용되고 있다. 하지만 음성인식은 일반적으로, 사용자가 정확하게 발음을 하더라도 인식의 정확도에 문제가 있었다. 이러한 인식률을 높이기 위해 다양한 적응 방법이 연구되고 있다. 이들 적응 방법 중, 언어모델 적응 방식은 일반적으로 일정 분량의 연속된 음성 발성이 주어질 때, 음성 전반부의 일부 발성의 인식결과를 사용하여 언어모델 적응을 수행하는 방식이다. 이렇게 적응된 언어모델을 사용하여 후반부의 음성발성에 대해 인식을 수행하여, 음성 인식의 정확도를 높이는 것을 특징으로 한다.

또한, 인식 결과 문장들로부터 사용자의 주제 또는 도메인을 추정하여 도메인 적응을 수행하는 도메인 적응 언어모델이 존재한다. 하지만, 이를 위해서는 적당한 분량의 데이터가 필요하기 때문에 누적된 인식 결과에 기반하여 도메인 추정을 수행하는 것이 일반적이다.

이에 관련하여, 발명이 명칭이 "사용자 정의 언어 모델들"인 한국공개특허 제2011-0093785호가 존재한다.

본 발명은 연속어 음성인식을 수행할 때, 비교적 짧은 문장만을 이용하면서 보다 정확하게 음성 인식 기능을 수행할 수 있는 문서 클러스터링 기반 언어모델 적응 장치 및 방법을 제공하는데 그 목적이 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 언어 모델 적응 장치는 분야가 유사한 문서끼리 그룹화되도록 전체 문서 코퍼스 집합을 적어도 하나의 클러스터로 클러스터링하는 클러스터링부; 입력 음성에 대해 음성 인식을 수행하여 음성인식 결과 및 단어 격자를 생성하는 음성 인식부; 음성인식 결과와 클러스터 모두와의 중심과의 거리 값을 계산하고, 계산된 거리 값을 기초로 적어도 하나의 유사 클러스터를 선정하는 클러스터 선정부; 적어도 하나의 유사 클러스터의 거리 값을 기초로 적어도 하나의 유사 클러스터의 언어 모델의 가중치를 산출하는 가중치 산출부; 가중치 및 언어 모델을 기초로 보간 언어 모델을 생성하는 언어 모델 보간부; 및 보간 언어 모델을 통해 단어 격자를 리스코어링하는 리스코어링부를 포함하는 것을 특징으로 한다.

또한, 클러스터링부는, 전체 문서 코퍼스 집합 내에 포함된 문서 간 거리 값을 산출하고, 산출된 거리 값을 통해 문서 간 유사도를 판단하는 것을 특징으로 한다.

또한, 클러스터 선정부는, 거리 값을 계산할 때 LSA 또는 LDA 방법을 이용하는 것을 특징으로 한다.

본 발명의 언어 모델 적응 장치 및 방법에 따르면 연속어 음성인식을 수행할 때, 보다 짧은 발화를 이용하여 문서의 도메인을 파악하고, 이를 통해 음성인식의 정확도를 높일 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 언어 모델 적응 장치의 블록도이다.
도 2는 도 1의 클러스터링부에서 전체 문서 코퍼스 집합을 클러스터링하는 예시를 도시한다.
도 3은 본 발명의 일 실시예에 따른 언어 모델 적응 장치의 흐름도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명의 실시예에 따른 언어 모델 적응 장치(100)에 대하여 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 언어 모델 적응 장치(100)의 블록도이다. 언어 모델 적응 장치(100)는 음성 인식부(110), 클러스터링부(120), 클러스터 선정부(130), 가중치 생성부(140), 언어 모델 보간부(150) 및 리스코어링부(160)를 포함하여 구성된다. 언어 모델 적응 장치(100)에 포함된 각 구성은 아래에 서술된다.

음성 인식부(110)는 사용자의 문장 발성 즉, 입력 음성에 대해 음성인식을 수행하고, 음성인식 결과와 단어 격자 (word lattice)를 생성하는 기능을 한다. 이러한 음성 인식부(110)는 음성 인식을 수행할 때, 전체 문서 코퍼스 집합을 사용하여 학습한 통합 언어모델을 기초로 한다.

클러스터링부(120)는 전체 문서 코퍼스 집합을 적어도 하나의 클러스터로 클러스터링하는 기능을 한다. 이러한 클러스터링은 전체 문서 코퍼스 집합에서 도메인 즉, 분야가 유사한 문서끼리 그룹화하기 위함이다. 이를 위해, 클러스터링부(120)는 먼저, 문서 코퍼스 집합 내에 포함된 문서 간의 거리 값을 산출한다. 그 후, 클러스터링부(120)는 산출된 거리 값을 기초로 문서 간 유사도를 판단할 수 있다. 이러한 문서 간 거리 계산에서 관측 데이터는 일반적으로 문서에 존재하는 단어의 개수로 정의한다. 이는 단어 계수 매트릭스(word-count matrix)라고 한다. 이러한 단어 계수 매트릭스는 하기 수학식 1과 같이 정의된다.

수학식 1에서, 인덱스 i는 M개로 정의되어 있는 단어 사전 중 i번째 단어 인덱스를 의미한다. 인덱스 j는 N개의 문서 집합 중에 j 번째 문서를 의미한다. w_ij 는 단어 계수 매트릭스에서 (i, j) 원소의 값을 의미하는 것으로 j 번째 문서에서 i번째 단어에 해당하는 특징 값이 된다. c_ij 는 M개로 정의된 단어 사전 중 i 번째 단어가 j번째 문서에서 나타난 빈도를 의미한다. n_j 는 j번째 문서에 존재하는 모든 단어의 개수를 의미한다. ε_i는 정규화된 엔트로피 항으로서, 하기 수학식 2와 같이 정의된다.

수학식 2에서, t_i는 하기 수학식 3과 같이 정의된다.

수학식 3에서, t_i는 M개로 정의된 단어 사전 중, i번째 단어가 문서에서 존재하는 빈도의 합을 나타낸다.

수학식 1 내지 수학식 3으로 정의되는 단어 계수 매트릭스는 문서의 벡터를 정의한다. 단어 계수 매트릭스 중, j번째 문서의 특징 데이터로 단어 계수 매트릭스 행렬의 j번째 벡터 전체를 사용할 수 있다. 즉, j번째 문서에서 관측되는 M개의 단어의 빈도 값 자체를 특징으로 할 수 있다.

또한, 문서 벡터의 정의는 특이 값 분해(SVD, Singular Value Decomposition) 방법을 통해 문서 벡터를 정의할 수 있다. SVD 방법을 적용하여 문서 벡터를 정의하는 방법을 LSA(Latent Semantic Analysis) 라고도 한다. 또한, LDA(Latent Dirichlet Allocation) 방법에 의해 주제 분석을 수행하여 각 문서의 주제의 비율을 특징 데이터로 정의할 수 있다.

문서단위의 특징 벡터가 LSA 또는 LDA와 같은 방식으로 정의되면 벡터 간 거리 측정 방법에 의하여 문서간의 거리가 정의될 수 있다. 문서 벡터 간의 거리 정의는 유클리드 거리, 코사인(cosine) 거리 및 쿨백 라이블러 거리와 같이 다양한 방법에 의하여 정의 될 수 있다. 하지만, 문서 벡터 간의 거리를 정의하는 방법은 앞서 서술된 정의 방법 외에 기존에 개발된, 또는 차후에 개발될 다양한 방법을 통해 수행될 수 있다는 것이 이해되어야 한다.

LSA 또는 LDA 와 같은 방법을 통해 문서단위의 특징 벡터가 정의되면 문서 클러스터링은 일반적으로 K-평균(means) 클러스터링 방식과 같은 비교사 방식 클러스터링 방법으로 수행된다. 예를 들어, N개의 클러스터가 사용되면, N개의 클러스터 중심 값을 정한다. 그 후, 각 문서마다 가장 가까운 클러스터 중심 값을 찾는다. 그 후, 해당 클러스터로 문서를 할당한다. 모든 문서에 대해서 할당이 수행된 후에 각 클러스터에 할당된 문서들로부터 새로운 클러스터 중심 값을 갱신한다. 클러스터 중심은 클러스터에 할당된 문서 벡터들의 평균값이므로 역시 벡터로 표현되겠다. 모든 클러스터 중심 값이 업데이트 된 후에 다시 한번 모든 문서에 대해서 가장 가까운 클러스터 중심을 찾고, 해당 클러스터에 해당 문서를 할당한다. 이와 같은 과정을 클러스터와 문서들의 거리 합의 변화량이 일정 값 이하가 될 때까지 계속 수행한다. 이와 같은 방법을 K-평균 클러스터링이라고 한다.

K-평균 클러스터링에 의한 문서 클러스터링이 완료된 이후에 각 클러스터에 할당된 문서들을 사용하여 클러스터 각각의 고유의 언어모델을 학습한다. 예를 들어, N개의 클러스터를 학습하였다면, N개의 언어모델이 학습된다.

클러스터 선정부(130)는 음성인식 결과와 문서 코퍼스 집합 내의 모든 클러스터의 중심, 즉 본 예시에서 N개의 클러스터와의 거리 값을 계산하고, 계산된 거리 값을 기초로 적어도 하나의 유사 클러스터를 선정하는 기능을 한다. 음성인식 결과와 클러스터 중심과의 거리 계산 방법은 위에서 언급한 것처럼, LSA 또는 LDA와 같은 방법을 이용하여 계산할 수 있다. 즉, 문서에 존재하는 단어의 빈도수를 기본 관측 데이터로 하여 문서의 특징 벡터를 정의한 후, 문서의 특징 벡터와 클러스터 중심과의 벡터간 거리를 계산하여, 거리 값을 계산할 수 있다. 이렇게, 음성인식 결과와 적어도 하나의 클러스터의 중심과의 거리 값을 계산하면, 적어도 하나의 클러스터 중 거리 값이 낮은 순으로 적어도 하나의 유사 클러스터를 선정한다.

가중치 생성부(140)는 적어도 하나의 유사 클러스터의 거리 값을 기초로, 적어도 하나의 유사 클러스터의 언어 모델에 음성인식 결과가 할당될 확률을 추정하는 기능을 한다. 이러한 확률 추정은 거리 합을 기준으로 정규화하여 정의될 수 있다. 즉, 확률 추정은 하기 수학식 4과 같은 수학식으로 표현될 수 있다.

수학식 4에서, p(doc_k)는 음성인식 결과가 k번째 유사 클러스터에 속할 확률을 의미한다. 이러한, p(doc_k)는 근접도(doc_k)를 정규화하여 정의될 수 있다. 즉, 음성인식 결과와 k번째 유사 클러스터의 중심의 근접도 값을, n개의 유사 클러스터와의 근접도 값의 합으로 나누어 정의될 수 있다. 여기서, 근접도(doc_k)는 하기 수학식 5와 같이 표현될 수 있다.

이렇게, 수학식 4 및 수학식 5를 통해 확률이 정의되면, 이러한 확률은 n개의 유사 클러스터의 보간 가중치로 사용될 수 있다.

언어모델 보간부(150)는 앞서 언급된 적어도 하나의 유사 클러스터와 이의 가중치를 기초로 보간 언어 모델을 생성하는 기능을 한다. 여기서, 보안 언어 모델을 생성할 때, 사용되는 보간법은 하기 수학식 6에 도시된다.

수학식 6에서, LM-_k는 k번째 유사 클러스터의 언어모델을 의미한다. p_k는 k번째 유사 클러스터의 가중치를 의미한다. 즉, 보간 언어 모델은 k번째 클러스터의 언어모델의 가중 합 방식을 이용하여 생성된다. 이러한 보간 과정은 앞서 언급된 유사 클러스터의 언어모델 전체에 걸쳐 수행될 수 있다. 또한, 이러한 보간 과정은 단어 격자에 존재하는 n-gram에 대해서만 수행될 수 있다.

리스코어링부(160)는 보간 언어 모델을 사용하여 음성 인식부(110)에서 생성된 단어 격자의 리스코어링을 수행한다. 이러한 리스코어링 과정을 통해, 최초 음성 인식부(110)에서 인식된 음성인식 결과보다 정확도가 높은 결과물을 산출할 수 있다.

도 2는 도 1의 클러스터링부(120)에서 전체 문서 코퍼스 집합을 클러스터링 하는 예시를 도시한다. 도 2는 전체 문서 코퍼스 집합(10) 및 제 1 클러스터(11) 내지 제 7 클러스터(17)를 도시한다. 도 2를 참고로 알 수 있는 것처럼, 전체 문서 코퍼스 집합(10)은 제 1 클러스터(11) 내지 제 7 클러스터(17)가 일부가 겹쳐져서 클러스터링될 수 있다. 이러한 겹침 영역에 포함된 문서는 2개 또는 3개의 클러스터의 중심과의 거리가 크지 않은 부분이다.

도 3은 본 발명의 일 실시예에 따른 언어 모델 적응 장치의 흐름도이다. 명세서의 명료함을 위해 앞서 도 1 및 도 2를 참조로 서술된 부분과 중복되는 설명이 생략된다.

먼저, 분야가 유사한 문서끼리 그룹화되도록 전체 문서 코퍼스 집합을 적어도 하나의 클러스터로 클러스터링하는 단계(S110)가 수행된다. 이러한 클러스터링 단계는 앞서 언급한 것처럼, 문서 코퍼스 집합 내에 포함된 문서 간의 거리 값을 산출하고, 산출된 거리 값을 기초로 문서 간 유사도를 판단하여 클러스터링을 수행한다. 이러한 거리 값 산출 방법과 클러스터링 수행 방법에 대해서는 앞서 충분히 언급되었으므로, 여기서 이에 대한 설명은 생략된다.

그 후, 입력 음성에 대해 음성 인식을 수행하여 음성인식 결과 및 단어 격자를 생성하는 단계(S120)가 수행된다.

그 후, 음성인식 결과와 문서 코퍼스 집합 내의 모든 클러스터의 중심과의 거리 값을 계산하고, 계산된 거리 값을 기초로 적어도 하나의 유사 클러스터를 선정하는 단계(S130)가 수행된다. S130 단계에서 음성인식 결과와 클러스터 중심과의 거리 계산 방법은 LSA 또는 LDA와 같은 방법이 사용될 수 있다.

그 후, 적어도 하나의 유사 클러스터의 거리 값을 기초로 적어도 하나의 유사 클러스터의 가중치를 산출하는 단계(S140)가 수행된다. 이러한 가중치는 유사 클러스터의 거리 합을 기준으로 정의된 확률 추정을 통해 산출될 수 있다.

그 후, 가중치 및 적어도 하나의 유사 클러스터를 기초로 보간 언어 모델을 생성하는 단계(S150)가 수행된다. 이러한 보간 언어 모델은 적어도 하나의 유사 클러스터의 언어 모델에 대해 각각의 가중치를 적용한 가중 합 방식을 이용하여 생성된다. 이러한 보간 과정은 앞서 언급된 유사 클러스터의 언어모델 전체에 걸쳐 수행될 수 있다. 또한, 이러한 보간 과정은 단어 격자에 존재하는 n-gram에 대해서만 수행될 수 있다.

그 후, 보간 언어 모델을 통해 상기 단어 격자를 리스코어링하는 단계(S160)가 수행된다.

이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100 : 언어 모델 적응 장치 110 : 음성 인식부
120 : 클러스터링부 130 : 클러스터 선정부
140 : 가중치 생성부 150 : 언어모델 보간부
160 : 리스코어링부

Claims

분야가 유사한 문서끼리 그룹화되도록 전체 문서 코퍼스 집합을 적어도 하나의 클러스터로 클러스터링하는 클러스터링부;
입력 음성에 대해 음성 인식을 수행하여 음성인식 결과 및 단어 격자를 생성하는 음성 인식부;
상기 음성인식 결과와 상기 클러스터 모두와의 중심과의 거리 값을 계산하고, 상기 계산된 거리 값을 기초로 적어도 하나의 유사 클러스터를 선정하는 클러스터 선정부;
상기 적어도 하나의 유사 클러스터의 거리 값을 기초로 상기 적어도 하나의 유사 클러스터의 언어 모델의 가중치를 산출하는 가중치 산출부;
상기 가중치 및 상기 언어 모델을 기초로 보간 언어 모델을 생성하는 언어 모델 보간부; 및
상기 보간 언어 모델을 통해 상기 단어 격자를 리스코어링하는 리스코어링부를 포함하는 것을 특징으로 하는, 언어 모델 적응 장치.