KR20030080156A

KR20030080156A - 음성인식기의 음소결정트리 생성방법

Info

Publication number: KR20030080156A
Application number: KR1020020018669A
Authority: KR
Inventors: 구동욱
Original assignee: 엘지전자 주식회사
Priority date: 2002-04-04
Filing date: 2002-04-04
Publication date: 2003-10-11

Abstract

본 발명은 대어휘 연속음성 인식기에서 보다 정확한 음소 군집화를 수행할 수 있도록 화자에 적응되는 음소결정 트리를 제공하는 기술에 관한 것이다. 이러한 본 발명은, 음소결정 트리를 이용하여 음소군집을 분할함에 있어서 분할 정지조건은 무시하고 최대한 많은 노드로 분할하는 제1과정과; 음소의 좌우 문맥과 음성의 특징 벡터를 포함하는 시험 데이터를 트리의 각 노드에 할당하는 제2과정과; 트리의 단말 노드로부터 거슬러 올라가면서 평가함수를 이용하여 평가를 수행할 부분이 올바른 것인지 확인하고, 그 확인 결과 분할하지 않아야 되는 노드들을 병합하여 그 병합된 데이터들은 다시 그 부모 노드에 할당하는 제3과정에 의해 달성된다.

Description

음성인식기의 음소결정트리 생성방법{GENERATION METHOD FOR PHONEME DECISION TREE OF VOICE RECOGNITION UNIT}

본 발명은 대어휘 연속음성 인식기에서 화자에 적응되는 음소결정 트리를 제공하는 기술에 관한 것으로, 특히 음소결정 트리를 이용하여 음소 군집화를 수행한 후 데이터 구동방식으로 군집의 순도를 측정하여 군집의 적합성을 확인하고, 화자의 특징적인 변이가 포함된 기본 모델을 얻을 수 있도록 한 음성인식기의 음소결정트리 생성방법에 관한 것이다.

음성인식이란 전화, 휴대폰 또는 마이크를 통해 입력된 사람의 음성을 컴퓨터가 분석하여 특징을 추출하고 미리 입력된 단어 또는 문장에서 가장 근접한 결과를 인식 결과로 출력하는 최첨단의 소프트웨어 기술이다. 음성인식 기술은 크게 사용자에 따라 화자종속과 화자독립으로 분류되고, 인식 대상의 어휘수에 따라 소어휘 인식기술과 대어휘 인식기술로 분류되며, 단어 단위로 인식하는 단어인식기술, 음소 단위로 인식하는 가변어인식기술, 문장 단위로 인식하는 연속음성인식기술, 문장에서 핵심어만 인식하는 핵심어 인식기술, 인식한 음성을 문자로 받아쓰는 딕테이션(dictation) 등으로 분류된다.

통계적 모델링 방법에 기반한 대어휘 음성인식에서는 모델의 기본 단위로 음소를 사용한다. 음성인식의 성능향상을 위하여 음소의 좌우 문맥에 의한 변이를 모델링하는 삼음소(triphone) 모델이 일반적으로 사용된다. 그런데, 출현 가능한 모든 삼음소를 모델링하는 것은 현실적으로 불가능하기 때문에 음소결정 트리를 사용하여 삼음소를 군집화하고, 이를 모델링하는 방법이 주로 사용되고 있다.

종래의 음소 모델링에 사용하는 음소결정트리 생성 알고리즘은 상위 노드에서 노드의 분할 여부를 결정하는 방식으로 도 1과 같은 과정을 통하여 처리된다.

즉, 루트노드에 모든 데이터를 할당한 후 검사하지 않은 노드를 선택하여 모든 가능한 조건에 대해 평가 함수 m(q,n)을 계산한다. 이후, 분할 조건을 만족하는지 확인하여 만족하는 것으로 판명되면 현재 노드의 데이터를 분할하고 자식 노드에 할당하며, 분할 조건을 만족하지 않는 것으로 판명되면 현재 노드를 단말 노드로 선언한다. 상기와 같은 과정을 반복 수행하여 검사하지 않은 노드가 더 이상 존재하지 않는 것으로 판명되면 음소 트리 생성 과정을 종료하게 된다.

그러나, 이와 같은 종래 음성인식기의 음소 트리 생성방법을 이용하는 경우, 음소 군집이 학습데이터에 편향적으로 분할된 가능성이 있고, 분할을 중지하는 시점에서 군집의 순도에 대한 확인이 불가능한 단점이 있었다.

또한, 사용자의 연령대 혹은 성별등을 고려한 음소모델링의 경우 각각의 경우에 대한 트리 생성을 위하여 각기 같은 양의 학습 데이터를 수집해야 하는 단점이 있다. 예를 들어, 20 대의 화자에서는 "ㄱ-ㅏ-ㄴ"의 "ㅏ" 음소와 "ㅋ-ㅏ-ㅁ"의 "ㅏ" 음소가 같은 군집에 속할 수 있지만 40 대 화자에서는 확연히 다른 군집에 속한다면, 이 두 삼음소는 20 대 화자에서는 같은 모델로 학습되어야 하지만 40 대에서는 서로 다른 모델로 학습되어야 한다. 종래 음소결정 트리의 경우 이러한 화자 변이를 모델에 반영하기 위하여 대단히 많은 양의 데이터를 준비해야 하므로 비용과 시간적인 측면에서 불리한 조건에 있었다.

따라서, 본 발명의 목적은 삼음소 군집에 대한 신뢰도를 향상시키고 비교적 적은 양의 데이터로 사용자의 특징에 적합한 모델을 학습시키는 방법을 제공함에 있다.

본 발명의 또 다른 목적은 음소 모델의 학습단계에서 사용자의 특징에 대한 변이를 모델에 포함시키는데 있다.

도 1은 종래 음성인식기의 음소결정트리의 생성방법을 나타낸 신호 흐름도.

도 2는 본 발명의 음성인식기의 음소결정트리 생성방법을 나타낸 신호 흐름도.

도 3은 전체적인 음소 학습과정을 나타낸 신호 흐름도.

***도면의 주요 부분에 대한 부호의 설명***

B1-SB6 : 제1-6단계

본 발명의 제1특징에 따르면, 삼음소 군집은 데이터 구동방식에 의해 군집의 순도를 측정할 수 있으므로 군집의 순도를 최대한 높일 수 있다.

본 발명의 제2특징에 따르면, 특정 화자의 변이를 포함하는 데이터를 데이터 구동방식의 확인작업에 이용하여 특정 화자의 특징을 반영하는 음소군집을 얻을 수 있다.

본 발명의 제3특징에 따르면, 음소 모델링의 초기 단계에 화자에 대한 변이를 포함하는 모델을 학습하므로 보다 정확한 음소 모델링이 가능하게 된다.

본 발명에 의한 음성인식기의 음소결정트리 생성방법은, 음소결정 트리를 이용하여 음소군집을 분할함에 있어서 분할 정지조건은 무시하고 최대한 많은 노드로 분할하는 제1과정과; 음소의 좌우 문맥과 음성의 특징 벡터를 포함하는 시험 데이터를 트리의 각 노드에 할당하는 제2과정과; 트리의 단말 노드로부터 거슬러 올라가면서 평가함수를 이용하여 평가를 수행할 부분이 올바른 것인지 확인하고, 그 확인 결과 분할하지 않아야 되는 노드들을 병합하여 그 병합된 데이터들은 다시 그부모 노드에 할당하는 제3과정으로 이루어지는 것으로, 이와 같은 본 발명의 음소결정트리 생성방법을 첨부한 도 2 및 도 3을 참조하여 상세히 설명하면 다음과 같다.

본 발명에 의한 음소 군집화 과정은 크게 두 과정으로 이루어지는데, 그 중4에서 첫번째 과정은 음소결정 트리를 이용하여 음소군집을 분할하는 과정이다.

일반적으로 음소결정 트리와 동일한 방법으로 음소군집을 분할하되, 분할 정지조건은 무시하고 최대한 많은 노드로 분할하게 되는데, 이 분할과정을 설명하면 다음과 같다.

제1단계에서 음소군집을 둘로 나눌 때 나누어진 음소군의 순도가 가장 높게 되는 질문을 질문집합으로 선택한다. 이때, 사용되는 평가함수는 다음의 [수학식1]로 표현된다.

여기서, q는 질문, n은 노드의 인덱스, l은 n의 좌측 자식노드, r은 우측 자식노드, Yn은 노드 n에 할당된 음소군, D는 특징벡터의 차원, Nn은 n에 속한 음소군의 개수, sigma는 n에 속한 음소군의 표준편차를 의미한다.

제2단계에서는 분할 정지조건은 무시하고 무조건 분할한다.

제3단계에서는 시험 데이터를 질문에 알맞게 각 노드에 할당한다. 즉, 선택된 질문에 따라 예스(yes) 또는 노우(no)로 나누어지는 각 데이터들을 예스 노드와노우 노드로 나누어 각각의 노드에 할당한다.

제4단계에서는 노드에 할당된 데이터의 개수를 확인하여 영이면 종료하고, 영이 아니면 상기 제1-4단계를 반복 수행한다.

한편, 두번째 과정은 분할된 음소 군집이 올바른 것인지 확인하는 작업으로서 본 발명의 요지부분에 해당된다.

트리의 각 노드에 시험 데이터를 할당하는데, 이때 시험 데이터는 음소의 좌우 문맥과 음성의 특징 벡터를 포함한다. 트리의 단말 노드로부터 거슬러 올라가면서 평가함수를 이용하여 평가를 수행할 부분이 올바른 것인지 확인한다. 그 결과 분할하지 않아야 되는 노드들을 병합하여 그 병합된 데이터들은 다시 그 부모 노드에 할당한다.

이하, 분할된 음소 군집이 올바른 것인지 확인하는 과정을 좀더 상세히 설명하면 다음과 같다.

제1단계에서는 시험 데이터들의 좌우 문맥을 트리 각 노드의 질문과 비교하여 적합한 노드에 시험 데이터를 할당한다.

제2단계에서는 단말 노드까지 진행한다.

제3단계에서는 현재 노드의 형제 노드가 단말 노드인 경우 평가함수를 이용하여 병합 여부를 판단하게 되는데, 이때 사용되는 평가함수는 다음의 [수학식2]로 표현된다.

여기서, R(n)은 노드 n에서의 에러값이고, T는 노드에 할당된 시험데이터 집합을 의미하고, t는 집합의 원소를 의미한다. 또한, mu 는 n에서의 평균(mean) 벡터를 의미한다.

제4단계에서는 평가함수가 병합을 나타낼 경우 데이터를 병합하여 그 부모노드에 할당하고, 현재 노드를 부모노드로 옮긴다.

제5단계에서는 평가함수가 병합을 나타내지 않을 경우 아직 거치지 않은 단말노드를 찾는다.

제6단계에서는 아직 거치지 않은 단말노드가 존재하면 상기 제3단계로 복귀하여 제5단계까지 반복 수행하고, 존재하지 않으면 종료한다.

한편, 상기 본 발명의 음소결정트리 생성방법이 적용되는 전체적인 음소훈련 과정을 도 3을 참조하여 간단히 설명하면 다음과 같다.

먼저, 훈련을 위한 음성을 segmental k-means 알고리즘과 Baum-Welch 알고리즘을 이용하여 스테이트 클러스터링(state clustering)을 위한 모델을 만들고, 그 모델로 완전 분할 음소결정트리를 만든다.

음소결정트리를 확인하기 위한 데이터를 대상으로 segmental k-means 알고리즘을 적용하여 좌우 음운문맥을 가진 특징 벡터를 얻는다.

완전 분할 음소결정트리와 좌우 음운문맥을 가진 특징벡터를 사용하여 새로운 음소결정트리를 만들고, 이를 이용하여 스테이트 클러스터링을 한 후 Baum-Welch 알고리즘을 적용하여 최종 음소모델을 학습한다.

이상에서 상세히 설명한 바와 같이 본 발명은 음소결정 트리를 이용하여 음소군집화를 수행한 후 데이터 구동방식으로 군집의 순도를 측정하여 군집의 적합성을 확인하게 되므로 보다 정확한 음소 군집화를 수행할 수 있는 효과가 있다.

또한, 사용자의 특징적인 변이를 음소 모델링 단계에 반영하게 되므로 화자의 특징적인 변이가 포함된 기본 모델을 얻을 수 있고, 이를 화자 적응기술 등에 적용하는 경우 보다 정밀한 화자 적응 효과를 얻을 수 있다.

Claims

음소결정 트리를 이용하여 음소군집을 분할함에 있어서 분할 정지조건은 무시하고 최대한 많은 노드로 분할하는 제1과정과; 음소의 좌우 문맥과 음성의 특징 벡터를 포함하는 시험 데이터를 트리의 각 노드에 할당하는 제2과정과; 트리의 단말 노드로부터 거슬러 올라가면서 평가함수를 이용하여 평가를 수행할 부분이 올바른 것인지 확인하고, 그 확인 결과 분할하지 않아야 되는 노드들을 병합하여 그 병합된 데이터들은 다시 그 부모 노드에 할당하는 제3과정으로 이루어지는 것을 특징으로 하는 음성인식기의 음소결정트리 생성방법.
제1항에 있어서, 제3과정은 현재 노드의 형제 노드가 단말 노드인 경우 평가함수를 이용하여 병합 여부를 판단하는 제1단계와; 평가함수가 병합을 나타낼 경우 데이터를 병합하여 부모노드에 할당하고, 현재 노드를 부모노드로 옮기는 제2단계와; 평가함수가 병합을 나타내지 않을 경우, 상기 단말노드와 같은 나머지의 단말노드에 대해 상기 제1,2단계와 같이 순차적으로 처리하는 제3단계로 이루어지는 것을 특징으로 하는 음성인식기의 음소결정트리 생성방법.
제1항에 있어서, 평가함수는 다음의 [수학식]과 같은 평가함수임을 특징으로하는 음성인식기의 음소결정트리 생성방법.

여기서, R(n): 노드 n에서의 에러값, T : 노드에 할당된 시험데이터 집합, t : 집합의 원소, mu : n에서의 평균 벡터